[集思广益]讨论编写大语言模型汉语化学微调数据集
Gdeestan2024/07/06化学软件综合 IP:广西

  LLM(大语言模型)的惊人发展和潜在的巨大教育价值十分令人期待,但是要发挥某个非热门场景的能力就得进行针对性的微调,故此集思广益

  这将会是一个无偿的公益项目


  目前需要解决的主要问题是需求的问题

  现在我设计的两个场景是

  1.   面向初高中生,用来进行基础概念与理论的学习

  2.   作为一个较通用的可信度较高而内容较丰富的化学资料查询助手

主要的工作还是集中在第一个场景上


  不知道大家在学习或者使用LLM进行学习的时候有过什么痛点?


  查不到资料然后模型胡编乱造估计是普遍的,这一点估计只能靠塞资料来解决了


其他问题

自动化数据获取与预处理

输入输出对模板开发

数据集审查

(都是很费人的工作)


另外的

  使用途径 Google-gemini,OpenAI,本地部署

  由于条件有限,我是用的模型是Google免费的gemini 1 pro(性能相当于加强版的chatgpt3.5turbo但要回答快许多)数据集基本上是通用的,某些数据集可能就模型的具体性能进行针对性优化。当然啦,这就得先对模型的场景能力范围进行测绘评估,然后才能查漏补缺


 哈 期待也来一个“业余火箭”微调大模型😆

来自:数理化 / 化学计算机科学 / 软件综合特殊话题:提问/求助
10
已屏蔽 原因:{{ notice.reason }}已屏蔽
{{notice.noticeContent}}
~~空空如也
三水合番
4个月15天前 IP:四川
933861

现在这个时间点,做LLM相关的“业余公益项目”,有个很尴尬的问题:

这个领域进展如此之快,以至于即使在细分赛道上,“业余”级别的进展速度,也容易被主流超过。

举例来说就是,你花了好多心思,就差临门一脚就要实现某个不错的效果了。结果openai突然来了个更新,捎带手就把这个效果实现了(如果不是“他们已经实现了,只是你还不知道”的话)。甚至对他们来说这个效果如此不值一提,以至于都没写在更新日志里 sticker

引用
评论
3
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
Gdeestan作者
4个月15天前 IP:广西
933863
引用三水合番发表于1楼的内容
现在这个时间点,做LLM相关的“业余公益项目”,有个很尴尬的问题:这个领域进展如此之快,以至于即使在...

我感觉倒是不至于,大模型在化学学科的能力一直都差强人意,尤其是汉语化学,这和化学的优秀数据大多在文献里和化学的专业性很强都有一定的关系。再者,即使是像你说的那样先进的大模型恐怕也能力过于泛化可能需要微调进行场景化适应。还有,模型再先进,用不上、用不爽也不行啊😂有多少人能方便的上OpenAI了?ChatGPT4的请求什么时候能多一些啊?(相比之下Google的gemini则简单方便多了体验也不错)要不等一波国产模型发力😂 最后,微调的话能满足原模型实现不了的特殊功能,场景化应用中倒是省去了提示工程浪费的token

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
UICalc
4个月15天前 IP:上海
933867

请问LZ知道标数据集需要多少财力吗。。

何况LZ说的这个工作需要许多专业知识进行数据清洗,恐怕不是有钱就能搞定的事情

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
Gdeestan作者
4个月15天前 IP:中国
933873
引用UICalc发表于3楼的内容
请问LZ知道标数据集需要多少财力吗。。何况LZ说的这个工作需要许多专业知识进行数据清洗,恐怕不是有钱...

  可能我比较幼稚,我目前的想法是编写大约1K的问答对,适应一般的问答场景需求,目前的需求还尚未明确。至于你说的数据清洗的困难,我不太清楚你指的什么。

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
大仙
4个月15天前 IP:江苏
933880
引用Gdeestan发表于4楼的内容
  可能我比较幼稚,我目前的想法是编写大约1K的问答对,适应一般的问答场景需求,目前的需求还尚未明确...

一般标记数据的找的都是工资很低的员工,专业数据标记成本非常高。除非找学生,监狱罪犯这种人群。

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
Gdeestan作者
4个月15天前 IP:中国
933890
引用大仙发表于5楼的内容
一般标记数据的找的都是工资很低的员工,专业数据标记成本非常高。除非找学生,监狱罪犯这种人群。

以下是使用deepseek v2 chat 对教材

<Map: Chemistry - The Molecular Nature of Matter and Change (Silberberg)>的1.1部分进行翻译后简单标注类型标签制作的CSV数据集

input,output,type 

"化学家研究什么?","化学家研究物质材料的结构、物理性质和化学性质。","定义"

"哪些是物质?","黄金、铱、花生、人、邮票、烟雾、烟尘和笑气都是物质。","列举"

"哪些不是物质?","能量、光、声音、思想和情感不是物质。","列举"

"质量和重量的区别是什么?","质量是物体的一个基本属性,不依赖于其位置,而重量是由于作用在物体上的引力吸引所产生的力,取决于物体的位置。","解释"


  可以看出质量相对较高,如果开发api自动脚本能极大的提高效率(至于到时候要付多少api费用就不知道了)

  目前采集数据的困难就是中文资料资源较少,转化成本高(很多都是扫描版)英文资料恰好相反,但是粗翻译和精翻译又是额外的开销

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
章鱼wheat
4个月15天前 IP:江西
933895

面向初高中生第一个需要考虑的就是'简单' 实际上大部分人都停留在使用国内AI或者是什么镜像网站 根本没几个会去访问官网的

去搜了一下"chatgpt 微调" 还需要使用api 那又是难上加难了

要用的话人家需要打开电脑 然后使用某个稳定性很差的免费软件 再用稳定性很差的XX 去注册账号 通过人机验证 查看自己的api key,打开命令行使用api   体验极差 

真要用很可能得自写个网站 手机电脑都能用 内置api 

并且内容还不能是那种简单的 搜索引擎一搜就出来的 要是搜索引擎一搜就出来的还不如直接用搜索引擎 用ai还更繁琐 一般会认为搜不出来就基本=冷门 费力去搜集冷门的 到时候能触发几条都不知道

引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
Gdeestan作者
4个月15天前 IP:广西
933902
引用章鱼wheat发表于7楼的内容
面向初高中生第一个需要考虑的就是'简单' 实际上大部分人都停留在使用国内AI或者是什么镜像网站 根本...

  喂饭的话还是算了,提供数据集又不是提供服务。就目前而言要使用的话,最好就是上Google AI Studio,毕竟免费,但是要自己微调操作挺麻烦,一般使用就上Google AI Studio,调用微调模型的api需要麻烦的设置OAuth,但好处是可以提供给100账户使用

  有了api直接上开源浏览器插件  ChatGPTBox  不过不知道是否需要对微调模型的api进行额外的适配

  内容不简单是拓展集的要求,就是塞资料,由于模型本身能力参差恐怕还要进行针对性填补


引用
评论
2
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
WernerPleischner
4个月14天前 修改于 4个月14天前 IP:广东
933907

中学生要有这空来自己fine tune模型,要么他是来学AI的,要么他还不如自己看化学书去。

很明显,你自己调出一个模型,你问他个你不知道的问题,你敢直接就信吗

引用
评论
1
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
九又
3天4时前 IP:甘肃
939464

话说,我也有这个想法

目前试过gemma qwen llama

这东西部署消耗CPU与内存,微调耗GPU。想过用趋动云这类花钱训练大模型,但问题是微调的数据集数据不够


引用
评论(1)
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论

想参与大家的讨论?现在就 登录 或者 注册

文件下载
加载中...
{{errorInfo}}
{{downloadWarning}}
你在 {{downloadTime}} 下载过当前文件。
文件名称:{{resource.defaultFile.name}}
下载次数:{{resource.hits}}
上传用户:{{uploader.username}}
所需积分:{{costScores}},{{holdScores}}下载当前附件免费{{description}}
积分不足,去充值
文件已丢失

当前账号的附件下载数量限制如下:
时段 个数
{{f.startingTime}}点 - {{f.endTime}}点 {{f.fileCount}}
视频暂不能访问,请登录试试
仅供内部学术交流或培训使用,请先保存到本地。本内容不代表科创观点,未经原作者同意,请勿转载。
音频暂不能访问,请登录试试
支持的图片格式:jpg, jpeg, png
插入公式
评论控制
加载中...
文号:{{pid}}
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

加载中...
详情
详情
推送到专栏从专栏移除
设为匿名取消匿名
查看作者
回复
只看作者
加入收藏取消收藏
收藏
取消收藏
折叠回复
置顶取消置顶
评学术分
鼓励
设为精选取消精选
管理提醒
编辑
通过审核
评论控制
退修或删除
历史版本
违规记录
投诉或举报
加入黑名单移除黑名单
查看IP
{{format('YYYY/MM/DD HH:mm:ss', toc)}}