[集思广益]讨论编写大语言模型汉语化学微调数据集

论坛>数理化>化学

文号933858

2996

Gdeestan2024/07/06化学，软件综合 IP:广西

LLM(大语言模型)的惊人发展和潜在的巨大教育价值十分令人期待，但是要发挥某个非热门场景的能力就得进行针对性的微调，故此集思广益

这将会是一个无偿的公益项目

目前需要解决的主要问题是需求的问题

现在我设计的两个场景是

面向初高中生，用来进行基础概念与理论的学习
作为一个较通用的可信度较高而内容较丰富的化学资料查询助手

主要的工作还是集中在第一个场景上

不知道大家在学习或者使用LLM进行学习的时候有过什么痛点？

查不到资料然后模型胡编乱造估计是普遍的，这一点估计只能靠塞资料来解决了

其他问题

自动化数据获取与预处理

输入输出对模板开发

数据集审查

（都是很费人的工作）

另外的

使用途径 Google-gemini，OpenAI，本地部署

由于条件有限，我是用的模型是Google免费的gemini 1 pro（性能相当于加强版的chatgpt3.5turbo但要回答快许多）数据集基本上是通用的，某些数据集可能就模型的具体性能进行针对性优化。当然啦，这就得先对模型的场景能力范围进行测绘评估，然后才能查漏补缺

哈期待也来一个“业余火箭”微调大模型

来自：数理化 / 化学，计算机科学 / 软件综合特殊话题：提问/求助

已屏蔽原因：{{ notice.reason }}已屏蔽

屏蔽解除屏蔽编辑详情

~~空空如也

三水合番

4个月15天前 IP:四川

933861

1楼

现在这个时间点，做LLM相关的“业余公益项目”，有个很尴尬的问题：

这个领域进展如此之快，以至于即使在细分赛道上，“业余”级别的进展速度，也容易被主流超过。

举例来说就是，你花了好多心思，就差临门一脚就要实现某个不错的效果了。结果openai突然来了个更新，捎带手就把这个效果实现了（如果不是“他们已经实现了，只是你还不知道”的话）。甚至对他们来说这个效果如此不值一提，以至于都没写在更新日志里 sticker

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

Gdeestan

作者

4个月15天前 IP:广西

933863

2楼

引用三水合番发表于1楼的内容

现在这个时间点，做LLM相关的“业余公益项目”，有个很尴尬的问题：这个领域进展如此之快，以至于即使在...

我感觉倒是不至于，大模型在化学学科的能力一直都差强人意，尤其是汉语化学，这和化学的优秀数据大多在文献里和化学的专业性很强都有一定的关系。再者，即使是像你说的那样先进的大模型恐怕也能力过于泛化可能需要微调进行场景化适应。还有，模型再先进，用不上、用不爽也不行啊有多少人能方便的上OpenAI了？ChatGPT4的请求什么时候能多一些啊？（相比之下Google的gemini则简单方便多了体验也不错）要不等一波国产模型发力最后，微调的话能满足原模型实现不了的特殊功能，场景化应用中倒是省去了提示工程浪费的token

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

UICalc

4个月15天前 IP:上海

933867

3楼

请问LZ知道标数据集需要多少财力吗。。

何况LZ说的这个工作需要许多专业知识进行数据清洗，恐怕不是有钱就能搞定的事情

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

Gdeestan

作者

4个月15天前 IP:中国

933873

4楼

引用UICalc发表于3楼的内容

请问LZ知道标数据集需要多少财力吗。。何况LZ说的这个工作需要许多专业知识进行数据清洗，恐怕不是有钱...

可能我比较幼稚，我目前的想法是编写大约1K的问答对，适应一般的问答场景需求，目前的需求还尚未明确。至于你说的数据清洗的困难，我不太清楚你指的什么。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

大仙

4个月15天前 IP:江苏

933880

5楼

引用Gdeestan发表于4楼的内容

可能我比较幼稚，我目前的想法是编写大约1K的问答对，适应一般的问答场景需求，目前的需求还尚未明确...

一般标记数据的找的都是工资很低的员工，专业数据标记成本非常高。除非找学生，监狱罪犯这种人群。

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

Gdeestan

作者

4个月15天前 IP:中国

933890

6楼

引用大仙发表于5楼的内容

一般标记数据的找的都是工资很低的员工，专业数据标记成本非常高。除非找学生，监狱罪犯这种人群。

以下是使用deepseek v2 chat 对教材

<Map: Chemistry - The Molecular Nature of Matter and Change (Silberberg)>的1.1部分进行翻译后简单标注类型标签制作的CSV数据集

input,output,type
"化学家研究什么？","化学家研究物质材料的结构、物理性质和化学性质。","定义"
"哪些是物质？","黄金、铱、花生、人、邮票、烟雾、烟尘和笑气都是物质。","列举"
"哪些不是物质？","能量、光、声音、思想和情感不是物质。","列举"
"质量和重量的区别是什么？","质量是物体的一个基本属性，不依赖于其位置，而重量是由于作用在物体上的引力吸引所产生的力，取决于物体的位置。","解释"

可以看出质量相对较高，如果开发api自动脚本能极大的提高效率（至于到时候要付多少api费用就不知道了）

目前采集数据的困难就是中文资料资源较少，转化成本高（很多都是扫描版）英文资料恰好相反，但是粗翻译和精翻译又是额外的开销

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

章鱼wheat

4个月15天前 IP:江西

933895

7楼

面向初高中生第一个需要考虑的就是'简单' 实际上大部分人都停留在使用国内AI或者是什么镜像网站根本没几个会去访问官网的

去搜了一下"chatgpt 微调" 还需要使用api 那又是难上加难了

要用的话人家需要打开电脑然后使用某个稳定性很差的免费软件再用稳定性很差的XX 去注册账号通过人机验证查看自己的api key,打开命令行使用api 体验极差

真要用很可能得自写个网站手机电脑都能用内置api

并且内容还不能是那种简单的搜索引擎一搜就出来的要是搜索引擎一搜就出来的还不如直接用搜索引擎用ai还更繁琐一般会认为搜不出来就基本=冷门费力去搜集冷门的到时候能触发几条都不知道

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

Gdeestan

作者

4个月15天前 IP:广西

933902

8楼

引用章鱼wheat发表于7楼的内容

面向初高中生第一个需要考虑的就是'简单' 实际上大部分人都停留在使用国内AI或者是什么镜像网站根本...

喂饭的话还是算了，提供数据集又不是提供服务。就目前而言要使用的话，最好就是上Google AI Studio，毕竟免费，但是要自己微调操作挺麻烦，一般使用就上Google AI Studio，调用微调模型的api需要麻烦的设置OAuth，但好处是可以提供给100账户使用

有了api直接上开源浏览器插件 ChatGPTBox 不过不知道是否需要对微调模型的api进行额外的适配

内容不简单是拓展集的要求，就是塞资料，由于模型本身能力参差恐怕还要进行针对性填补

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

WernerPleischner 十步芳草

4个月14天前修改于 4个月14天前 IP:广东

933907

9楼

中学生要有这空来自己fine tune模型，要么他是来学AI的，要么他还不如自己看化学书去。

很明显，你自己调出一个模型，你问他个你不知道的问题，你敢直接就信吗

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

九又

3天4时前 IP:甘肃

939464

10楼

话说，我也有这个想法

目前试过gemma qwen llama

这东西部署消耗CPU与内存，微调耗GPU。想过用趋动云这类花钱训练大模型，但问题是微调的数据集数据不够

引用

加载评论中，请稍候...

200字以内，仅用于支线交流，主线讨论请采用回复功能。

折叠评论

想参与大家的讨论？现在就登录或者注册。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

200字以内，仅用于支线交流，主线讨论请采用回复功能。

当前账号的附件下载数量限制如下：

请选择违规类型：

空空如也