近日,中国石油大学(北京)徐春明院士团队arxiv上线了一篇名为《Locally-Deployed Chain-of-Thought (CoT) Reasoning Model in Chemical Engineering: Starting from 30 Experimental Data 》(本地部署的化工思维链(CoT)推理模型:从 30 个实验数据开始)文章。

正文内容

在化工领域的研究进程中,传统的数据处理与预测方法正面临着前所未有的挑战。过往熟悉的实验方法,虽为科研的重要基石,但在当前复杂的研究场景下,逐渐暴露出诸多不足。随着科技的发展,机器学习技术被引入化工领域。神经网络等模型凭借强大的学习能力,能够自动从分子描述符中提取特征,在分子性质预测方面取得了一定成果,相较于传统方法有了显著进步。然而,传统机器学习模型对大量标记数据的依赖,需要获取足够数量且准确标记的分子数据集,且如同一个 “黑箱”,使得科研人员难以理解其预测结果的依据,这在注重机制研究的化工科研中,是一个不容忽视的阻碍。

大语言模型(LLMs)的出现,为化工研究带来了新的思路。LLMs 能够处理和分析化学文献、实验报告等文本信息,从海量数据中挖掘出有价值的知识。但是,不具备推理能力的 LLMs 主要仅能进行模式识别和文本匹配,面对复杂的分子性质和相互作用,无法进行深入的因果推理,在复杂场景下的预测表现欠佳。直至具有推理能力的大语言模型 DeepSeek - R1 出现,它能够从稀疏数据中提取高阶关联,例如发现分子片段组合规则等复杂关系,这对于深入理解分子结构和性质具有重大意义。当仅有 30 个实验结果时,传统机器学习方法(如随机森林和梯度提升等,且需进行超参数优化)在预测分子性质时困难重重,数据量小导致预测可靠性大幅降低。而使用 DeepSeek - R1 时,虽可通过输入已知数据和未知数据特征作为提示来进行预测,但提示的质量和模型的知识储备会对结果产生影响,并且后续可能还需要大量数据进行微调,本地模型的启动方式也是一个需要解决的问题。

本文研究团队提出了一种创新思路:将传统代理模型(如高斯过程和随机森林)与 DeepSeek - R1 相结合,构建分层架构。传统代理模型在小样本不确定性量化方面具有独特优势,能够在数据稀缺时评估预测的可靠性;而 DeepSeek - R1 擅长挖掘复杂分子关系。两者分工协作,传统代理模型快速筛选候选区域,DeepSeek - R1 专注于对高不确定性但高回报的 “边界样本” 进行因果推理,这种组合有望比简单的顺序结合更具高效性。在此基础上,研究团队探索出两种构建思维链(CoT)的方法:LLM - CoT 和 ML - LLM - CoT。

一、LLM - CoT:多模型协作的探索

研究团队精心设计了一种本地部署逻辑,将多个模型与 Ollama 相结合。选择 DeepSeek - r1:14b(4.7GB),该模型在计算效率和性能之间达到了良好的平衡,能够在保证一定准确性的同时,快速响应任务;Qwen2:7b(4.4GB)则凭借在处理分子研究相关语言任务上的独特优势,被集成到框架中,用于协助处理化学文献等信息。

为构建模型,团队从 1128 个分子的数据集中挑选了 30 个分子的溶解度属性及其相关分子描述符(如分子量、LogP 等,这些均可从 RDKit 便捷获取)。同时,基于分子相似性,又选取了 20 个高相似度和 20 个低相似度的分子。计划构建一个针对这 30 个分子数据集的小循环框架,使 DeepSeek - r1:14B 模型在该框架中不断进行预测,并与真实数据对比进行误差分析。

在尝试用本地部署的 DeepSeek - r1:14b 直接预测 20 个未知数据点时,出现了不少问题,如数据点缺失、预测值偏差超 1000%,甚至得到完全不相关的回答。不过,这也为验证构建的思维链提供了契机。在构建 CoT 的过程中,团队以 30 个已知分子的预测为起点,以前 10 个分子的数据作为基础,不断预测后续 20 个分子的性质,并将预测结果作为反馈,逐步优化预测。期间发现,部分分子需要预测多达 20 次,才能积累足够的误差分析以实现准确预测。从结果来看,约 60% 的分子能一次预测误差小于 100%,而剩下 40% 则需要多次预测。

进一步测试构建的 CoT 模型时,从 1128 个数据条目的开源数据集中选取 20 个结构不同和 20 个结构相似的分子。结果显示,对于结构不同的分子,6 个误差超 100%,14 个误差低于 100%;结构相似的分子中,只有 2 个误差高于 100%,其余均在 100% 以下。整体而言,对结构相似分子的预测表现更为优异,溶解度判断也更为准确。

二、ML - LLM - CoT:融合机器学习与大模型的优势

另一种方法 ML - LLM - CoT,是将机器学习和大语言模型的优势相融合。研究团队依旧选用 1128 个分子的数据集,从中挑选 30 个分子作为分析基础。此次,他们将预训练的高斯 ML 模型与基于 LLM 的 CoT 框架进行集成。

高斯模型负责捕捉分子描述符和溶解度属性之间的复杂关系,然后由 LLM(如 DeepSeek - r1:14b 或 Qwen2:7b)对高斯模型的预测结果进行优化。具体流程为,先让高斯模型对 20 个未知数据点(包括相似和不相似的分子)进行初始预测,接着 LLM 结合化学知识和推理,对这些结果进行细化。在预测分析中,如果高斯模型的预测偏差大于设定阈值(如 30%),LLM 就会介入分析误差,生成新的预测提示,不断迭代直至偏差符合要求。

对比高斯模型、LLM - CoT 和 ML - LLM - CoT 在预测分子溶解度上的表现,结果具有重要意义。对于 20 个结构不同的分子,高斯模型有 7 个预测偏差高于 100%,LLM - CoT 有 6 个,ML - LLM - CoT 只有 4 个。在溶解度判断成功率上,高斯模型成功 15 次,LLM - CoT 成功 16 次,ML - LLM - CoT 成功 18 次。对于结构相似的分子,高斯模型和 ML - LLM - CoT 都没有预测偏差高于 100% 的情况,且溶解度判断成功率均为 20 次,LLM - CoT 则有 3 个分子偏差超 100%,成功判断 17 次。

这些结果表明,ML - LLM - CoT 在控制高偏差分子数量、优化平均偏差以及提高溶解度判断成功率方面表现卓越,为化工和分子性质预测提供了更为可靠的方法。而且,在模型构建过程中,ML - LLM - CoT 达到低于 100% 错误率时,仅需 2 个点重新思考,总重新思考次数为 4 次;而 LLM - CoT 需要 5 个点重新思考,总次数高达 34 次,凸显了 ML - LLM - CoT 的高效性。

三、未来展望:更多可能,更大突破

“Deepseek - r1:14b + Qwen2:7B” 这种低成本组合的成功部署,为思维链模型奠定了坚实基础。未来,更大规模模型的应用有望进一步提升预测的准确性,捕捉更为复杂的化学数据关系。CoT 模型在处理私人数据方面具有显著优势,能够更好地保护数据隐私,这在化工这一对数据安全要求极高的行业中至关重要。

鉴于 Deepseek 对化工领域 “三传一反”(传质、传热、动量传递和化学反应)相关方程的理解,CoT 模型还有望在优化化学反应过程、预测反应产率、改进传质传热条件等方面取得突破。与传统机器学习模型优化框架相比,CoT 框架减少了对大量手动数据标注的依赖,节省了大量时间和资源。

此外,研究团队还分享了 ML - LLM - CoT 模型的一些思考记录实例。例如在预测 “Cycloheptane” 的溶解度时,模型会对比自身与 ML 模型的结果,发现相似但存在数据归一化的小差异后,基于化学性质和数据特征关系进行微调;遇到结构复杂的 “2 - Methyl - 1 - phenyl - 1H - indole - 3 - carboxylic acid” 时,模型能识别其独特结构,参考以往类似结构分子的预测误差分析,调整算法以提高预测准确性;在预测 “N,N - Dimethy - lformamide” 的溶解度时,能发现 ML 模型的问题,重新评估分子中各功能基团的重要性,调整预测结果。

这项研究突破了传统方法的局限,为化工领域的快速性质预测和过程优化提供了全新的解决方案。随着研究的不断深入,CoT 模型有望在化学工程和分子预测领域发挥更为重要的作用,取得更多令人瞩目的成果。

我的DeepSeek部署资料已打包好(自取↓)
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!

❗️为什么你必须了解大模型?

1️⃣ 薪资爆炸:应届大模型工程师年薪40万起步,懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构:金融、医疗、教育正在被AI重塑,不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车:90%的进阶技巧不需写代码!会说话就能指挥AI

(附深度求索BOSS招聘信息)
在这里插入图片描述

⚠️警惕:当同事用DeepSeek 3小时干完你3天的工作时,淘汰倒计时就开始了。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?老师啊,我自学没有方向怎么办?老师,这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!当然这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐