
从直觉到深思:推理大语言模型综述
在人工智能领域,模拟人类的思维方式一直是研究的核心目标之一。人类的思维可以分为两种模式:快速、直觉的“系统1”和缓慢、深思的“系统2”。近年来,大型语言模型(LLMs)在“系统1”式的快速决策中表现出色,但在需要复杂推理的“系统2”任务中却显得力不从心。然而,随着OpenAI的o1/o3和DeepSeek的R1等推理型LLMs的出现,这一局面正在发生改变。这些模型不仅在数学和编程等领域展现了专家级
在人工智能领域,模拟人类的思维方式一直是研究的核心目标之一。人类的思维可以分为两种模式:快速、直觉的“系统1”和缓慢、深思的“系统2”。近年来,大型语言模型(LLMs)在“系统1”式的快速决策中表现出色,但在需要复杂推理的“系统2”任务中却显得力不从心。然而,随着OpenAI的o1/o3和DeepSeek的R1等推理型LLMs的出现,这一局面正在发生改变。这些模型不仅在数学和编程等领域展现了专家级的表现,还展示了类似人类的认知能力。这篇论文“From System 1 to System 2: A Survey of Reasoning Large Language Models”深入探讨了推理型LLMs的构建、核心方法、性能评估以及未来发展方向,为读者呈现这一领域的全貌。
1、引言
人类的思维模式可以分为两种:快速、直觉的“系统1”和缓慢、深思的“系统2”。前者擅长快速决策,但容易受到认知偏差的影响;后者则通过逻辑推理做出更准确的判断。尽管基础型LLMs在文本生成、语言翻译等任务中表现出色,但它们主要依赖“系统1”式的快速决策,缺乏“系统2”式的深度推理能力。推理型LLMs的出现填补了这一空白,它们通过逐步分析信息,能够处理复杂的数学、逻辑和多模态推理任务,展现出类似人类的认知能力。
2、 推理型LLMs的基础
2.1 基础型LLMs的进展
基础型LLMs的发展始于2018-2019年的预训练Transformer模型,如BERT和GPT。这些模型通过大规模文本数据的无监督预训练,展示了强大的语言理解和生成能力。GPT-3的发布进一步证明了无监督预训练的潜力,其在少样本学习和多种NLP任务中表现出色。2023-2024年,GPT-4、LLaMA和LLaVA等模型在推理、上下文理解和多模态推理方面取得了显著进展。
2.2 符号逻辑系统
符号逻辑系统是早期AI的重要组成部分,通过规则和逻辑原则表示知识并得出结论。Prolog等逻辑编程语言在自然语言处理和专家系统中发挥了重要作用。尽管符号逻辑系统在结构化环境中表现出色,但其僵化的规则限制了其适应性。然而,符号逻辑与基础型LLMs的结合为推理型LLMs的发展奠定了基础。
2.3 蒙特卡洛树搜索(MCTS)
MCTS是一种基于模拟的搜索算法,广泛应用于决策和规划任务。它通过选择、扩展、模拟和反向传播四个步骤构建搜索树,帮助模型在复杂推理任务中找到最优路径。MCTS在围棋等棋盘游戏和机器人路径规划中表现出色,其与LLMs的结合显著提升了模型的推理能力。
2.4 强化学习(RL)
强化学习是一种通过与环境交互并接收奖励来学习的机器学习方法。早期的突破如Q-learning和DQN使得RL能够处理复杂的状态空间。AlphaGo的成功展示了RL在复杂环境中的潜力,其通过自我对弈掌握了围棋的策略。AlphaZero进一步扩展了这一方法,掌握了多种棋盘游戏。AlphaStar在实时战略游戏《星际争霸II》中的成功证明了RL在复杂决策场景中的适应能力。
3、 推理型LLMs的构建
3.1 推理型LLMs的特征分析
3.1.1 输出行为视角
推理型LLMs在输出结构中表现出强烈的探索性行为,尤其是在处理复杂问题时。它们能够提出新的假设并探索替代解决方案路径。例如,WizardMath和DeepSeekMath等模型在解决数学问题时,表现出明显的探索性行为。研究表明,慢思考模型在生成下一个token时,会进行潜在的生成过程,这种过程在RL规模训练中自然出现。Quiet-STaR框架通过引入辅助预训练阶段,强调了在内容生成前的内部思考和探索机制的重要性。
此外,推理型LLMs在验证和检查过程中表现出高度的细致性。例如,OpenAI的o1和o3模型在推理框架中结合了宏观和微观动作,如“等待”、“暂停”和“重新思考”,以确保任务的精确执行。Marco-o1在构建长链推理(Long-CoT)时,通过MCTS过程为每个树节点分配“等待!我可能犯了一些错误!我需要从头开始重新思考”的状态,促进了反思性推理。
3.1.2 训练动态视角
推理型LLMs在数据效率方面表现出色。与传统的均匀分布难度级别的指令集扩展方法不同,专注于难样本的慢思考CoT数据集在医学和数学等领域实现了更好的泛化。例如,STILL2仅使用5000个蒸馏样本就展示了出色的性能,而Sky-T1使用17000个Long-CoT样本实现了与QwQ相当的性能。
此外,推理型LLMs的训练方法表现出稀疏性。RedStar在仅使用4000个核心LongCoT样本的情况下,在文本和多模态任务中取得了卓越的结果。与简单的CoT相比,慢思考监督微调(SFT)数据表现出显著的样本效率,通常只需1/100的样本量即可达到可比的结果。
在参数特性方面,慢思考训练(如LongCoT方法)在不同层中产生相对均匀的梯度范数,而快速思考(如简化CoT方法)在早期层中产生较大的梯度幅度。研究表明,超过300亿参数的大型模型更适合推理型LLMs的训练,因为它们具有更强的复杂推理能力。
3.2 核心方法
3.2.1 结构搜索
结构搜索通过MCTS等方法,帮助模型在复杂推理任务中找到最优路径。MCTS通过模拟未来状态和反向传播估计奖励,使模型能够高效地识别高奖励的推理路径。例如,RAP通过将MCTS与世界模型结合,使系统能够迭代优化中间推理步骤并改进未来预测。Forest-of-Thought利用MCTS动态探索多个推理轨迹,重新审视有缺陷的路径并优化结果。
在代码生成和数学推理等高度专业化的领域中,MCTS的应用展示了其在迭代评估和优化中间步骤中的实用性。例如,SRA-MCTS和MC-NEST展示了MCTS在代码生成和数学推理中的效用。在指令对齐领域,SPaR和Marco-o1利用MCTS优化响应并使推理轨迹与人类偏好或期望结果对齐。
3.2.2 奖励建模
奖励建模包括结果监督(ORM)和过程监督(PRM)两种范式。ORM强调最终答案的正确性,而PRM提供逐步的解决方案轨迹标签,评估每个推理步骤的质量。PRM在复杂推理任务中具有显著优势,因为它提供了细粒度的监督,允许识别解决方案路径中的特定错误。例如,MATHSHEPHERD利用最终答案的正确性定义中间步骤的质量,自动化了逐步数据收集过程。
尽管PRM具有优势,但其数据收集过程耗时且成本高。为了解决这一问题,研究人员探索了各种自动化注释方法。例如,ReST-MCTS*结合过程奖励指导和MCTS,通过广泛的模拟生成更高质量的推理轨迹。OmegaPRM引入分治算法,自动化过程监督数据生成。
3.2.3 自我改进
自我改进通过模型的探索能力进行自我监督,逐步提升模型在翻译、数学推理和多模态感知等任务中的表现。例如,STaR使用少量示例进行数据收集,而ReST和ReST-EM依赖完整轨迹的多次采样。Quiet-STaR在token级别进行探索,引入元token和非近视损失以增强监督。
在改进策略方面,STaR及其衍生版本(如V-STaR和B-STaR)结合过滤和SFT。ReST及其变体引入创新的奖励计算方法,增强RL训练的策略模型。RISE结合外部反馈,在改进过程中记录奖励并通过蒸馏优化响应。
3.2.4 宏动作
宏动作框架通过引入战略规划、内省验证和迭代细化等层次化认知阶段,增强了推理的深度和广度。例如,HiICL-MCTS通过种子数据生成宏动作链模板,促进测试时推理。ReasonFlux利用外部高层思维模板迭代优化和更新当前CoT。
在数据合成和训练框架中,宏动作架构增强了推理的多样性和泛化能力。例如,LLaVA-CoT通过外部化跨多模态的中间推理步骤,增强了CoT数据合成。AtomThink使用结构化g1提示生成AMATH-SFT数据集,在长时推理任务中优于传统CoT方法。
3.2.5 强化微调
强化微调(RFT)通过奖励机制引导模型的推理过程,提升其在特定领域的表现。DeepSeek-R1通过验证器奖励策略,展示了显著的性能提升。RFT的优势包括简化的训练流程、增强的可扩展性和独特的涌现能力,如长链推理。
然而,RFT面临奖励模型饱和、长推理链不稳定和涌现机制不明确等挑战。例如,DeepSeek-R1在生成长推理链时容易出现上下文溢出、未能返回最终答案和对奖励塑造敏感等问题。未来研究应关注开发更稳健的RL算法、合成高质量多样化的提示以及控制长推理链的稳定性。
3.3 推理型LLMs的进化
推理型LLMs的进化经历了从外部增强推理到内部嵌入推理的转变。早期模型通过外部推理算法增强预训练LLMs,如Tree of Thoughts和Reasoning via Planning利用LLMs驱动的广度优先搜索、深度优先搜索和MCTS模拟人类推理过程。然而,这些方法引入了搜索空间有限和经验共享不足等挑战。
随着o1和QwQ等模型的引入,外部推理范式被内化到LLMs的上下文中。这些模型通过“重新思考”和“验证”机制生成扩展推理链。STILL-1将树搜索输出线性化为具有“重新思考”、“等待”和“探索新路径”属性的长推理链。STILL-2和sky-T1使用蒸馏技术合成长推理链。
最近的进展,如DeepSeek-R1和Kimi-k1.5,展示了RL在增强模型复杂推理行为方面的潜力。这些模型通过简单的RL扩展实现了长推理链、反思推理和高级规划能力。SimpleRL使用简化的管道和最小代码库复制了这些能力,而R1V探索了基于多模态基础架构的多模态推理模型的开发。
4、 推理型LLMs的基准测试
4.1 基准类别
推理基准测试涵盖了数学、代码、科学、代理、医学和多模态推理等多个任务类型。这些基准测试展示了推理型LLMs在不同领域的表现。
4.1.1 数学问题
数学问题基准测试包括AIME 2024、MATH-500、AMC 2023和Olympiad Bench等,展示了推理型LLMs在竞争级数学问题中的能力。
4.1.2 代码问题
代码问题基准测试如Codeforces、SWEbench和LiveCodeBench,评估了推理型LLMs在代码生成和逻辑推理中的表现。
4.1.3 科学问题
科学问题基准测试如GPQA Diamond和MMLU-Pro,涉及化学、生物和物理等多领域推理,要求模型具备广泛的知识积累和综合推理能力。
4.1.4 代理推理
代理推理基准测试如WebShop和WebArena,关注现实任务中的复杂规划和工具使用。SciWorld和TextCraft则围绕科学研究任务展开。
4.1.5 医学推理
医学推理基准测试如JAMA Clinical Challenge、Medbullets和MedQA,模拟医生的疾病诊断过程,评估模型在复杂医学推理中的表现。
4.1.6 多模态推理
多模态推理基准测试如MMMU和MathVista,要求模型结合文本和图像进行跨模态思考。MathVision、MathVerse、CMMaTH和PGPS9K等基准测试对视觉中心问题提出了更高要求。
4.2 评估指标
评估指标根据任务类型、技术方案和推理范式有所不同。
4.2.1 任务类型
数学推理通常使用Pass@k和Cons@k指标,代码任务使用Elo和Percentile指标,科学任务使用Exact Match和Accuracy指标。
4.2.2 技术方案
基于技术路线的方案,如ORM或PRM,通常使用RM@k和Best-of-N指标。自我一致性方法使用Greedy Decoding、Beam Search和Major@k指标。
4.2.3 推理范式
多轮解决方案生成的推理范式使用Outcome Efficiency和Process Efficiency指标,评估长思考的效率。
4.3 性能比较
推理型LLMs在数学和代码任务中表现出色,显著优于基础型LLMs。例如,DeepSeek-R1和OpenAI o1/o3在AIME 2024和Codeforces等基准测试中取得了高分。在多模态任务中,推理型LLMs的表现也有所提升,但改进幅度不如文本任务显著。
5. 挑战与未来方向
5.1 高效的推理型LLMs
推理型LLMs在处理复杂问题时依赖长推理链,导致高延迟。未来研究应关注外部推理工具的集成和慢思考推理能力在小规模模型中的实现。
5.2 慢思考与快思考系统的协作
推理型LLMs在简单任务中可能过度推理,导致效率低下。未来研究应开发自适应切换机制和联合训练框架,平衡快思考和慢思考系统的优势。
5.3 科学领域的推理型LLMs
推理型LLMs在医学和数学等领域的复杂推理任务中表现出色,未来应进一步探索其在物理、工程和计算生物学中的应用。
5.4 神经与符号系统的深度融合
尽管推理型LLMs取得了显著进展,但其透明度和可解释性仍有限。未来应探索神经与符号系统的深度融合,提升模型的适应性和可解释性。
5.5 多语言推理型LLMs
当前推理型LLMs在高资源语言中表现优异,但在低资源语言中仍面临挑战。未来应关注数据稀缺和文化偏见问题,提升模型在低资源语言中的表现。
5.6 多模态推理型LLMs
将慢思考推理能力从文本领域扩展到多模态领域仍是一个挑战。未来应开发层次化推理LLMs,实现细粒度的跨模态理解和生成。
5.7 安全的推理型LLMs
随着推理型LLMs的快速发展,确保其安全和可控性变得至关重要。未来应开发结合RL和SFT的混合方法,减少有害输出,确保模型的安全使用。
6、 结论
本文全面综述了推理型LLMs的进展,从基础型LLMs和早期“系统2”技术的结合,到推理型LLMs的构建、核心方法和性能评估。通过回顾主流推理基准和性能比较,本文为读者提供了该领域的深入洞察。未来,推理型LLMs的研究将继续推动人工智能向更高效、更安全、更广泛的应用领域发展。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
更多推荐
所有评论(0)