详解 LLM 推理模型的现状

2025年，如何提升大型语言模型（LLM）的推理能力成了最热门的话题之一，大量优化推理能力的新策略开始出现，包括扩展推理时间计算、运用强化学习、开展监督微调和进行提炼等。本文将深入探讨LLM推理优化领域的最新研究进展，特别是自DeepSeek R1发布后兴起的推理时间计算扩展相关内容。

程序员糖仔

967人浏览 · 2025-04-08 11:59:15

程序员糖仔 · 2025-04-08 11:59:15 发布

1、在LLM中实施和改进推理

简单来说，基于 LLM 的推理模型是一种旨在通过生成中间步骤或结构化的“思维”过程来解决多步骤问题的 LLM。与仅共享最终答案的简单问答式 LLM 不同，推理模型要么明确显示其思维过程，要么在内部处理它，这有助于它们在复杂任务（例如谜题、编码挑战和数学问题）中表现更好。

普通LLM vs. 推理LLM

一般来说，有两种主要策略可以提高推理能力：
（1）增加训练计算量，
（2）增加推理计算量，也称为推理时间扩展或测试时间扩展。（推理计算是指训练后响应用户查询生成模型输出所需的处理能力。）

推理时间扩展的同义词

为了深入理解推理模型的发展与改进过程，下图展示了更精细的四类分类。

其中方法 2-4 通常会生成响应较长的模型，因为它们的输出中包含中间步骤和解释。由于推理成本会随响应长度而变化（例如，响应长度翻倍，所需计算量也会翻倍），因此这些训练方法本质上与推理扩展相关。

本文将重点介绍2025 年 1 月 22 日 DeepSeek R1 发布之后，出现的关于推理时间计算扩展的新研究论文和模型发布情况。

DeepSeek 推理模型的开发过程

1. 推理时间计算扩展

该类别所包含的方法旨在在推理过程中提升模型的推理能力，且无需对底层模型权重进行训练或修改。其核心思路是通过投入更多的计算资源来换取性能的提升，借助诸如思路链推理以及各类采样程序等技术，能够让既定模型发挥出更强大的效能。

这里将推理时间计算扩展单独归为一类，以便聚焦此情境下的方法，但需明确的是，这项技术适用于任何大型语言模型（LLM）。例如，OpenAI 运用强化学习开发了 o1 模型，随后又采用了推理时间计算扩展技术。DeepSeek R1 论文明确指出R1 并未采用推理时间扩展技术。但他们也表示，在 R1 的部署或应用中能够轻松将该技术融入其中。

2.纯强化学习

这种方法仅专注于强化学习 (RL) 来开发或提高推理能力。它通常涉及使用来自数学或编码领域的可验证奖励信号来训练模型。虽然 RL 允许模型开发更具战略性的思维和自我改进能力，但它也带来了诸如奖励黑客、稳定性差和高计算成本等挑战。

3.强化学习和监督微调

这种混合方法将 RL 与监督微调 (SFT) 相结合，相较于单纯的强化学习，能够实现更稳定、更具通用性的改进效果。通常的操作流程是，先利用监督微调在高质量指令数据上对模型展开训练，随后运用强化学习作进一步优化，以实现特定行为的精准调控。

4. 监督微调和模型蒸馏

该方法通过在高质量标记数据集 (SFT) 上对模型进行指令微调来提高模型的推理能力。如果此高质量数据集由较大的 LLM 生成，则该方法在 LLM 上下文中也称为“知识蒸馏”或简称为“蒸馏”。但需要注意的是，这与深度学习中的传统知识蒸馏略有不同，后者通常涉及使用输出（标签）和更大的教师模型的逻辑来训练较小的模型。

2、推理时间计算扩展方法

作为提升大型语言模型（LLM）推理能力的关键手段，推理时间扩展的核心思路在于在推理进程中加大计算资源的投入。打个比方，当给予人类更多思考时间时，他们会做出更好的反应，同理，LLM 通过采用鼓励其在生成内容时深度 “思考” 的技术，也能实现推理能力的进阶。

一种方法是提示工程，例如思路链 (CoT) 提示，其中“逐步思考”等短语会引导模型生成中间推理步骤。这可以提高复杂问题的准确性，但对于简单的事实查询而言则没有必要。由于 CoT 提示会生成更多标记，因此它们也会使推理更加昂贵。

2022 年大型语言模型中的经典 CoT 提示的一个示例是零样本推理器论文 (https://arxiv.org/abs/2205.11916)

另一种方法涉及投票和搜索策略，例如多数投票或集束搜索，通过选择最佳输出来改进响应。

不同的搜索方法依赖于基于过程奖励的模型来选择最佳答案，图片来自 LLM Test-Time Compute 论文（https://arxiv.org/abs/2408.03314）

接下来将重点介绍推理时间扩展方向的研究论文。

1.s1: Simple test-time scaling

首先讨论一篇有趣的研究论文，题目是《s1：简单测试时间缩放》（31 Jan，s1: Simple test-time scaling）https://arxiv.org/abs/2501.19393，它引入了所谓的“等待”标记，可以将其视为“逐步思考”提示修改的迭代版本。

这里面涉及监督微调 (SFT) 来生成初始模型，因此它不是纯粹的推理时间扩展方法。但最终目标是通过推理时间扩展主动控制推理行为。

简而言之，他们的方法有两个：

创建包含 1k 个有推理痕迹的训练示例的精选 SFT 数据集。
通过以下方式控制响应的长度：

a) 附加“等待”标记，让 LLM 生成更长的响应、自我验证和自我纠正；

b) 通过添加思考结束标记分隔符来停止生成（“最终答案：”）。他们称这种长度控制为“预算强制”。

插入“等待”标记以控制输出长度

预算强制可以看作是一种顺序推理扩展技术，它仍然一次生成一个 token（但数量更多）。这种强制预算方法比很多其他推理扩展技术更高效。

响应准确度与长度之间的相关性

PS：为什么是“等待”标记？笔者猜测研究人员受到了 DeepSeek-R1 论文中的“Aha moment”的启发，此外他们还尝试了其他标记，例如“Hmm”，但发现“Wait”的表现略好一些。

“Wait”和“Hmm”标记

2.Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

《测试时间偏好优化：通过迭代文本反馈进行动态对齐》（ 22 Jan, Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback），https://arxiv.org/abs/2501.12895

测试时偏好优化 (TPO) 是一个迭代过程，在推理过程中将 LLM 输出与人类偏好对齐（这不会改变其底层模型权重）。在每次迭代中，模型：

3.Thoughts Are All Over the Place

《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》（30 Jan），https://arxiv.org/abs/2501.18585

研究人员探索了一种名为“underthinking”的现象，即推理模型频繁在推理路径之间切换，而不是完全专注于探索有希望的路径，从而降低了解决问题的准确性。

为了解决这个“underthinking”的问题，他们引入了一种称为思维转换惩罚（Thought Switching Penalty，TIP）的方法，该方法修改了思维转换标记的逻辑，以阻止过早的推理路径转换。

他们的方法不需要模型微调，并且通过经验提高了多个具有挑战性的测试集的准确性。

4. Trading Inference-Time Compute for Adversarial Robustness

《用推理时间计算换取对抗鲁棒性》（31 Jan, Trading Inference-Time Compute for Adversarial Robustness），https://arxiv.org/abs/2501.18841

在许多情况下，增加推理时间计算可以提高推理 LLM 的对抗鲁棒性，从而降低成功攻击的概率。与对抗训练不同，这种方法不需要任何特殊训练，也不需要事先了解特定的攻击类型。

但也存在一些例外。例如，在涉及策略模糊性或漏洞利用的设置中，其改进的效果有限。此外，推理改进带来的鲁棒性提升可能会被“Think Less”和“Nerd Sniping”等新攻击策略所削弱。

因此，虽然这些发现表明扩展推理时间计算可以提高 LLM 安全性，但仅靠这一点并不能完全解决对抗鲁棒性问题。

5. Chain-of-Associated-Thoughts

《CoAT：用于增强大型语言模型推理的关联思维链框架》（Chain-of-Associated-Thoughts Framework for Enhancing Large Language Models Reasoning, https://arxiv.org/abs/2502.02390）

研究人员将经典的蒙特卡洛树搜索推理时间缩放与“associative memory”相结合，后者在探索推理路径时充当LLM的知识库。使用这种所谓的联想记忆，LLM可以更轻松地考虑早期的推理路径，并在生成响应时动态使用相关信息。

6. Step Back to Leap Forward

《Step Back to Leap Forward：自我回溯以增强语言模型的推理能力》（6 Feb, Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models），https://arxiv.org/abs/2502.0440

本文提出了一种自回溯机制，允许 LLM 通过学习在训练和推理期间何时何地回溯来改进其推理能力。虽然训练涉及使用标记教模型识别和纠正次优推理路径，但关键贡献是基于推理时间树的搜索，它使用这种学习到的回溯能力来探索替代解决方案。

独特之处在于，这种探索不需要依赖外部奖励模型。

这篇论文主要关注提出的回溯推理时间缩放方法，该方法通过动态调整搜索深度和广度而不是从根本上改变训练范式来改进推理（尽管需要使用标记进行训练）。

7. Scaling up Test-Time Compute with Latent Reasoning

《使用潜在推理扩展测试时间计算：一种循环深度方法》（7 Feb, Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach），https://arxiv.org/abs/2502.05171

研究人员并没有通过生成更多 token 来改进推理，而是提出了一个模型，通过在潜在空间中迭代循环深度块来扩展推理时间计算。该块的功能类似于 RNN 中的隐藏状态，它允许模型改进其推理，而无需更长的 token 输出。

但这种方式的关键缺点是缺乏明确的推理步骤。

8. Can a 1B LLM Surpass a 405B LLM?

《1B LLM 能否超越 405B LLM？重新思考计算最优测试时间扩展》（10 Feb, Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling），https://arxiv.org/abs/2502.06703

许多推理时间扩展技术依赖于采样，这需要过程奖励模型 (PRM) 来选择最佳解决方案。本文系统地分析了推理时间计算扩展与 PRM 和问题难度之间的相互作用。

研究人员开发了一种计算优化扩展策略，该策略可适应 PRM、策略模型和任务复杂性的选择。结果表明，通过正确的推理时间扩展方法，1B 参数模型可以胜过缺乏推理时间扩展的 405B Llama 3 模型。

他们还展示了具有推理时间扩展的 7B 模型如何超越 DeepSeek-R1，同时保持更高的推理效率。

这些发现强调了推理时间扩展如何显著改善 LLM，其中具有正确推理计算预算的小型 LLM 可以胜过更大的模型。

9.Learning to Reason from Feedback at Test-Time

《学习根据测试时的反馈进行推理》（16 Feb, Learning to Reason from Feedback at Test-Time），https://www.arxiv.org/abs/2502.12521

本文探讨了一种让 LLM 在推理时从错误中吸取教训，而无需在提示中存储失败尝试的方法。这种方法不是通过将之前的尝试添加到上下文中（顺序修订）或盲目生成新答案（并行采样）来完善答案的常用方法，而是在推理时更新模型的权重。

为此，作者引入了 OpTune，这是一个小型的可训练优化器，它根据模型在前一次尝试中所犯的错误更新模型的权重。这意味着模型会记住它做错了什么，而无需在提示/上下文中保留错误答案。

10. Inference-Time Computations for LLM Reasoning and Planning

LLM 推理和规划的推理时间计算：基准和见解（18 Feb, Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights），https://www.arxiv.org/abs/2502.12521

本文对推理和规划任务的各种推理时间计算扩展技术进行了基准测试，重点分析了它们在计算成本和性能之间的权衡。

作者对多种技术进行了评估，例如思路链、思路树和推理规划，涵盖了算术、逻辑、常识、算法推理和规划等十一项任务。主要发现虽然扩展推理时间计算可以提高推理能力，但没有一种技术能够在所有任务中始终优于其他技术。

11. Inner Thinking Transformer

内在思维转换器：利用动态深度扩展来促进自适应内部思维（19 Feb, Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking），https://arxiv.org/abs/2502.13842

内部思维转换器 (ITT) 在推理过程中动态分配更多计算。与基于标准转换器的 LLM 中对所有标记使用固定深度（= 使用相同数量的层）不同，ITT 采用自适应标记路由为困难标记分配更多计算。这些困难标记多次通过同一层进行额外处理，从而增加了这些困难标记的推理计算预算。

12. S*: Test Time Scaling for Code Generation

S*：代码生成的测试时间缩放（20 Feb, S*: Test Time Scaling for Code Generation），https://arxiv.org/abs/2502.14382

推理时间扩展可以通过并行扩展（生成多个答案）、顺序扩展（迭代地细化答案）或两者结合来实现，如 2024 年 Google 论文中所述（优化扩展 LLM 测试时间计算比扩展模型参数更有效，https://arxiv.org/abs/2408.03314）。

S* 是一种专为代码生成设计的测试时计算扩展方法，可改善并行扩展（生成多个解决方案）和顺序扩展（迭代调试）。

结论

推理时间计算扩展已成为今年最热门的研究课题之一，它可以在不需要修改模型权重的情况下提高大型语言模型的推理能力。

上面总结的许多技术包括从简单的基于标记的干预（如“等待”标记）到复杂的基于搜索和优化的策略（如测试时间偏好优化和关联思维链）。

从总体层面来看，一个反复出现的主题是，与标准方法相比，增加推理计算能力甚至可以让相对较小的模型实现显著的改进（在推理基准上）。

这表明推理策略可以帮助缩小规模较小但更具成本效益的模型与较大模型之间的性能差距。

成本警告

需要注意的是，推理时间扩展会增加推理成本，因此，是否使用具有大量推理扩展的小模型，还是训练更大的模型并使用较少或不使用推理扩展，是一个必须根据模型的使用量来计算的数学问题。

举例来说，使用重度推理时间缩放的 o1 模型实际上仍然比可能不使用推理时间缩放的更大的 GPT-4.5 模型稍微便宜一些。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！