论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（三）

墨绿色的摆渡人

948人浏览 · 2025-01-31 00:32:15

墨绿色的摆渡人 · 2025-01-31 00:32:15 发布

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（三）

文章概括
摘要：
3. 实验
- 3.1. DeepSeek-R1 评估
- 3.2. 蒸馏模型评估
4. 讨论
- 4.1. 蒸馏与强化学习的比较
- 4.2. 不成功的尝试
5. 结论、局限性与未来工作

文章概括

引用：

@article{guo2025deepseek,
  title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
  author={Guo, Daya and Yang, Dejian and Zhang, Haowei and Song, Junxiao and Zhang, Ruoyu and Xu, Runxin and Zhu, Qihao and Ma, Shirong and Wang, Peiyi and Bi, Xiao and others},
  journal={arXiv preprint arXiv:2501.12948},
  year={2025}
}

Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X. and Zhang, X., 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948.

原文： https://arxiv.org/abs/2501.12948
代码、数据和视频：

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

摘要：

我们推出了第一代推理模型，DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一个通过大规模强化学习（RL）训练的模型，没有经过监督微调（SFT）作为初步步骤，展示了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。然而，它也面临一些挑战，例如可读性差和语言混合问题。为了解决这些问题并进一步提升推理性能，我们推出了 DeepSeek-R1，它在强化学习之前引入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上实现了与 OpenAI-o1-1217 相媲美的性能。为了支持研究社区，我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及从 DeepSeek-R1 蒸馏出的六个稠密模型（1.5B、7B、8B、14B、32B、70B），这些模型基于 Qwen 和 Llama。

在这里插入图片描述图1 | DeepSeek-R1 的基准测试性能。

3. 实验

基准测试
我们在以下基准测试上评估模型：MMLU（Hendrycks等，2020）、MMLU-Redux（Gema等，2024）、MMLU-Pro（Wang等，2024）、C-Eval（Huang等，2023）、CMMLU（Li等，2023）、IFEval（Zhou等，2023）、FRAMES（Krishna等，2024）、GPQA Diamond（Rein等，2023）、SimpleQA（OpenAI，2024c）、C-SimpleQA（He等，2024）、SWE-Bench Verified（OpenAI，2024d）、Aider 1、LiveCodeBench（Jain等，2024）（2024-08至2025-01）、Codeforces 2、中国全国高中数学奥林匹克竞赛（CNMO 2024）3，以及美国数学邀请赛2024（AIME 2024）（MAA，2024）。除了标准基准测试外，我们还在开放式生成任务上评估了我们的模型，使用LLMs作为评判标准。具体来说，我们遵循AlpacaEval 2.0（Dubois等，2024）和Arena-Hard（Li等，2024）的原始配置，使用GPT-4-Turbo-1106作为评判者进行成对比较。在这里，我们只将最终总结提供给评估，以避免长度偏差。对于蒸馏模型，我们报告了AIME 2024、MATH-500、GPQA Diamond、Codeforces和LiveCodeBench的代表性结果。

评估提示
根据DeepSeek-V3中的设置，标准基准测试如MMLU、DROP、GPQA Diamond和SimpleQA使用simple-evals框架中的提示进行评估。对于MMLU-Redux，我们在零样本设置中采用Zero-Eval提示格式（Lin，2024）。在MMLU-Pro、C-Eval和CLUE-WSC中，由于原始提示为少样本，我们稍微修改了提示，采用零样本设置。少样本中的CoT可能会影响DeepSeek-R1的表现。其他数据集遵循其原始评估协议，并使用其创建者提供的默认提示。对于代码和数学基准测试，HumanEval-Mul数据集涵盖了八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash）。在LiveCodeBench上的模型表现使用CoT格式进行评估，数据收集时间为2024年8月至2025年1月。Codeforces数据集通过10场Div.2比赛的问题以及专家设计的测试用例进行评估，之后计算预期的评分和选手百分比。SWE-Bench验证结果通过无代理框架（Xia等，2024）获得。AIDER相关基准通过“diff”格式进行测量。DeepSeek-R1的输出在每个基准测试中最多限制为32,768个标记。

基准测试
我们对多个强基准模型进行了全面评估，包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217。由于在中国大陆访问OpenAI-o1-1217 API存在困难，我们根据官方报告报告其性能。对于蒸馏模型，我们还与开源模型QwQ-32B-Preview（Qwen，2024a）进行了比较。

评估设置
我们将模型的最大生成长度设置为32,768个标记。我们发现，使用贪婪解码评估长输出推理模型会导致更高的重复率，并且在不同检查点之间表现出显著的变化。因此，我们默认使用pass@𝑘评估（Chen等，2021），并在非零温度下报告pass@1。具体来说，我们使用0.6的采样温度和0.95的top-𝑝值来生成每个问题的𝑘个回答（通常在4到64之间，取决于测试集大小）。然后， $\text{Pass}@1$ 的计算公式为：

$\text{pass}@1=\frac{1}{k}\sum_{i=1}^{k}p_i,$

其中 $p_i$ 表示第$ i $个回答的正确性。此方法提供了更可靠的性能估计。对于AIME 2024，我们还报告了共识（多数投票）结果（Wang等，2022），使用64个样本，记作cons@64。

3.1. DeepSeek-R1 评估

在这里插入图片描述表4 | DeepSeek-R1 与其他代表性模型的比较

对于面向教育的知识基准测试，如MMLU、MMLU-Pro和GPQA Diamond，DeepSeek-R1在表现上优于DeepSeek-V3。这一改进主要归因于在STEM（科学、技术、工程和数学）相关问题上的准确性提升，其中通过大规模强化学习取得了显著的进步。此外，DeepSeek-R1在FRAMES（一项依赖长上下文的问答任务）上表现出色，展示了其强大的文档分析能力。这突显了推理模型在AI驱动的搜索和数据分析任务中的潜力。在事实类基准测试SimpleQA上，DeepSeek-R1超越了DeepSeek-V3，展示了其处理事实查询的能力。类似的趋势也出现在OpenAI-o1超越GPT-4o的情况中。然而，DeepSeek-R1在中文SimpleQA基准测试上的表现不如DeepSeek-V3，主要是因为其在安全RL训练后倾向于拒绝回答某些查询。没有安全RL时，DeepSeek-R1的准确率可以超过70%。

DeepSeek-R1在IF-Eval基准测试中也取得了令人印象深刻的结果，这是一个旨在评估模型遵循格式指令能力的基准。这些改进可以归因于在监督微调（SFT）和RL训练的最后阶段加入了遵循指令的数据。此外，在AlpacaEval 2.0和Arena-Hard上的出色表现表明，DeepSeek-R1在写作任务和开放域问答方面具有优势。它显著超越DeepSeek-V3，凸显了大规模强化学习的泛化效益，这不仅提升了推理能力，还改善了在多个领域的表现。此外，DeepSeek-R1生成的总结长度简洁，Arena-Hard上的平均长度为689个标记，AlpacaEval 2.0上的平均长度为2,218个字符。这表明，DeepSeek-R1在基于GPT的评估中避免了引入长度偏差，进一步巩固了其在多个任务中的鲁棒性。

在数学任务上，DeepSeek-R1的表现与OpenAI-o1-1217相当，超越了其他模型。在编程算法任务（如LiveCodeBench和Codeforces）上，也观察到了类似的趋势，推理导向的模型主导了这些基准测试。在面向工程的编程任务中，OpenAI-o1-1217在Aider上超越了DeepSeek-R1，但在SWE Verified上两者表现相当。我们相信，随着相关RL训练数据的增加，DeepSeek-R1在下一个版本中的工程表现将会有所提升，因为目前相关的RL训练数据仍然非常有限。

3.2. 蒸馏模型评估

在这里插入图片描述表5 | DeepSeek-R1蒸馏模型与其他可比模型在推理相关基准测试上的比较。

如表5所示，简单地蒸馏DeepSeek-R1的输出使得高效的DeepSeek-R1-7B（即DeepSeek-R1-Distill-Qwen-7B，以下简写为类似）在各项指标上超越了非推理模型如GPT-4o-0513。DeepSeek-R1-14B在所有评估指标上超过了QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超过了o1-mini。这些结果展示了蒸馏的强大潜力。此外，我们发现将强化学习应用于这些蒸馏模型能够带来显著的进一步提升。我们认为这一点值得进一步探索，因此这里只展示了简单SFT蒸馏模型的结果。

4. 讨论

4.1. 蒸馏与强化学习的比较

在第3.2节中，我们可以看到，通过蒸馏DeepSeek-R1，小模型能够取得令人印象深刻的结果。然而，仍然有一个问题没有解答：模型是否可以通过本文讨论的大规模强化学习训练，在不进行蒸馏的情况下，达到可比的性能？

为了解答这个问题，我们在Qwen-32B-Base上进行了大规模强化学习训练，使用数学、编码和STEM数据，训练超过10K步，最终得到DeepSeek-R1-Zero-Qwen-32B。实验结果（如表6所示）表明，经过大规模强化学习训练后，32B基础模型的性能与QwQ-32B-Preview相当。然而，从DeepSeek-R1蒸馏出的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中表现显著优于DeepSeek-R1-Zero-Qwen-32B。

在这里插入图片描述表6 | 蒸馏模型和强化学习模型在推理相关基准测试上的比较。

因此，我们可以得出两个结论：首先，将更强大的模型蒸馏成更小的模型可以取得优秀的结果，而依赖于本文所提到的大规模强化学习的小模型需要巨大的计算资源，并且可能无法达到蒸馏模型的性能。其次，虽然蒸馏策略既经济又有效，但要超越智能的边界，可能仍然需要更强大的基础模型和更大规模的强化学习。

4.2. 不成功的尝试

在DeepSeek-R1的早期开发阶段，我们也遇到了失败和挫折。我们在此分享我们的失败经验，以提供一些见解，但这并不意味着这些方法无法开发出有效的推理模型。

过程奖励模型（PRM）
PRM是一种合理的方法，可以引导模型朝着更好的方向解决推理任务（Lightman等，2023；Uesato等，2022；Wang等，2023）。然而，在实践中，PRM有三个主要限制，这些限制可能会妨碍其最终成功。首先，在一般推理中，明确地定义细粒度步骤是具有挑战性的。其次，确定当前的中间步骤是否正确是一个挑战任务。使用模型进行自动标注可能无法得到令人满意的结果，而人工标注不利于规模化。第三，一旦引入基于模型的PRM，它不可避免地会导致奖励操控（Gao等，2022），而重新训练奖励模型需要额外的训练资源，并使整个训练流程更加复杂。总之，虽然PRM在重新排序模型生成的前N个响应或辅助引导搜索（Snell等，2024）方面展示了良好的能力，但与其在我们实验中大规模强化学习过程中引入的额外计算开销相比，其优势是有限的。

蒙特卡罗树搜索（MCTS）
受到AlphaGo（Silver等，2017b）和AlphaZero（Silver等，2017a）的启发，我们探索了使用蒙特卡罗树搜索（MCTS）来增强测试时计算的可扩展性。这种方法通过将答案分解为更小的部分，让模型能够系统地探索解空间。为了实现这一点，我们提示模型生成多个标签，这些标签对应于搜索所需的特定推理步骤。对于训练，我们首先使用收集的提示通过由预训练价值模型引导的MCTS来寻找答案。随后，我们使用得到的问题-答案对来训练行为模型和价值模型，逐步完善该过程。

然而，当扩展训练规模时，这种方法遇到了几个挑战。首先，与象棋等游戏的搜索空间相对明确不同，标记生成呈现出一个指数级更大的搜索空间。为了解决这个问题，我们为每个节点设置了最大扩展限制，但这可能导致模型陷入局部最优解。其次，价值模型直接影响生成质量，因为它引导了搜索过程的每一步。训练一个细粒度的价值模型本身就是一项困难的任务，这使得模型难以进行迭代改进。虽然AlphaGo的核心成功依赖于训练一个价值模型，逐步提高其性能，但由于标记生成的复杂性，这一原则在我们的设置中很难复制。
总之，虽然MCTS在与预训练价值模型配对时可以在推理过程中提高性能，但通过自我搜索迭代地提升模型性能仍然是一个重大挑战。

5. 结论、局限性与未来工作

在本研究中，我们分享了通过强化学习提升模型推理能力的过程。DeepSeek-R1-Zero代表了一种纯强化学习方法，不依赖于冷启动数据，在各种任务中表现出色。DeepSeek-R1则更为强大，结合冷启动数据与迭代强化学习微调。最终，DeepSeek-R1在多个任务上的表现可与OpenAI-o1-1217相媲美。

我们进一步探讨了将推理能力蒸馏到小型密集模型中的方法。我们使用DeepSeek-R1作为教师模型生成了80万条训练样本，并对多个小型密集模型进行了微调。结果令人鼓舞：DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中超越了GPT-4o和Claude-3.5-Sonnet，在AIME上达到了28.9%，在MATH上达到了83.9%。其他密集模型也取得了令人印象深刻的结果，显著优于基于相同底层检查点的其他指令调优模型。

未来，我们计划在以下几个方向上对DeepSeek-R1进行进一步研究。

通用能力：目前，DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出等任务上的能力仍不及DeepSeek-V3。未来，我们计划探索如何利用长推理链（CoT）来增强这些领域的任务。
语言混合：目前，DeepSeek-R1针对中文和英文进行了优化，这可能会导致处理其他语言查询时出现语言混合问题。例如，DeepSeek-R1可能会使用英文进行推理和回应，即使查询不是英文或中文。我们计划在未来的更新中解决这一局限性。
提示工程：在评估DeepSeek-R1时，我们观察到它对提示非常敏感。少样本提示持续降低其性能。因此，我们建议用户直接描述问题，并使用零样本设置明确指定输出格式，以获得最佳结果。
软件工程任务：由于评估时间较长，影响了强化学习过程的效率，大规模强化学习尚未广泛应用于软件工程任务。因此，DeepSeek-R1在软件工程基准测试中的表现未能显著超越DeepSeek-V3。未来版本将通过在软件工程数据上实现拒绝采样，或在强化学习过程中加入异步评估来提高效率。