DeepSeek-R1：通过强化学习激励大语言模型中的推理能力

m0_37733448

3156人浏览 · 2025-01-21 12:06:42

m0_37733448 · 2025-01-21 12:06:42 发布

摘要

我们推出了第一代推理模型——DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是通过大规模强化学习（RL）训练而成，没有经过监督微调（SFT）作为初步步骤，却展现出卓越的推理能力。通过 RL，DeepSeek-R1-Zero 自然地涌现出许多强大而有趣的推理行为。然而，它也面临着可读性差、语言混合等挑战。为了解决这些问题并进一步提高推理性能，我们引入了 DeepSeek-R1，它在 RL 之前加入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现可与 OpenAI-o1-1217 相媲美。为了支持研究界，我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及从 DeepSeek-R1 蒸馏出的六个密集模型（1.5B、7B、8B、14B、32B、70B），这些模型基于 Qwen 和 Llama。

Figure 1 | Benchmark performance of DeepSeek-R1.

2.方法
2.1 概述
2.2 DeepSeek-R1-Zero：在基础模型上进行强化学习
2.2.1 强化学习算法
2.2.2 奖励建模
2.2.3 训练模板
2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻
2.3 DeepSeek-R1：带有冷启动的强化学习
2.3.1 冷启动
2.3.2 以推理为导向的强化学习
2.3.3 拒绝采样和监督微调
2.3.4 全场景强化学习
2.4 蒸馏：将推理能力赋予小模型

3.实验
3.1 DeepSeek-R1 评估
3.2 蒸馏模型评估

4.讨论
4.1 蒸馏与强化学习
4.2 失败的尝试

5.结论、局限性和未来工作

1. 引言

近年来，大语言模型（LLM）正在经历快速迭代和发展（Anthropic，2024；Google，2024；OpenAI，2024a），正逐步缩小与通用人工智能（AGI）之间的差距。

最近，后训练已成为完整训练流程中的重要组成部分。研究表明，后训练可以提高推理任务的准确性，与社会价值观保持一致，并适应用户偏好，同时相对于预训练所需的计算资源相对较少。在推理能力方面，OpenAI 的 o1 系列模型（OpenAI，2024b）率先引入了推理时扩展，通过增加思维链（CoT）推理过程的长度，在数学、编码和科学推理等各种推理任务中取得了显著进步。然而，如何有效进行测试时扩展仍然是研究界的一个开放性问题。先前的一些工作探索了各种方法，包括基于过程的奖励模型（Lightman 等人，2023；Uesato 等人，2022；Wang 等人，2023）、强化学习（Kumar 等人，2024）以及蒙特卡洛树搜索和束搜索等搜索算法（Feng 等人，2024；Trinh 等人，2024；Xin 等人，2024）。然而，这些方法都没有达到与 OpenAI 的 o1 系列模型相当的通用推理性能。

在本文中，我们迈出了使用纯强化学习（RL）提高语言模型推理能力的第一步。我们的目标是探索 LLM 在没有任何监督数据的情况下发展推理能力的潜力，重点是通过纯 RL 过程实现自我进化。具体来说，我们使用 DeepSeek-V3-Base 作为基础模型，并采用 GRPO（Shao 等人，2024）作为 RL 框架来提高模型在推理方面的性能。在训练过程中，DeepSeek-R1-Zero 自然地涌现出许多强大而有趣的推理行为。经过数千次 RL 步骤后，DeepSeek-R1-Zero 在推理基准测试中表现出色。例如，在 AIME 2024 上的通过率 R1R1 分数从 $15.6% 提高到 \71.0%，并且通过多数投票，分数进一步提高到 \86.7%$，与 OpenAI-o1-0912 的性能相匹配。

然而，DeepSeek-R1-Zero 也面临着可读性差、语言混合等挑战。为了解决这些问题并进一步提高推理性能，我们引入了 DeepSeek-R1，它在 RL 之前加入了一小部分冷启动数据和多阶段训练流程。具体来说，我们首先收集了数千条冷启动数据来微调 DeepSeek-V3-Base 模型。接下来，我们进行了与 DeepSeek-R1-Zero 类似的以推理为导向的 RL。在 RL 过程接近收敛时，我们通过在 RL 检查点上进行拒绝采样，并结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据，生成新的 SFT 数据，然后对 DeepSeek-V3-Base 模型进行重新训练。用新数据微调后，检查点经历了额外的 RL 过程，考虑了来自所有场景的提示。经过这些步骤，我们得到了一个称为 DeepSeek-R1 的检查点，其性能可与 OpenAI-o1-1217 相媲美。

我们进一步探索了从 DeepSeek-R1 蒸馏到更小密集模型的可能性。使用 Qwen2.5-32B（Qwen，2024b）作为基础模型，直接从 DeepSeek-R1 进行蒸馏，其性能优于在其上应用 RL。这表明，更大的基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的 Qwen 和 Llama（Dubey 等人，2024）系列。值得注意的是，我们的蒸馏 14B 模型在推理基准测试中大幅超越最先进的开源模型 QwQ-32B-Preview（Qwen，2024a），而蒸馏后的 32B 和 70B 模型在密集模型中的推理基准测试中创造了新纪录。

1.1 贡献

后训练：在基础模型上进行大规模强化学习

我们直接将强化学习（RL）应用于基础模型，而无需依赖监督微调（SFT）作为初步步骤。这种方法允许模型探索链式思维（CoT）来解决复杂问题，从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现出自我验证、反思和生成长 CoT 等能力，标志着研究界的一个重要里程碑。值得注意的是，这是首次公开研究验证了 LLM 的推理能力可以通过纯 RL 而无需 SFT 来激励。这一突破为该领域的未来发展铺平了道路。
我们介绍了开发 DeepSeek-R1 的流程。该流程包括两个 RL 阶段，旨在发现改进的推理模式并与人类偏好保持一致，以及两个 SFT 阶段，作为模型推理和非推理能力的种子。我们相信，该流程将为行业创造更好的模型带来好处。

蒸馏：小模型也可以很强大

我们证明了更大模型的推理模式可以蒸馏到小模型中，与通过 RL 在小模型上发现的推理模式相比，其性能更佳。开源的 DeepSeek-R1 及其 API 将使研究界能够在未来蒸馏出更好的小模型。
使用 DeepSeek-R1 生成的推理数据，我们对研究界广泛使用的几个密集模型进行了微调。评估结果表明，蒸馏的小型密集模型在基准测试中表现非常出色。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上取得了 $55.5% 的成绩，超过了 QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分为 \72.6%，在 MATH-500 上得分为 \94.3%，在 LiveCodeBench 上得分为 \57.2%$。这些结果显著优于之前的开源模型，并且与 o1-mini 相当。我们开源了基于 Qwen2.5 和 Llama3 系列蒸馏的 1.5B、7B、8B、14B、32B 和 70B 检查点。

1.2 评估结果总结

推理任务:
1.DeepSeek-R1 在 AIME 2024 上取得了 $79.8% 的 Pass@1 分数，略高于 OpenAI-o1-1217。在 MATH-500 上，它获得了令人印象深刻的 \97.3%$ 分数，与 OpenAI-o1-1217 表现相当，并显著优于其他模型。

2.在与编码相关的任务中，DeepSeek-R1 在代码竞赛任务中表现出专家级水平，因为它在 Codeforces 上获得了 2029 Elo 评分，超过了比赛中 $96.3%$ 的人类参与者。对于工程相关的任务，DeepSeek-R1 的表现略好于 DeepSeek-V3，这可以帮助开发者在现实世界中的任务。
知识:
在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中，DeepSeek-R1 取得了优异的成绩，显著优于 DeepSeek-V3，在 MMLU 上得分为 $90.8%，在 MMLU-Pro 上得分为 \84.0%，在 GPQA Diamond 上得分为 \71.5%$。虽然在这些基准测试中，DeepSeek-R1 的表现略低于 OpenAI-o1-1217，但 DeepSeek-R1 超越了其他闭源模型，展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 中，DeepSeek-R1 优于 DeepSeek-V3，展示了其处理基于事实查询的能力。在该基准测试中，OpenAI-o1 超越 4o 也有类似的趋势。
其他:
DeepSeek-R1 在广泛的领域也表现出色，包括创意写作、一般问答、编辑、摘要等。它在 AlpacaEval 2.0 上取得了令人印象深刻的 $87.6% 的长度控制胜率，在 ArenaHard 上取得了 \92.3%$ 的胜率，展示了其智能处理非考试导向查询的强大能力。此外，DeepSeek-R1 在需要长上下文理解的任务中表现出色，在长上下文基准测试中大幅超越 DeepSeek-V3。

2. 方法

2.1 概述

先前的工作严重依赖大量监督数据来提高模型性能。在本研究中，我们证明，通过大规模强化学习（RL），即使不使用监督微调（SFT）作为冷启动，推理能力也可以得到显著提高。此外，加入少量冷启动数据可以进一步提高性能。在以下章节中，我们将介绍：

1.DeepSeek-R1-Zero，它直接将 RL 应用于基础模型，而不使用任何 SFT 数据。

2.DeepSeek-R1，它从经过数千个长链式思维（CoT）示例微调的检查点开始应用 RL。

3.将 DeepSeek-R1 的推理能力蒸馏到小型密集模型中。

2.2 DeepSeek-R1-Zero：在基础模型上进行强化学习

强化学习在推理任务中已显示出显著的有效性，这在我们之前的工作中得到了证实（Shao 等人，2024；Wang 等人，2023）。然而，这些工作严重依赖监督数据，而这些数据的收集非常耗时。在本节中，我们探索了 LLM 在没有任何监督数据的情况下发展推理能力的潜力，重点是通过纯强化学习过程实现自我进化。我们首先简要概述我们的强化学习算法，然后展示一些令人兴奋的结果，希望这能为研究界提供有价值的见解。

2.2.1 强化学习算法

群组相对策略优化
为了节省 RL 的训练成本，我们采用群组相对策略优化（GRPO）（Shao 等人，2024），它摒弃了通常与策略模型大小相同的评论家模型，而是从群组分数中估计基线。具体来说，对于每个问题 qq，GRPO 从旧策略 πθoldπθold 中对一组输出 {o1,o2,⋯ ,oG}{o1,o2,⋯,oG} 进行采样，然后通过最大化以下目标来优化策略模型：

2.2.2 奖励建模

奖励是训练信号的来源，它决定了 RL 的优化方向。为了训练 DeepSeek-R1-Zero，我们采用基于规则的奖励系统，主要包括两种类型的奖励：

准确性奖励:
准确性奖励模型评估响应是否正确。例如，在数学问题具有确定结果的情况下，模型需要以指定格式（例如，在框内）提供最终答案，从而可以通过基于规则的验证来可靠地确定正确性。同样，对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈。
格式奖励:
除了准确性奖励模型，我们还采用格式奖励模型，强制模型将思考过程放在 <think> 和 </think> 标签之间。

我们没有在开发 DeepSeek-R1-Zero 时应用结果或过程神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励黑客攻击，而重新训练奖励模型需要额外的训练资源，并使整个训练流程复杂化。

2.2.3 训练模板

为了训练 DeepSeek-R1-Zero，我们首先设计了一个简单的模板，指导基础模型遵守我们指定的指令。如表 1 所示，该模板要求 DeepSeek-R1-Zero 首先产生推理过程，然后是最终答案。我们有意将约束限制在这种结构化格式上，避免任何特定内容的偏见，例如强制反思推理或提倡特定的问题解决方法，以确保我们可以准确观察模型在强化学习（RL）过程中的自然进展。

2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻

DeepSeek-R1-Zero 的性能
图 2 描述了 DeepSeek-R1-Zero 在 AIME 2024 基准测试上的性能轨迹。如图所示，随着 RL 训练的推进，DeepSeek-R1-Zero 表现出稳定且持续的改进。值得注意的是，AIME 2024 上的平均通过率 R1R1 分数显示出显著增长，从最初的 $15.6% 跃升至令人印象深刻的 \71.0%$，达到了与 OpenAI-o1-0912 相当的性能水平。这种显著的改进凸显了我们的 RL 算法在优化模型性能方面的有效性。

表 2 对 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各种与推理相关的基准测试中进行了比较分析。结果表明，RL 使 DeepSeek-R1-Zero 能够获得强大的推理能力，而无需任何监督微调数据。这是一个值得注意的成就，因为它强调了模型仅通过 RL 就能有效地学习和泛化。此外，DeepSeek-R1-Zero 的性能可以通过应用多数投票来进一步提高。例如，当在 AIME 基准测试上应用多数投票时，DeepSeek-R1-Zero 的性能从 $71.0% 提升到 \86.7%$，从而超过了 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 能够实现如此具有竞争力的性能，无论是否使用多数投票，都突出了其强大的基础能力及其在推理任务中的进一步发展潜力。

DeepSeek-R1-Zero 的自我进化过程
DeepSeek-R1-Zero 的自我进化过程是 RL 如何驱动模型自主提高推理能力的迷人展示。通过从基础模型直接启动 RL，我们可以密切监控模型的进展，而不受监督微调阶段的影响。这种方法提供了对模型随时间演变过程的清晰视角，特别是在处理复杂推理任务方面的能力。

如图 3 所示，DeepSeek-R1-Zero 的思考时间在整个训练过程中显示出持续改进。这种改进并非外部调整的结果，而是模型内部的自我发展。DeepSeek-R1-Zero 通过利用扩展的测试时计算，自然地获得了解决越来越复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记不等，使模型能够更深入地探索和完善其思维过程。

这种自我进化最引人注目的方面之一是随着测试时计算的增加，复杂行为开始出现。例如，反思——模型重新审视和重新评估其之前的步骤——以及探索解决问题的替代方法等行为会自发出现。这些行为并非明确编程的，而是模型与强化学习环境交互的结果。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力，使其能够更有效率和准确性更高地处理更复杂的任务。

DeepSeek-R1-Zero 的顿悟时刻
在 DeepSeek-R1-Zero 的训练过程中观察到一个特别有趣的“顿悟时刻”。如表 3 所示，这一时刻发生在模型的中间版本中。在这个阶段，DeepSeek-R1-Zero 学会了通过重新评估其最初的方法来为问题分配更多的思考时间。这种行为不仅是模型日益增长的推理能力的证明，也是 RL 如何导致意想不到和复杂结果的迷人例子。

这个时刻不仅是模型的“顿悟时刻”，也是观察其行为的研究者们的“顿悟时刻”。它强调了强化学习的强大和美丽：我们不是明确地教模型如何解决问题，我们只是提供正确的激励，它就会自主地发展出先进的解决问题策略。“顿悟时刻”有力地提醒我们，RL 有潜力在人工系统中释放出新的智能水平，为未来更自主和适应性更强的模型铺平道路。

DeepSeek-R1-Zero 的缺点
尽管 DeepSeek-R1-Zero 展现出强大的推理能力，并自主发展出意想不到的强大推理行为，但它也面临着几个问题。例如，DeepSeek-R1-Zero 难以应对可读性差、语言混合等挑战。为了使推理过程更具可读性并与开放社区共享，我们探索了 DeepSeek-R1，这是一种利用 RL 与对人类友好的冷启动数据的方法。

2.3 DeepSeek-R1：带有冷启动的强化学习

受 DeepSeek-R1-Zero 令人鼓舞的结果的启发，两个自然的问题出现了：

1.通过加入少量高质量数据作为冷启动，是否可以进一步提高推理性能或加速收敛？

2.我们如何训练一个对用户友好的模型，不仅能产生清晰连贯的思维链（CoT），还能展现出强大的通用能力？

为了回答这些问题，我们设计了一个训练 DeepSeek-R1 的流程。该流程包括四个阶段，如下所述。

2.3.1 冷启动

与 DeepSeek-R1-Zero 不同，为了防止 RL 训练初期不稳定的冷启动阶段从基础模型开始，对于 DeepSeek-R1，我们构建并收集了一小部分长 CoT 数据来微调模型作为初始 RL 参与者。为了收集这样的数据，我们探索了几种方法：使用带有长 CoT 作为示例的少样本提示，直接提示模型生成带有反思和验证的详细答案，收集以可读格式呈现的 DeepSeek-R1-Zero 输出，并通过人工注释者进行后处理以改进结果。

在这项工作中，我们收集了数千条冷启动数据来微调 DeepSeek-V3-Base 作为 RL 的起点。与 DeepSeek-R1-Zero 相比，冷启动数据的优点包括：

可读性:
DeepSeek-R1-Zero 的一个主要限制是它的内容通常不适合阅读。响应可能会混合多种语言或缺乏突出显示用户答案的 markdown 格式。相比之下，在为 DeepSeek-R1 创建冷启动数据时，我们设计了一种可读的模式，其中包括每个响应的末尾有一个摘要，并过滤掉不适合阅读的响应。在这里，我们定义输出格式为 |special_token|<推理过程>|special_token|<摘要>，其中推理过程是查询的 CoT，摘要用于总结推理结果。
潜力:
通过仔细设计带有人类先验的冷启动数据模式，我们观察到 DeepSeek-R1-Zero 更好的性能。我们认为，迭代训练是推理模型的更好方式。

2.3.2 以推理为导向的强化学习

在对冷启动数据微调 DeepSeek-V3-Base 之后，我们应用与 DeepSeek-R1-Zero 相同的、大规模的强化学习训练流程。这个阶段侧重于提高模型在推理密集型任务中的推理能力，例如编码、数学、科学和逻辑推理，这些任务涉及定义明确的问题和明确的解决方案。在训练过程中，我们观察到 CoT 经常出现语言混合，特别是在 RL 提示涉及多种语言时。为了缓解语言混合问题，我们在 RL 训练中引入了一种语言一致性奖励，它计算 CoT 中目标语言单词的比例。虽然消融实验表明，这种对齐会导致模型性能略有下降，但这种奖励符合人类偏好，使其更具可读性。最后，我们将推理任务的准确性和语言一致性奖励直接相加，形成最终奖励。然后，我们对微调后的模型应用强化学习（RL）训练，直到它在推理任务上达到收敛。

2.3.3 拒绝采样和监督微调

当以推理为导向的 RL 收敛时，我们利用生成的检查点收集 SFT（监督微调）数据以进行后续轮次。与最初的冷启动数据不同，后者主要关注推理，这一阶段包含来自其他领域的数据，以增强模型在写作、角色扮演和其他一般任务中的能力。具体来说，我们生成数据并微调模型，如下所述。

推理数据
我们策划推理提示，并通过从上述 RL 训练中获得的检查点进行拒绝采样来生成推理轨迹。在上一阶段，我们只包括可以使用基于规则的奖励进行评估的数据。然而，在这一阶段，我们通过将真实值和模型预测输入 DeepSeek-V3 进行判断，从而扩展数据集，包括额外的数据。此外，因为模型输出有时是混乱且难以阅读的，我们过滤掉了混合语言、长段落和代码块的思维链。对于每个提示，我们对多个响应进行采样，只保留正确的。在总共收集了大约 600k 个与推理相关的训练样本。

非推理数据
对于非推理数据，例如写作、事实问答、自我认知和翻译，我们采用 DeepSeek-V3 流程，并重用 DeepSeek-V3 的部分 SFT 数据集。对于某些非推理任务，我们调用 DeepSeek-V3 在回答问题之前生成一个潜在的思维链。但是，对于更简单的查询，例如“你好”，我们不会在响应中提供 CoT。最后，我们总共收集了大约 200k 个与推理无关的训练样本。

我们使用上述大约 800k 个样本对 DeepSeek-V3-Base 进行两轮微调。

2.3.4 全场景强化学习

为了进一步使模型与人类偏好保持一致，我们实施了一个次级强化学习阶段，旨在提高模型的帮助性和无害性，同时完善其推理能力。具体来说，我们使用奖励信号和多样化的提示分布来训练模型。对于推理数据，我们遵循 DeepSeek-R1-Zero 中概述的方法，利用基于规则的奖励来指导数学、编码和逻辑推理领域的学习过程。对于一般数据，我们求助于奖励模型来捕捉复杂和细微场景中的人类偏好。我们构建在 DeepSeek-V3 流程之上，并采用类似的偏好对和训练提示分布。对于帮助性，我们仅关注最终摘要，确保评估强调响应的有用性和相关性，同时最大限度地减少对潜在推理过程的干扰。对于无害性，我们评估模型的整个响应，包括推理过程和摘要，以识别并减轻在生成过程中可能出现的任何潜在风险、偏见或有害内容。最终，奖励信号和多样化数据分布的整合使我们能够训练出一个在推理方面表现出色，同时优先考虑帮助性和无害性的模型。

2.4 蒸馏：将推理能力赋予小模型

为了使更高效的小型模型具备像 DeepSeek-R1 一样的推理能力，我们直接使用 DeepSeek-R1 精心策划的 800k 个样本对开源模型（如 Qwen（Qwen，2024b）和 Llama（AI@Meta，2024））进行了微调，如 §2.3.3§2.3.3 中所述。我们的发现表明，这种简单的蒸馏方法显著提高了小型模型的推理能力。我们在这里使用的基模型有 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3 是因为它的推理能力略好于 Llama-3.1。

对于蒸馏模型，我们仅应用 SFT，不包括 RL 阶段，尽管加入 RL 可以显著提高模型性能。我们的主要目标在这里是证明蒸馏技术的有效性，将 RL 阶段的探索留给更广泛的研究界。

3. 实验

基准测试
我们在以下基准测试中评估模型：MMLU（Hendrycks 等人，2020）、MMLU-Redux（Gema 等人，2024）、MMLU-Pro（Wang 等人，2024）、C-Eval（Huang 等人，2023）和 CMMLU（Li 等人，2023）、IFEval（Zhou 等人，2023）、FRAMES（Krishna 等人，2024）、GPQA Diamond（Rein 等人，2023）、SimpleQA（OpenAI，2024c）、C-SimpleQA（He 等人，2024）、SWE-Bench Verified（OpenAI，2024d）、Aider 1、LiveCodeBench（Jain 等人，2024）（2024-08 – 2025-01）、Codeforces 2、中国全国高中数学奥林匹克（CNMO 2024）3 和美国邀请数学考试 2024（AIME 2024）（MAA，2024）。除了标准基准测试外，我们还使用 LLM 作为裁判评估了开放式生成任务的模型。具体来说，我们遵循 AlpacaEval 2.0（Dubois 等人，2024）和 Arena-Hard（Li 等人，2024）的原始配置，它们利用 GPT-4-Turbo-1106 作为对等比较的裁判。在这里，我们只向评估提供最终摘要，以避免长度偏差。对于蒸馏模型，我们报告 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上的代表性结果。

评估提示
根据 DeepSeek-V3 中的设置，标准基准测试（如 MMLU、DROP、GPQA Diamond 和 SimpleQA）使用来自 simpleevals 框架的提示进行评估。对于 MMLU-Redux，我们采用 Zero-Eval 提示格式（Lin，2024）在零样本设置中。在 MMLU-Pro、C-Eval 和 CLUE-WSC 方面，由于原始提示是少样本的，我们稍微修改了提示以适应零样本设置。少样本中的 CoT 可能会损害 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议，并提供其创建者提供的默认提示。对于代码和数学基准测试，HumanEval-Mul 数据集涵盖了八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash）。模型在 LiveCodeBench 上的性能使用 CoT 格式进行评估，数据收集时间为 2024 年 8 月至 2025 年 1 月。Codeforces 数据集使用 10 个 Div.2 比赛的题目以及专家制作的测试用例进行评估，之后计算预期评分和参赛者百分比。SWE-Bench 验证结果通过无代理框架（Xia 等人，2024）获得。AIDER 相关基准测试使用“diff”格式进行测量。DeepSeek-R1 输出每个基准测试的最大长度为 32,768 个标记。

基线
我们针对几个强大的基线进行了全面评估，包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在大陆地区访问 OpenAI-o1-1217 API 具有挑战性，我们根据官方报告报告其性能。对于蒸馏模型，我们还比较了开源模型 QwQ-32B-Preview（Qwen，2024a）。

生成设置
对于我们所有的模型，最大生成长度设置为 32,768 个标记。对于需要采样的基准测试，我们使用 0.6 的温度，0.95 的 top-p 值，并为每个查询生成 64 个响应以估计 pass@1。

3.1 DeepSeek-R1 评估

对于以教育为导向的知识基准测试，如 MMLU、MMLU-Pro 和 GPQA Diamond，DeepSeek-R1 相比 DeepSeek-V3 表现出优越的性能。这种改进主要归因于通过大规模强化学习（RL）提高的 STEM 相关问题的准确性。此外，DeepSeek-R1 在 FRAMES 上表现出色，这是一个长上下文依赖的问答任务，展示了其强大的文档分析能力。这凸显了推理模型在 AI 驱动的搜索和数据分析任务中的潜力。在事实基准测试 SimpleQA 上，DeepSeek-R1 优于 DeepSeek-V3，展示了其处理基于事实查询的能力。类似地，OpenAI-o1 在该基准测试中超越了 GPT-4o。然而，DeepSeek-R1 在中国 SimpleQA 基准测试中表现不如 DeepSeek-V3，主要是由于其在安全 RL 后倾向于拒绝回答某些查询。如果不进行安全 RL，DeepSeek-R1 可以达到超过 $70%$ 的准确性。

DeepSeek-R1 在 IF-Eval 上也取得了令人印象深刻的成绩，这是一个用于评估模型遵循格式指令能力的基准测试。这些改进可以与在监督微调（SFT）和 RL 训练的最后阶段包含指令跟随数据有关。此外，在 AlpacaEval2.0 和 ArenaHard 上观察到显著的性能，这表明 DeepSeek-R1 在写作任务和开放领域问答方面的优势。它对 DeepSeek-V3 的显著超越凸显了大规模 RL 的泛化优势，它不仅提高了推理能力，而且提高了跨多个领域的性能。此外，DeepSeek-R1 生成的摘要长度简洁，ArenaHard 上的平均为 689 个标记，AlpacaEval 2.0 上的为 2,218 个字符。这表明 DeepSeek-R1 在基于 GPT 的评估中避免了引入长度偏差，进一步巩固了其在多个任务中的稳健性。

在数学任务中，DeepSeek-R1 表现出与 OpenAI-o1-1217 相当的性能，超过了其他模型。在编码算法任务（如 LiveCodeBench 和 Codeforces）上也观察到类似的趋势，在这些基准测试中，推理型模型占据主导地位。在工程导向的编码任务上，OpenAI-o1-1217 在 Aider 上优于 DeepSeek-R1，但在 SWE Verified 上取得了可比较的性能。我们认为 DeepSeek-R1 的工程性能将在下一版本中有所提高，因为目前与 RL 训练数据相关的数量仍然非常有限。

3.2 蒸馏模型评估

如表 5 所示，简单的蒸馏 DeepSeek-R1 的输出使高效 DeepSeek-R1-7B（即 DeepSeek-R1-Distill-Qwen-7B，以下简称类似）能够全面超越非推理模型，如 GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上均超过 QwQ-32B-Preview，而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中显著超越 o1-mini。这些结果证明了蒸馏的强大潜力。此外，我们发现对这些蒸馏模型应用 RL 可以获得显著的进一步收益。我们认为这值得进一步探索，因此这里只报告了简单的 SFT 蒸馏模型的结果。

4. 讨论

4.1 蒸馏与强化学习

在第 3.2 节中，我们可以看到，通过蒸馏 DeepSeek-R1，小模型可以获得令人印象深刻的结果。但是，还有一个问题是：模型是否可以通过论文中讨论的大规模 RL 训练而无需蒸馏而达到可比较的性能？

为了回答这个问题，我们使用数学、编码和 STEM 数据对 Qwen-32B-Base 进行大规模 RL 训练，训练超过 10K 步，从而得到 DeepSeek-R1-Zero-Qwen-32B。实验结果如图 6 所示，32B 基础模型，经过大规模 RL 训练，其性能与 QwQ-32B-Preview 相当。然而，DeepSeek-R1-Distill-Qwen-32B 是在 DeepSeek-R1 基础上蒸馏出来的，在所有基准测试中均显著优于 DeepSeek-R1-Zero-Qwen-32B。因此，我们可以得出两个结论：首先，将更强大的模型蒸馏到更小的模型中会产生出色的结果，而小模型依赖于论文中提到的大规模 RL，需要巨大的计算能力，甚至可能无法达到蒸馏的性能。其次，尽管蒸馏策略既经济又有效，但突破智能的边界可能仍然需要更强大的基础模型和更大规模的强化学习。

4.2 失败的尝试

在开发 DeepSeek-R1 的早期阶段，我们也遇到了失败和挫折。我们在这里分享我们的失败经验，以提供见解，但这并不意味着这些方法无法开发有效的推理模型。

过程奖励模型（PRM）
PRM 是一种合理的方法，可以引导模型找到更好的方法来解决推理任务（Lightman 等人，2023；Uesato 等人，2022；Wang 等人，2023）。然而，在实践中，PRM 有三个主要限制，可能会阻碍其最终成功。首先，在一般推理中很难明确定义一个细粒度步骤。其次，确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动注释可能无法获得满意的结果，而手动注释不利于扩大规模。第三，一旦引入基于模型的 PRM，它不可避免地会导致奖励黑客攻击（Gao 等人，2022），而重新训练奖励模型需要额外的训练资源，并使整个训练流程复杂化。总之，尽管 PRM 在对模型生成的前 N 个响应进行重新排序或协助引导搜索（Snell 等人，2024）方面表现出良好的能力，但其优势与在大型强化学习过程中引入的额外计算开销相比是有限的。

蒙特卡洛树搜索（MCTS）
受 AlphaGo（Silver 等人，2017b）和 AlphaZero（Silver 等人，2017a）的启发，我们探索了使用蒙特卡洛树搜索（MCTS）来提高测试时计算的可扩展性。这种方法涉及将答案分解成更小的部分，以允许模型系统地探索解决方案空间。为了促进这一点，我们提示模型生成多个标签，这些标签对应于搜索所需的特定推理步骤。对于训练，我们首先使用收集到的提示，通过 MCTS 找到答案，该 MCTS 由预训练的价值模型引导。随后，我们使用结果的问题-答案对来训练演员模型和价值模型，迭代地改进过程。

然而，当扩大训练规模时，这种方法遇到了几个挑战。首先，与棋类游戏相比，搜索空间相对明确，而令牌生成呈现出指数级更大的搜索空间。为了解决这一问题，我们为每个节点设置了最大扩展限制，但这会导致模型陷入局部最优。其次，价值模型直接影响生成的质量，因为它引导了搜索过程的每个步骤。训练一个细粒度的价值模型本身就是困难的，这使得模型难以迭代改进。虽然 AlphaGo 的核心成功依赖于训练价值模型来逐步提高其性能，但由于令牌生成的复杂性，这一原则在我们的设置中难以复制。

总之，虽然 MCTS 在推理时与预训练的价值模型配对时可以提高性能，但通过自我搜索迭代提高模型性能仍然是一个

5. 结论、局限性和未来工作

在这项工作中，我们分享了我们通过强化学习（RL）提高模型推理能力的历程。DeepSeek-R1-Zero 代表了一种纯 RL 方法，不依赖于冷启动数据，在各种任务中表现出强大的性能。DeepSeek-R1 更加强大，利用冷启动数据和迭代 RL 微调。最终，DeepSeek-R1 在一系列任务中达到了与 OpenAI-o1-1217 相当的性能。

我们进一步探索了将推理能力蒸馏到小型密集模型中。我们使用 DeepSeek-R1 作为教师模型生成 800K 数据，并微调了几个小型密集模型。结果很有希望：DeepSeek-R1-Distill-Qwen-1.5B 在 AIME 和 MATH 上分别以 $28.9% 和 \83.9%$ 超越了 GPT-4o 和 Claude-3.5-Sonnet。其他密集模型也取得了令人印象深刻的结果，显著优于基于相同底层检查点的其他指令微调模型。

在未来的 DeepSeek-R1 研究中，我们将计划投资于以下方向。

通用能力:
目前，DeepSeek-R1 在诸如函数调用、多轮、复杂角色扮演和 json 输出等任务中的能力不如 DeepSeek-V3。展望未来，我们计划探索如何利用长 CoT 来增强这些领域的任务。
语言混合:
DeepSeek-R1 目前针对中文和英文进行了优化，这可能会导致处理其他语言的查询时出现语言混合问题。例如，即使查询不是英文或中文，DeepSeek-R1 可能会使用英文进行推理和响应。我们打算在未来的更新中解决这个局限性。
提示工程:
在评估 DeepSeek-R1 时，我们观察到它对提示敏感。少样本提示会持续降低其性能。因此，我们建议用户直接描述问题并指定输出格式，使用零样本设置以获得最佳结果。
软件工程任务:
由于评估时间长，影响 RL 过程的效率，大规模 RL 尚未在软件工程任务中广泛应用。因此，DeepSeek-R1 在软件工程基准测试中并没有表现出巨大的改进。未来的版本将通过在软件工程数据上实施拒绝采样或在 RL 过程中加入异步评估来提高效率。