Deepseek-R1登上热榜，RL前添加SFT效果更佳！

Android老皮

570人浏览 · 2025-02-10 10:57:47

Android老皮 · 2025-02-10 10:57:47 发布

DeepSeek-R1-Zero 使用纯强化学习RL来提升语言模型推理能力的第一步。是通过大规模强化学习（RL）训练的模型，无需监督微调（SFT）作为初步步骤，展现出卓越的推理能力。但是它有缺点：可读性差和语言混杂。

解决：在强化学习之前融入了多阶段训练和冷启动数据（DeepSeek-R1）

结果：DeepSeek-R1性能与OpenAI相当；此外，基于 Qwen 和 Llama 从 DeepSeek-R1 中提炼出的六个稠密模型（1.5B、7B、 8B、14B、32B、70B参数规模），部分效果与DeepSeek-R1平齐；

不成功的尝试：过程奖励模型（PRM）和蒙特卡洛树搜索（MCTS）

00 摘要

我们推出了我们的第一代推理模型，DeepSeek-R1-Zero 和 DeepSeek-R1。通过大规模强化学习（RL）训练且未经监督微调（SFT）的 DeepSeek-R1-Zero 模型，初步展示了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero 自然展现出众多强大且有趣的推理行为。然而，它面临诸如可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能，我们推出了 DeepSeek-R1，该模型在强化学习之前融入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现与 OpenAI 的 o1-1217 相当。为了支持研究社区，我们将 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出的六个密集模型（1.5B、7B、8B、14B、32B、70B）开源。

在这里插入图片描述

01 引言

近年来，大型语言模型（LLMs）经历了快速的迭代和进化（Anthropic，2024年；谷歌，2024年；OpenAI，2024a年），逐步缩小了通往通用人工智能（AGI）的差距。

最近，训练后环节已成为完整训练流程的重要组成部分。研究表明，它在推理任务上提高准确性，与社会价值观保持一致，并适应用户偏好，同时相比预训练所需的计算资源相对较少。在推理能力方面，OpenAI的o1（OpenAI，2024b）系列模型是首批通过增加思维链推理过程的长度来实现推理时扩展的模型。这种方法在各种推理任务中取得了显著改进，例如数学、编程和科学推理。然而，如何有效实现测试时扩展仍然是研究界的未解之谜。几项先前的研究探索了各种方法，包括基于过程的奖励模型（Lightman等人，2023年；Uesato等人，2022年；Wang等人，2023年）、强化学习（Kumar等人，2024年）以及蒙特卡洛树搜索和束搜索等搜索算法（Feng等人，2024年；Trinh等人，2024年；Xin等人，2024年）。然而，这些方法中没有一个能够达到与OpenAI o1系列模型相当的通用推理性能。

本文旨在使用纯强化学习（RL）作为第一步来提高语言模型的推理能力。我们的目标是探索大型语言模型在没有监督数据的情况下发展推理能力的潜力，专注于它们通过纯RL过程自我进化的能力。具体来说，我们以DeepSeek-V3-Base作为基础模型，并采用GRPO（Shao等人，2024年）作为强化学习框架来提升模型在推理方面的表现。在训练过程中，DeepSeek-R1-Zero自然而然地展现出众多强大而有趣的推理行为。经过数千步的强化学习之后，DeepSeek-R1-Zero在推理基准测试上表现出超常的性能。例如，AIME 2024的pass@1分数从15.6%提升至71.0%，通过多数投票，分数进一步提升至86.7%，与OpenAI-o1-0912的表现相当。

然而，DeepSeek-R1-Zero面临诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提升推理性能，我们推出了DeepSeek-R1，它结合了少量冷启动数据和多阶段训练流程。具体来说，我们首先收集数千条冷启动数据以微调DeepSeek-V3-Base模型。接下来，我们执行像DeepSeek-R1-Zero那样的以推理为导向的强化学习。在强化学习过程接近收敛时，我们通过对RL检查点的拒绝采样生成新的SFT数据，并结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据，然后重新训练DeepSeek-V3-Base模型。用新数据微调后，检查点会经历额外的强化学习过程，考虑到所有场景的提示。经过这些步骤，我们获得了一个称为DeepSeek-R1的检查点，其性能与OpenAI-o1-1217相当。

我们进一步探索从DeepSeek-R1蒸馏到更小的密集模型。使用Qwen2.532B（Qwen，2024b）作为基础模型，直接蒸馏自DeepSeek-R1的表现优于对其应用强化学习。这表明，较大基础模型发现的推理模式对提升推理能力至关重要。我们将蒸馏得到的Qwen和Llama（Dubey等人，2024年）系列开源。值得注意的是，我们提炼的140亿参数模型大幅领先最先进的开源问答模型QwQ-32B-Preview（Qwen，2024a），而提炼的320亿和700亿参数模型在密集模型中的推理基准测试上创下了新纪录。

1.1. 贡献

训练后：对基础模型进行大规模强化学习

● 我们直接将强化学习（RL）应用于基础模型，而不依赖于监督微调（SFT）作为初步步骤。这种方法使模型能够探索思维链（CoT）来解决复杂问题，从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展现了自我验证、反思以及生成长CoT等能力，标志着研究领域的重大里程碑。值得注意的是，这是首项开放研究，证实了大型语言模型（LLM）的推理能力可以仅通过强化学习来激励，无需监督微调。这一突破为该领域的未来发展铺平了道路。

● 我们介绍了开发DeepSeek-R1的流程。该流程包含两个旨在发现改进推理模式并与人类偏好对齐的强化学习阶段，以及两个作为模型推理和非推理能力种子阶段的监督微调阶段。我们相信该流程将通过创建更好的模型，为行业带来益处。

蒸馏：较小的模型也可以很强大

● 我们展示了较大模型的推理模式可以被提炼到更小的模型中，从而在性能上超越通过强化学习在小模型上发现的推理模式。开源的DeepSeek-R1及其API将有助于研究社区在未来提炼出更好的小型模型。

● 使用DeepSeek-R1生成的推理数据，我们对几种在研究社区广泛使用的密集模型进行了微调。评估结果显示，经过提炼的小型密集模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上取得了55.5%的分数，超越了QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分为72.6%，在MATH-500上得分为94.3%，在LiveCodeBench上得分为57.2%。这些结果显著优于以往的开源模型，并且与o1-mini相当。我们将基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B检查点开源共享给社区。

1.2. 评估结果摘要

● 推理任务：（1）DeepSeek-R1在AIME 2024上取得了79.8%的Pass@1得分，略微超越OpenAI-o1-1217。在MATH-500上，它获得了令人印象深刻的97.3%得分，与OpenAI-o1-1217的表现不相上下，并显著优于其他模型。在编程相关任务上，DeepSeek-R1在代码竞赛任务中展现了专家级水平，因为它在Codeforces上获得了2029的Elo评分，超过了竞赛中96.3%的人类参与者。在工程相关任务中，DeepSeek-R1的表现略优于DeepSeek-V3，这可以帮助开发人员在现实世界任务中获得优势。

● 知识方面：在多个基准测试如MMLU、MMLU-Pro和GPQA Diamond上，DeepSeek-R1取得了杰出的成绩，显著超越DeepSeek-V3，其得分分别为MMLU上的90.8%、MMLU-Pro上的84.0%以及GPQA Diamond上的71.5%。尽管在这些基准测试中的表现略低于OpenAI-o1-1217，但DeepSeek-R1超越了其他闭源模型，展示了其在教育任务中的竞争优势。在事实型基准测试SimpleQA上，DeepSeek-R1的表现优于DeepSeek-V3，展现了其处理基于事实查询的能力。在类似的趋势中，OpenAI-o1在该基准测试上也超过了4o。

● 其他方面：DeepSeek-R1在包括创意写作、一般问题回答、编辑、总结等在内的广泛任务中也表现出色。它在AlpacaEval 2.0上实现了令人印象深刻的受控长度胜率87.6%，在Are-naHard上的胜率为92.3%，展示出其在智能处理非考试导向查询方面的强大能力。此外，DeepSeek-R1在需要长上下文理解的任务上表现卓越，大幅领先DeepSeek-V3在长上下文基准测试上的表现。

02 方法

2.1. 概述

以往的工作在很大程度上依赖于大量的监督数据来提升模型性能。在本研究中，我们展示了即使不采用监督微调（SFT）作为冷启动，通过大规模强化学习（RL）也能显著提升推理能力。此外，加入少量冷启动数据可以进一步增强性能。在接下来的部分中，我们将介绍：（1）DeepSeek-R1-Zero，它直接对基础模型应用RL，不使用任何SFT数据；以及（2）DeepSeek-R1，它从一个用数千个长链式思维（CoT）例子微调的检查点开始应用RL。3）将DeepSeek-R1的推理能力提炼到小型密集模型中。

2.2. DeepSeek-R1-Zero：基础模型上的强化学习

强化学习在我们的先前工作中已被证明在推理任务中具有显著的有效性（Shao等人，2024年；Wang等人，2023年）。然而，这些工作严重依赖监督数据，收集这些数据耗时耗力。在本节中，我们探索大型语言模型在没有监督数据的情况下发展推理能力的潜力，重点在于它们通过纯粹的强化学习过程自我进化。我们首先简要概述我们的强化学习算法，然后展示一些令人兴奋的结果，希望这能为社区提供宝贵的见解。

2.2.1. 强化学习算法

为了节省RL的训练成本，我们采用了组相对策略优化（GRPO）（Shao等人。（2024年），该方法省去了通常与策略模型大小相同的批评模型，而是从组分数估计基线。具体来说，对于每个问题q，GRPO从旧策略_πθ_old中抽取一组输出{_o_1,o_2,⋯,oG}，然后通过最大化以下目标来优化策略模型_πθ：

在这里插入图片描述

2.2.2. 奖励建模

奖励是训练信号的来源，它决定了强化学习的优化方向。为了训练DeepSeek-R1-Zero，我们采用了一个基于规则的奖励系统，主要包括两种类型的奖励：

● 准确性奖励：准确性奖励模型评估响应是否正确。例如，在具有确定性结果的数学问题中，要求模型以指定的格式（如，在方框内）提供最终答案，以实现可靠的基于规则的验证正确性。同样，对于LeetCode问题，可以使用编译器根据预定义的测试用例生成反馈。

● 格式奖励：除了准确性奖励模型外，我们还采用了一个格式奖励模型，强制模型将其**思维过程放在‘‘和‘’**标签之间。

在开发DeepSeek-R1-Zero时，我们没有应用结果或过程的神经奖励模型，因为我们发现神经奖励模型在大规模强化学习过程中，可能会遭受奖励黑客攻击，并且重新训练奖励模型需要额外的训练资源，这使整个训练流程变得复杂。

2.2.3. 训练模板

在这里插入图片描述

为了训练DeepSeek-R1-Zero，我们首先设计一个直接的模板，指导基础模型遵循我们指定的指令。如表1所示，该模板要求DeepSeek-R1-Zero首先生成推理过程，然后是最终答案。我们有意限制我们的约束为这种结构格式，避免任何内容特定的偏见——例如强制要求反思性推理或推广特定的解决问题策略——以确保我们可以准确观察模型在强化学习（RL）过程中的自然进展。

2.2.4. DeepSeek-R1-Zero的表现、自我进化过程以及顿悟时刻

图2展示了DeepSeek-R1-Zero在强化学习（RL）训练过程中，整个AIME 2024基准测试的表现轨迹。如图所示，随着RL训练的推进，DeepSeek-R1-Zero表现出稳定且持续的性能提升。值得注意的是，AIME 2024的平均通过@1分数显著增加，从最初的15.6%跃升至令人印象深刻的71.0%，达到与OpenAI-o1-0912相当的表现水平。这一显著改进突显了我们RL算法在优化模型随时间表现方面的有效性。

在这里插入图片描述

表2提供了DeepSeek-R1-Zero与OpenAI的o1-0912模型在多种推理相关基准测试中的比较分析。研究结果显示，强化学习（RL）赋予了模型DeepSeek-R1-Zero在不依赖任何监督微调数据的情况下，实现了强大的推理能力。这是一个值得注意的成就，因为它强调了模型仅通过强化学习（RL）就能有效学习和泛化的能力。此外，通过应用多数投票法，可以进一步提高DeepSeek-R1-Zero的性能。例如，在AIME基准测试中使用多数投票法时，DeepSeek-R1-Zero的表现从71.0%提升至86.7%，从而超越了OpenAI-o1-0912的表现。DeepSeek-R1-Zero无论是否使用多数投票法，都能达到如此具有竞争力的表现，这突显了其强大的基础能力和在推理任务中进一步进步的潜力。

在这里插入图片描述

DeepSeek-R1-Zero的自我进化过程是一个迷人的展示，展示了如何通过强化学习（RL）驱动模型自主提升其推理能力。通过直接从基础模型开始进行RL，我们可以密切监控模型的进展，不受监督微调阶段的影响。这种方法清晰地展示了模型随时间进化的情况，特别是在处理复杂推理任务的能力方面。

在这里插入图片描述

如图3所示，DeepSeek-R1-Zero的思考时间显示出持续的提升在整个训练过程中。这种改进并非外部调整的结果，而是模型内部发展的结果。DeepSeek-R1-Zero自然地获得了利用扩展的测试时计算解决日益复杂推理任务的能力。这种计算范围从生成数百到数千个推理标记，使模型能够更深入地探索和精炼其思维过程。

自我演化的最显著方面之一是随着测试时计算的增加，出现了复杂的行为。诸如反思之类的行为——模型重新审视并重新评估其先前的步骤——以及对问题解决方法的探索自发地出现。这些行为并非明确编程，而是作为模型与强化学习环境互动的结果而出现的。这种自发的发展显著增强了DeepSeek-R1-Zero的推理能力，使其能够更高效、更准确地应对更具挑战性的任务。

DeepSeek-R1-Zero的顿悟时刻 在对DeepSeek-R1-Zero进行训练期间观察到的一个特别有趣的现象是“顿悟时刻”的出现。如图3所示，这一时刻出现在模型的中间版本中。在这个阶段，DeepSeek-R1-Zero通过重新评估其初始方法学会为问题分配更多思考时间。这种行为不仅证明了模型推理能力的增长，也是一个迷人的例子，展示了强化学习如何带来意想不到且复杂的结果。

这个时刻不仅是模型的“顿悟”时刻，也是观察它行为的研究人员的“顿悟”时刻。它强调了强化学习的强大与美丽：我们不是明确地教模型如何解决问题，而只是提供正确的激励，它就能自主发展出高级的问题解决策略。“顿悟”时刻有力地提醒人们强化学习（RL）在解锁人工系统新智能层次上的潜力，为未来更自主和适应性更强的模型铺平道路。

DeepSeek-R1-Zero的缺点尽管DeepSeek-R1-Zero展现出强大的推理能力并自主发展出意想不到的强大推理行为，但它面临几个问题。例如，DeepSeek-R1-Zero在诸如可读性差和语言混杂等挑战面前表现挣扎。为了让推理过程更易读，并与开放社区分享，我们探索了DeepSeek-R1，一种利用带友好冷启动数据的强化学习方法。

在这里插入图片描述

2.3. DeepSeek-R1：带有冷启动的强化学习

受到DeepSeek-R1-Zero令人鼓舞的结果启发，自然会产生两个问题：1）通过引入少量高质量数据作为冷启动，是否可以进一步提高推理性能或加速收敛？2）我们**如何训练一个既产生清晰连贯的思维链（CoT），又展现出强大通用能力的用户友好型模型？**为了回答这些问题，我们设计了一个用于训练DeepSeek-R1的流程。该流程包含四个阶段，概述如下。

2.3.1. 冷启动

与DeepSeek-R1-Zero不同，为了防止基础模型的早期不稳定冷启动阶段的强化学习训练，对于DeepSeek-R1，我们构建并收集少量长CoT数据来微调模型，作为初始的强化学习行动者。为了收集此类数据，我们探索了几种方法：以长CoT为例使用少样本提示，直接提示模型生成包含反思和验证的详细答案，以可读的格式收集DeepSeek-R1-Zero的输出，并通过人类注释员进行后处理来完善结果。

在这项工作中，我们收集了数千条冷启动数据，以微调DeepSeek-V3-Base作为强化学习的起点。与DeepSeek-R1-Zero相比，冷启动数据的优势包括：

● 可读性：DeepSeek-R1-Zero的一个主要限制是其内容通常不适合阅读。回答可能混合多种语言或缺乏标记格式来突出显示用户的答案。相比之下，在为DeepSeek创建冷启动数据时，我们设计了一种可读模式，其中包括每个回答末尾的摘要，并过滤掉不便于阅读的回应。这里，我们将输出格式定义为：|special_token|<reasoning_process>|special_token|, ，其中推理过程是查询的CoT，摘要用于总结推理结果。

● 潜力：通过仔细设计带有人类先验知识的冷启动数据模式，我们观察到与DeepSeek-R1-Zero相比有更好的表现。我们认为迭代训练是推理模型更好的方式。

2.3.2. 以推理为导向的强化学习

在冷启动数据上对DeepSeek-V3-Base进行微调后，我们应用与DeepSeek-R1-Zero中采用的大规模强化学习训练过程相同的训练过程。本阶段着重于提升模型的推理能力，特别是在编程、数学、科学和逻辑推理等推理密集型任务中，这些任务涉及定义明确且有清晰解决方案的问题。在训练过程中，我们观察到CoT（Code-to-Text转换模型）常常表现出语言混合现象，尤其是在强化学习（RL）提示包含多种语言时。为了减轻语言混合问题，我们在RL训练期间引入了一种语言一致性奖励，该奖励是根据CoT中目标语言词汇的比例计算得出的。尽管消融实验显示这种对齐会导致模型性能略有下降，但这种奖励符合人类偏好，使其更易读。最后，我们将推理任务的准确性与语言一致性的奖励结合起来，通过直接求和形成最终奖励。然后我们对微调后的模型进行强化学习（RL）训练，直到其在推理任务上达到收敛。

2.3.3. 拒绝采样和监督式微调

当以推理为导向的RL收敛时，我们利用得到的检查点来收集SFT（监督式微调）数据，用于后续轮次。不同于最初主要关注推理的冷启动数据，这一阶段纳入了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务方面的能力。具体来说，我们按如下方式生成数据并对模型进行微调。

推理数据我们通过从上述强化学习训练的检查点执行拒绝采样来策划推理提示并生成推理轨迹。在前一阶段，我们仅包括那些可以使用基于规则的奖励来评估的数据。然而，在本阶段，我们通过加入额外数据来扩展数据集，其中一些数据使用生成性奖励模型，通过将真实情况和模型预测输入到DeepSeek-V3中进行判断。此外，因为模型输出有时是混乱的且难以阅读，我们已经过滤掉了混合语言、长段落和代码块的思维链。对于每个提示，我们采样多个响应并保留正确的响应。总共，我们收集了大约60万个与推理相关的训练样本。

非推理数据对于非推理数据，如写作、事实问答、自我认知和翻译，我们采用DeepSeek-V3流程，并复用DeepSeek-V3的部分SFT数据集。对于某些非推理任务，我们在回答问题之前通过提示调用DeepSeek-V3生成一个潜在的思维链。然而，对于更简单的查询，如“hello”，我们不会在响应中提供CoT（思维链）。最终，我们收集了大约20万个与推理无关的训练样本。

我们使用上述策划的数据集（约80万个样本）对DeepSeek-V3-Base进行两个周期的微调。

2.3.4. 所有场景下的强化学习

为了使模型更好地符合人类偏好，我们实施了一个次级强化学习阶段，旨在提高模型的有用性和无害性，同时精炼其推理能力。具体来说，我们使用奖励信号和多样的提示分布组合来训练模型。对于推理数据，我们遵循DeepSeek-R1-Zero中提出的方法论，该方法论利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据，我们采用奖励模型来捕捉复杂微妙场景下的人类偏好。我们在DeepSeek-V3流程的基础上进行构建，并采用类似的偏好对分布和训练提示。对于有用性，我们仅关注最终摘要，确保评估强调响应对用户的实用性和相关性，同时最小化对底层推理过程的干扰。对于无害性，我们评估模型的整个响应，包括推理过程和摘要，以识别和减轻在生成过程中可能出现的任何潜在风险、偏见或有害内容。最终，奖励信号和多样数据分布的整合使我们能够训练出一个在推理方面表现出色的同时优先考虑有用性和无害性的模型。

2.4. 蒸馏：赋予小型模型推理能力

为了装备具有推理能力的高效小型模型，如DeekSeek-R1，我们直接使用由DeepSeek-R1策划的80万份样本对开源模型如Qwen（Qwen，2024b）和Llama（AI@Meta，2024）进行了微调，如$2.3.3节所述。我们的研究表明，这种直接的蒸馏方法显著提高了小型模型的推理能力。我们在此使用的基模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我们选择Llama-3.3是因为其推理能力略优于Llama-3.1。

对于蒸馏后的模型，我们仅应用SFT，不包括强化学习（RL）阶段，尽管整合RL可能会大幅提升模型性能。我们在此的主要目标是展示蒸馏技术的有效性，而将RL阶段的探索留给更广泛的研究社区。

03 实验

基准测试：我们在MMLU（Hendrycks等人，2020年）、MMLU-Redux（Gema等人，2024年）、MMLU-Pro（Wang等人，2024年）、C-Eval（Huang等人，2023年）、CMMLU（Li等人，2023年）、IFEval（Zhou等人，2023年）、FRAMES（Krishna等人，2024年）、GPQA Diamond（Rein等人，2023年）、SimpleQA（OpenAI，2024c）、C-SimpleQA（He等人，2024年）、SWE-Bench Verified（OpenAI，2024d）、Aider 1、LiveCodeBench（Jain等人，2024年）（2024-08-2025-01）、Codeforces 2、中国全国高中数学奥林匹克竞赛（CNMO 2024年）3和美国数学竞赛邀请赛2024年（AIME 2024年）（MAA，2024年）等基准上进行模型评估。除了标准基准测试，我们还使用大型语言模型（LLMs）作为评判，在开放式生成任务上评估我们的模型。具体来说，我们遵循AlpacaEval 2.0（Dubois等人，2024年）和Arena-Hard（李等人，2024年）的原始配置，它们使用GPT-4 Turbo 1106作为评判进行成对比较。在这里，我们仅将最终摘要用于评估，以避免长度偏差。对于蒸馏模型，我们使用LiveCodeBench进行评估。

按照DeepSeek-V3的设置，使用来自simple-evals框架的提示对标准基准测试如MMLU、DROP、GPQA Diamond和SimpleQA进行评估。对于MMLU-Redux，我们在零样本设置中采用Zero-Eval提示格式（Lin，2024年）。至于MMLU-Pro、C-Eval和CLUE-WSC，由于原始提示是少样本的，我们略微修改提示以适应零样本设置。少样本中的CoT可能会影响DeepSeek-R1的性能。其他数据集遵循其原始的评估协议，并使用其创建者提供的默认提示。对于代码和数学基准测试，HumanEval-Mul数据集涵盖了八种主流编程语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash）。在LiveCodeBench上评估模型性能时使用CoT格式，数据收集时间为2024年8月至2025年1月。Codeforces数据集使用10个Div.2竞赛的问题以及专家制作的测试用例进行评估，之后计算参赛者的预期评分和百分比。SWE-Bench验证结果通过无代理框架获得（Xia等人，2024年）。辅助相关基准测试使用“diff”格式进行测量。DeepSeek-R1的输出在每个基准测试中限制在最多32,768个标记。

基线：我们对几个强大的基线进行了全面评估，包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217。由于在中国大陆访问OpenAI-o1-1217 API具有挑战性，我们根据官方报告来报告其表现。对于蒸馏模型，我们还比较了开源模型QwQ-32B-Preview（Qwen，2024a）。

生成设置：对于我们所有的模型，最大生成长度被设置为32,768个标记。对于需要抽样的基准测试，我们使用0.6的温度值、0.95的核化采样概率值，并且每个查询生成64个响应以估计pass@1。

3.1. DeepSeek-R1评估

对于面向教育领域的知识基准测试，如MMLU、MMLU-Pro和GPQA Di-amond，DeepSeek-R1相较于DeepSeek-V3展现了卓越的性能。这一改进主要归因于STEM相关问题的准确性提升，通过大规模强化学习（RL）取得了显著进步。此外，DeepSeek-R1在长上下文依赖的问答任务FRAMES上也表现出色，展示了其强大的文档分析能力。这突显了推理模型在AI驱动下数据搜索和分析任务中的潜力。

在这里插入图片描述

在事实性基准测试SimpleQA上，DeepSeek-R1的表现优于DeepSeek-V3，展示了其在处理基于事实的查询方面的能力。观察到类似的趋势，OpenAI-o1在此基准测试中超越了GPT-4o。然而，在中文SimpleQA基准测试中，DeepSeek-R1的表现不如DeepSeek-V3，这主要是由于其倾向于在安全强化学习（RL）后拒绝回答某些查询。如果没有安全RL，DeepSeek-R1的准确率可以达到70%以上。

DeepSeek-R1在IF-Eval上也取得了令人印象深刻的结果，该基准旨在评估模型遵循格式指令的能力。这些改进可以归因于在监督微调（SFT）和RL训练的最后阶段包含了遵循指令的数据。此外，在AlpacaEval2.0和ArenaHard上也观察到了显著的性能表现，这表明DeepSeek-R1在写作任务和开放领域问答方面的优势。其显著超越DeepSeek-V3的表现强调了大规模RL的泛化效益，这不仅提升了推理能力，还改善了跨不同领域的性能。此外，由DeepSeek-R1生成的摘要长度简洁，在ArenaHard上的平均长度为689个标记，在AlpacaEval 2.0上的字符数为2218个。这表明DeepSeek-R1在基于GPT的评估中避免了引入长度偏见，进一步巩固了其跨多任务的稳健性。

在数学任务上，DeepSeek-R1的表现与OpenAI-o1-1217相当，大幅领先其他模型。在编程算法任务上也观察到类似的趋势，例如LiveCodeBench和Codeforces，这些基准测试主要由注重推理的模型主导。在面向工程的编程任务上，OpenAI-o1-1217在Aider上的表现优于DeepSeek-R1，但在SWE Verified上达到相当的性能水平。我们相信，随着目前相关强化学习训练数据的量仍然非常有限，DeepSeek-R1的工程性能将在下一个版本中得到提升。

3.2. 精简模型评估

在这里插入图片描述

如表5所示，仅通过蒸馏DeepSeek-R1的输出，高效的DeepSeek-R1-7B（即DeepSeek-R1-Distill-Qwen-7B，下面简称相同）便能在各个方面超越非推理模型如GPT-4o-0513。DeepSeek-R1-14B在所有评估指标上均超越了QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超越o1-mini。这些结果展示了蒸馏的强大潜力。此外，我们发现将这些蒸馏模型应用于强化学习可带来进一步的显著收益。我们认为这值得进一步探索，因此在此仅展示简单的SFT蒸馏模型的结果。

04 讨论

4.1. 蒸馏与强化学习

在这里插入图片描述

在第3.2节中，我们可以看到通过精炼DeepSeek-R1，小型模型能够取得令人印象深刻的结果。然而，还有一个问题尚待解答：该模型能否通过论文中讨论的大规模强化学习训练，而非精炼过程，达到可与之相媲美的性能？

为了回答这个问题，我们使用数学、代码和STEM数据对Qwen-32B-Base进行大规模强化学习训练，训练超过10000步，得到了DeepSeek-R1-Zero-Qwen-32B。实验结果显示在图6中，经过大规模强化学习训练的32B基础模型，其性能与QwQ-32B-预览版相当。然而，从DeepSeek-R1精炼而来的DeepSeek-R1-Distill-Qwen-32B，在所有基准测试中的表现显著优于DeepSeek-R1-Zero-Qwen-32B。因此，我们可以得出两个结论：首先，将更强大的模型精炼成较小的模型能够取得优异的成果；而依赖本文提到的大规模强化学习的小型模型则需要巨大的计算能力，甚至可能无法达到精炼模型的性能。其次，尽管精炼策略既经济又有效，但要超越智能的界限可能仍需要更强大的基础模型和更大规模的强化学习。

4.2. 不成功的尝试

在开发DeepSeek-R1的早期阶段，我们也遇到了失败和挫折。我们在这里分享我们的失败经验，以提供洞见，但这并不意味着这些方法不能开发有效的推理模型。

过程奖励模型（PRM）是一种合理的方法，用以指导模型寻找更好的解决推理任务的方法（Lightman等人，2023年；Uesato等人，2022年；Wang等人，2023年）。然而，在实践中，PRM有三个主要的局限性可能会阻碍其最终的成功。首先，明确地定义一般推理中的细粒度步骤是具有挑战性的。其次，确定当前的中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动化注释可能不会产生令人满意的结果，而手动注释则不利于扩展。第三，一旦引入基于模型的PRM，它不可避免地会导致奖励操纵（Gao等人，2022年），并且重新训练奖励模型需要额外的训练资源，这还使得整个训练流程变得复杂。总之，尽管PRM在重新排序模型生成的顶尖N个响应或协助引导搜索（Snell等人，2024年）方面表现出良好的能力，但与我们实验中在大规模强化学习过程中引入的额外计算开销相比，其优势是有限的。

蒙特卡洛树搜索（MCTS）受到AlphaGo（Silver等人，2017b）和AlphaZero（Silver等人，2017a）的启发，我们探索了使用蒙特卡洛树搜索（MCTS）来提升测试时计算的扩展性。这种方法涉及将答案拆分成更小的部分，以便模型系统地探索解决方案空间。为了促进这一点，我们提示模型生成多个标签，这些标签对应于搜索所需的特定推理步骤。在训练时，我们首先使用收集到的提示通过由预训练的价值模型引导的MCTS来找到答案。随后，我们使用得到的问题-答案对来训练演员模型和价值模型，迭代地精炼该过程。

然而，当扩展训练规模时，这种方法会遇到几个挑战。首先，与棋盘游戏不同，其搜索空间相对明确，而标记生成呈现指数级更大的搜索空间。为解决这一问题，我们为每个节点设定了一个最大扩展限制，但这可能导致模型陷入局部最优解。其次，价值模型直接影响生成质量，因为它指导搜索过程的每一步。训练一个细粒度的价值模型本质上很困难，这使得模型迭代改进变得具有挑战性。虽然AlphaGo的核心成功依赖于训练一个价值模型以逐步提升其表现，但由于标记生成的复杂性，这一原则在我们的设置中被证明难以复制。

总之，虽然MCTS在与预训练的价值模型配对使用时可以在推理期间提升性能，但通过自我搜索迭代提升模型性能仍然是一个重大挑战。

05 结论、局限性与未来工作

在本项工作中，我们分享了通过强化学习（RL）提升模型推理能力的历程。DeepSeek-R1-Zero代表了一种不依赖冷启动数据的纯RL方法，在各类任务中表现出色。DeepSeek-R1则更为强大，它结合冷启动数据和迭代式RL微调获得了优异性能。最终，DeepSeek-R1在一系列任务上的表现与OpenAI的o1-1217相当。

我们进一步探索了将推理能力蒸馏至小型密集模型。使用DeepSeek-R1作为教师模型生成80万条数据，并对几个小型密集模型进行微调。结果令人鼓舞：DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中表现优异，AIME得分28.9%，MATH得分83.9%，超过了GPT-4o和Claude-3.5-Sonnet。其他密集模型也取得了令人印象深刻的结果，基于相同的底层检查点，显著优于其他指令微调的模型。

未来，我们计划对DeepSeek-R1在以下几个方向的研究进行投资。

● 通用能力：目前，DeepSeek-R1在函数调用、多轮对话、复杂角色扮演以及JSON输出等任务上的能力不如DeepSeek-V3。未来，我们计划探索如何利用长上下文Transformer来提升这些领域的任务表现。

● 语言混合：DeepSeek-R1目前针对中文和英文进行了优化，这可能导致在处理其他语言的查询时出现语言混合问题。例如，即使查询使用的是除英语或中文之外的语言，DeepSeek-R1也可能使用英文进行推理和回应。我们计划在未来的更新中解决这一限制。

● 提示工程：在评估DeepSeek-R1时，我们发现它对提示非常敏感。少量样本提示会一致性地降低其性能。因此，我们建议用户直接描述问题，并使用零样本设置指定输出格式以获得最佳结果。

● 软件工程任务：由于评估时间较长，影响了强化学习（RL）过程的效率，大规模RL尚未广泛应用于软件工程任务。因此，DeepSeek-R1在软件工程基准测试中并未显示出相较于DeepSeek-V3的巨大改进。未来的版本将通过在软件工程数据上实施拒绝采样或在RL过程中结合异步评估以提高效率。