DeepSeek-R1:通过强化学习激发大语言模型(LLMs)的推理能力

摘要

我们介绍了我们的第一代推理模型——DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,在此过程中没有经过监督式微调(SFT)作为初步步骤,展示了显著的推理能力。通过强化学习,DeepSeek-R1-Zero 自然地表现出许多强大而有趣的推理行为。然而,它也遇到了一些挑战,比如可读性差和语言混杂等问题。为了应对这些问题并进一步提高推理性能,我们推出了 DeepSeek-R1,它在 RL 之前引入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上达到了与 OpenAI-o1-1217 相媲美的性能。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 提炼的六个密集模型(1.5B、7B、8B、14B、32B、70B)。

在这里插入图片描述

图 1 | DeepSeek-R1 的基准性能。

1 引言

近年来,大型语言模型(LLM)经历了快速的迭代和发展(Anthropic,2024;Google,2024;OpenAI,2024a),逐渐缩小了与人工通用智能(AGI)之间的差距。

​ 最近,后训练已成为完整训练流程中的一个重要组成部分。研究表明,它能在推理任务中提高准确性,与社会价值观对齐,并适应用户偏好,同时相对于预训练,它所需的计算资源较少。在推理能力方面,OpenAI 的 o1(OpenAI,2024b)系列模型率先通过增加 Chain-of-Thought 推理过程的长度,引入了推理时的扩展。这种方法在数学、编程和科学推理等各种推理任务中取得了显著的改进。然而,如何有效地在测试时进行扩展仍然是研究界的一个开放问题。此前有多项研究探索了不同的方法,包括基于过程的奖励模型(Lightman 等,2023;Uesato 等,2022;Wang 等,2023)、强化学习(Kumar 等,2024),以及蒙特卡洛树搜索和束搜索等搜索算法(Feng 等,2024;Trinh 等,2024;Xin 等,2024)。然而,这些方法都未能达到与 OpenAI 的 o1 系列模型相当的通用推理性能。

​ 本文我们迈出了通过纯强化学习(RL)提升语言模型推理能力的第一步。我们的目标是探索大型语言模型(LLM)在没有任何监督数据的情况下发展推理能力的潜力,重点关注其通过纯 RL 过程的自我进化。具体来说,我们以 DeepSeek-V3-Base 作为基础模型,并采用 GRPO(Shao 等,2024)作为 RL 框架,以提高模型在推理任务中的表现。在训练过程中,DeepSeek-R1-Zero 自然地表现出许多强大而有趣的推理行为。经过数千步 RL 训练,DeepSeek-R1-Zero 在推理基准测试上表现出卓越的性能。例如,AIME 2024 的 pass@1 分数从 15.6% 提升至 71.0%,通过多数投票,得分进一步提高至 86.7%,与 OpenAI-o1-0912 的表现相匹配。

​ 然而,DeepSeek-R1-Zero 遇到了一些挑战,如可读性差和语言混杂等问题。为了应对这些问题并进一步提升推理性能,我们引入了 DeepSeek-R1,它结合了一小部分冷启动数据和多阶段训练流程。具体来说,我们首先收集了数千条冷启动数据,以对 DeepSeek-V3-Base 模型进行微调。随后,我们像 DeepSeek-R1-Zero 一样进行推理导向的强化学习(RL)。在 RL 过程接近收敛时,我们通过在 RL 检查点上进行拒绝采样,结合来自 DeepSeek-V3 的监督数据,特别是在写作、事实问答和自我认知等领域,生成新的 SFT 数据,然后重新训练 DeepSeek-V3-Base 模型。在用新数据微调后,该检查点还进行了额外的 RL 过程,考虑了所有场景中的提示。经过这些步骤,我们获得了一个被称为 DeepSeek-R1 的检查点,其推理性能与 OpenAI-o1-1217 相当。

​ 我们进一步探索了从 DeepSeek-R1 到更小的密集模型的蒸馏过程。以 Qwen2.532B(Qwen,2024b)为基础模型,直接从 DeepSeek-R1 蒸馏的结果优于对其应用强化学习(RL)。这一结果表明,大型基础模型所发现的推理模式对于提升推理能力至关重要。我们开源了蒸馏后的 Qwen 和 Llama(Dubey 等,2024)系列。值得注意的是,我们蒸馏后的 14B 模型在推理基准测试中大幅超越了最先进的开源模型 QwQ-32B-Preview(Qwen,2024a),而蒸馏后的 32B 和 70B 模型在密集模型中创下了新的推理基准记录。

1.1. 贡献

后训练:基于基础模型的大规模强化学习
• 我们直接将强化学习(RL)应用于基础模型,而不依赖于监督式微调(SFT)作为初步步骤。这种方法使得模型能够探索链式思维(CoT)来解决复杂问题,从而发展出了 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现了自我验证、反思和生成长链式思维等能力,标志着研究领域的重要里程碑。值得注意的是,这是首个验证 LLM 推理能力可以通过纯粹的 RL 激励而不依赖 SFT 的开源研究。这一突破为该领域未来的进展铺平了道路。
• 我们介绍了开发 DeepSeek-R1 的流程。该流程包括两个 RL 阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信,这一流程将有助于通过创建更好的模型来推动行业的发展。

蒸馏:更小的模型也能强大
• 我们展示了较大模型的推理模式可以蒸馏到更小的模型中,从而在性能上超过通过 RL 在小模型上发现的推理模式。开源的 DeepSeek-R1 及其 API 将有助于研究社区未来蒸馏出更优秀的小型模型。
• 利用 DeepSeek-R1 生成的推理数据,我们对多个在研究社区广泛使用的密集模型进行了微调。评估结果表明,蒸馏后的较小密集模型在基准测试中表现异常出色。DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到 55.5%,超过了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%。这些结果显著超越了先前的开源模型,并且与 o1-mini 相当。我们已将基于 Qwen2.5 和 Llama3 系列的蒸馏模型 1.5B、7B、8B、14B、32B 和 70B 的检查点开源给社区。

1.2. 评估结果的摘要

• 推理任务
(1) DeepSeek-R1 在 AIME 2024 上取得了 79.8% 的 Pass@1 分数,略微超过 OpenAI-o1-1217。在 MATH-500 上,它取得了 97.3% 的优异成绩,与 OpenAI-o1-1217 表现相当,并显著超越了其他模型。
(2) 在编程相关任务上,DeepSeek-R1 在代码竞赛任务中表现出专家水平,获得了 2,029 的 Elo 评分,在 Codeforces 上超过了 96.3% 的人类参赛者。对于工程相关任务,DeepSeek-R1 的表现稍优于 DeepSeek-V3,这可以帮助开发者处理实际工作中的任务。

• 知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了出色的成绩,显著超越了 DeepSeek-V3,分别在 MMLU、MMLU-Pro 和 GPQA Diamond 上获得了 90.8%、84.0% 和 71.5% 的分数。尽管在这些基准测试中的表现略低于 OpenAI-o1-1217,DeepSeek-R1 仍然超过了其他闭源模型,展示了其在教育任务中的竞争优势。在事实类基准测试 SimpleQA 上,DeepSeek-R1 超越了 DeepSeek-V3,展现了其处理基于事实查询的能力。在这个基准测试上,也观察到了 OpenAI-o1 超过 4o 的趋势。

• 其他:DeepSeek-R1 在广泛的任务中也表现出色,包括创意写作、一般问答、编辑、摘要等。它在 AlpacaEval 2.0 上取得了令人印象深刻的长度控制胜率 87.6%,在 ArenaHard 上的胜率为 92.3%,展示了其强大的能力,能够智能地处理非考试导向的查询。此外,DeepSeek-R1 在需要长上下文理解的任务上表现突出,在长上下文基准测试中显著超越了 DeepSeek-V3。

2 方法

2.1 概述

以往的研究在提升模型性能方面大量依赖监督数据。在本研究中,我们展示了推理能力可以通过大规模强化学习(RL)显著提高,即使不使用监督式微调(SFT)作为冷启动。此外,通过加入少量的冷启动数据,性能还可以进一步提升。在接下来的章节中,我们介绍了:
(1) DeepSeek-R1-Zero,直接将 RL 应用到基础模型上,未使用任何 SFT 数据;
(2) DeepSeek-R1,从经过数千条长链式思维(CoT)示例微调的检查点开始应用 RL;
(3) 将 DeepSeek-R1 的推理能力蒸馏到小型密集模型中。

2.2. DeepSeek-R1-Zero:基础模型上的强化学习

强化学习在推理任务中展现出了显著的有效性,正如我们之前的研究所证明的那样(Shao 等,2024;Wang 等,2023)。然而,这些研究大多依赖于监督数据,而收集这些数据需要大量时间。在本节中,我们探索了 LLMs 在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯粹的强化学习过程进行自我进化。我们首先简要概述了我们的 RL 算法,然后呈现一些令人兴奋的结果,希望为社区提供有价值的见解。

2.2.1. 强化学习算法(Reinforcement Learning Algorithm)

群体相对策略优化 (Group Relative Policy Optimization, GRPO)

为了节省强化学习 (RL) 的训练成本,我们采用了群体相对策略优化 (Group Relative Policy Optimization, GRPO) (Shao et al., 2024),该方法摒弃了通常与策略模型同等大小的评价模型,而是通过从群体得分中估算基线。具体来说,对于每个问题𝑞,GRPO从旧策略𝜋𝜃𝑜𝑙𝑑中抽取一组输出{𝑜1, 𝑜2, · · · , 𝑜𝐺},然后通过最大化以下目标来优化策略模型𝜋𝜃:

J GRPO ( θ ) = E [ q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ old ( O ∣ q ) ] 1 G ∑ i = 1 G ( min ⁡ ( π θ ( o i ∣ q ) π θ old ( o i ∣ q ) A i , clip ( π θ ( o i ∣ q ) π θ old ( o i ∣ q ) , 1 − ϵ , 1 + ϵ ) A i ) − β D KL ( π θ ∣ ∣ π ref ) ) J_{\text{GRPO}}(\theta) = \mathbb{E}[q \sim P(Q), \{o_i\}_{i=1}^{G} \sim \pi_{\theta_{\text{old}}}(O|q)] \frac{1}{G} \sum_{i=1}^{G} \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)} A_i, \text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) A_i \right) - \beta D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) \right) JGRPO(θ)=E[qP(Q),{oi}i=1Gπθold(Oq)]G1i=1G(min(πθold(oiq)πθ(oiq)Ai,clip(πθold(oiq)πθ(oiq),1ϵ,1+ϵ)Ai)βDKL(πθ∣∣πref))

D KL ( π θ ∣ ∣ π ref ) = π ref ( o i ∣ q ) π θ ( o i ∣ q ) − log ⁡ π ref ( o i ∣ q ) π θ ( o i ∣ q ) − 1 \mathbb{D}_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) = \frac{\pi_{\text{ref}}(o_i|q)}{\pi_\theta(o_i|q)} - \log \frac{\pi_{\text{ref}}(o_i|q)}{\pi_\theta(o_i|q)} - 1 DKL(πθ∣∣πref)=πθ(oiq)πref(oiq)logπθ(oiq)πref(oiq)1

其中,𝜖和𝛽是超参数,𝐴𝑖是优势值,利用与每个输出对应的奖励组{𝑟1, 𝑟2, . . . , 𝑟𝐺}计算得到:
A i = r i − mean ( { r 1 , r 2 , ⋯   , r G } ) std ( { r 1 , r 2 , ⋯   , r G } ) A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \cdots, r_G\})}{\text{std}(\{r_1, r_2, \cdots, r_G\})} Ai=std({r1,r2,,rG})rimean({r1,r2,,rG})


A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think><answer> answer here </answer>. User: prompt. Assistant:


[!TIP]

用户与助手之间的对话。用户提问,助手解决问题。助手首先在脑海中思考推理过程,然后向用户提供答案。推理过程和答案分别用 <think> </think><answer> </answer> 标签括起来,即: <think> 这里是推理过程</think> <answer> 这里是答案</answer> 。 User:提示词。Assistant:

表格 1 | DeepSeek-R1-Zero 模板。在训练过程中,提示将被具体的推理问题所替代。
2.2.2. 奖励建模(Reward Modeling)

奖励是训练信号的来源,决定了强化学习的优化方向。为了训练 DeepSeek-R1-Zero,我们采用了基于规则的奖励系统,主要由两种类型的奖励组成:

• 准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题中,模型需要以指定的格式(例如,放在框内)提供最终答案,以便通过可靠的基于规则的方式验证正确性。类似地,对于 LeetCode 问题,可以使用编译器基于预定义的测试用例生成反馈。

• 格式奖励:除了准确性奖励模型,我们还采用了格式奖励模型,强制模型将其思考过程放在‘’和‘’标签之间。

在开发 DeepSeek-R1-Zero 时,我们没有采用结果或过程神经奖励模型,因为我们发现神经奖励模型可能在大规模强化学习过程中遭遇奖励篡改问题,并且重新训练奖励模型需要额外的训练资源,且会使整个训练流程变得更加复杂。

2.2.3 训练模板 (Training Template)

为了训练 DeepSeek-R1-Zero,我们首先设计了一个简单的模板,指导基础模型遵循我们指定的指令。如表 1 所示,该模板要求 DeepSeek-R1-Zero 首先生成推理过程,然后给出最终答案。我们故意将约束限制为这种结构化格式,避免任何特定内容的偏见——例如强制要求反思性推理或推广特定的解决问题策略——以确保我们能够准确观察模型在强化学习过程中的自然进展。

2.2.4 DeepSeek-R1-Zero 的性能、自我进化过程和顿悟时刻

DeepSeek-R1-Zero 的性能:图 2 展示了 DeepSeek-R1-Zero 在 AIME 2024 基准测试中,整个强化学习(RL)训练过程中的性能轨迹。如图所示,随着 RL 训练的推进,DeepSeek-R1-Zero 的性能稳步提升并保持一致性。值得注意的是,AIME 2024 上的平均 Pass@1 分数显著提高,从最初的 15.6% 增加到令人印象深刻的 71.0%,达到了与 OpenAI-o1-0912 相当的性能水平。这一显著的进步凸显了我们的强化学习算法在随着时间推移优化模型性能方面的有效性。

​ 表 2 提供了 DeepSeek-R1-Zero 与 OpenAI 的 o1-0912 模型在各种推理相关基准测试中的对比分析。

在这里插入图片描述

表 2 | DeepSeek-R1-Zero 与 OpenAI o1 模型在推理相关基准测试上的对比。

在这里插入图片描述

图 2 | DeepSeek-R1-Zero 在训练过程中 AIME 的准确率。对于每个问题,我们采样 16 个响应并计算整体平均准确率,以确保评估的稳定性。

研究结果表明,强化学习(RL)使 DeepSeek-R1-Zero 在没有任何监督微调数据的情况下,获得了强大的推理能力。这是一个值得注意的成就,因为它强调了模型仅通过 RL 就能有效学习和泛化的能力。此外,DeepSeek-R1-Zero 的性能可以通过应用多数投票进一步提升。例如,当在 AIME 基准测试上使用多数投票时,DeepSeek-R1-Zero 的表现从 71.0% 提升至 86.7%,超越了 OpenAI-o1-0912 的表现。DeepSeek-R1-Zero 能够在使用和不使用多数投票的情况下都取得如此具有竞争力的表现,突显了其强大的基础能力以及在推理任务中进一步发展的潜力。

DeepSeek-R1-Zero 的自我进化过程:DeepSeek-R1-Zero 的自我进化过程生动展示了强化学习(RL)如何推动模型自主提升其推理能力。通过直接从基础模型开始强化学习,我们可以在没有监督微调阶段影响的情况下,密切监控模型的进展。这种方法清晰地展示了模型随时间发展的过程,特别是在处理复杂推理任务的能力方面。

在这里插入图片描述

图 3 | DeepSeek-R1-Zero 在 RL 过程中对训练集的平均响应长度。DeepSeek-R1-Zero 自然地学会了通过更多的思考时间来解决推理任务。

如图 3 所示,DeepSeek-R1-Zero 的思考时间在整个训练过程中呈现出持续的改善。这一改善并非外部调整的结果,而是模型内部的内在发展。DeepSeek-R1-Zero 通过利用更长的测试时间计算,自然地获得了解决日益复杂推理任务的能力。这种计算从生成数百到数千个推理标记不等,使得模型能够在更深层次上探索和完善其思维过程。

​ 这种自我进化的一个最显著方面是,随着测试时间计算的增加,复杂行为的出现。诸如反思(模型回顾并重新评估其先前步骤)以及探索解决问题的替代方法等行为自发地出现。这些行为并非显式编程的结果,而是模型与强化学习环境互动的自然产物。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够以更高的效率和准确性应对更具挑战性的任务。

DeepSeek-R1-Zero 的顿悟时刻:在训练 DeepSeek-R1-Zero 的过程中,观察到一个特别有趣的现象——“顿悟时刻”。如表 3 所示,这一时刻出现在模型的一个中间版本中。在这个阶段,DeepSeek-R1-Zero 通过重新评估最初的解决方法,学会了为问题分配更多的思考时间。这一行为不仅证明了模型推理能力的不断增强,也生动展示了强化学习如何带来意想不到的、复杂的结果。

​ 这一时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它突显了强化学习的力量与美妙:我们并没有明确教导模型如何解决问题,而是简单地为它提供正确的激励,模型便自主地发展出先进的解决问题策略。“顿悟时刻”有力地提醒我们,强化学习能够解锁人工系统中新的智能层次,为未来更加自主和适应性强的模型铺平道路。

在这里插入图片描述

表 3 | DeepSeek-R1-Zero 中间版本的一个有趣的“顿悟时刻”。模型学会了使用拟人化的语气进行重新思考。这也是我们的一次顿悟时刻,让我们见证了强化学习的力量与美妙。

DeepSeek-R1-Zero 的缺点:尽管 DeepSeek-R1-Zero 展现了强大的推理能力,并自主发展出意想不到且强大的推理行为,但它仍面临一些问题。例如,DeepSeek-R1-Zero 在可读性差和语言混合等方面存在困难。为了使推理过程更加易于阅读并与开放社区共享,我们探索了 DeepSeek-R1,一种利用强化学习(RL)与人性化冷启动数据相结合的方法。

2.3. DeepSeek-R1:带冷启动的强化学习

受到 DeepSeek-R1-Zero 取得的良好结果的启发,两个自然的问题出现了:

  1. 通过加入少量高质量数据作为冷启动,是否能够进一步提高推理性能或加速收敛?
  2. 我们如何训练一个用户友好的模型,不仅能够生成清晰一致的推理链(CoT),还能够展现出强大的通用能力?

为了回答这些问题,我们设计了一个用于训练 DeepSeek-R1 的流程。该流程由四个阶段组成,具体如下。

2.3.1. 冷启动

与 DeepSeek-R1-Zero 不同,为了避免从基础模型开始的强化学习训练过程中的初期不稳定,我们为 DeepSeek-R1 构建并收集了一小部分长链式思维(CoT)数据,用于对模型进行微调,作为开始进行强化学习的基础。为了收集这些数据,我们采用了几种方法:使用少量示例提示并展示长链式思维,直接提示模型生成包含反思和验证的详细答案,收集 DeepSeek-R1-Zero 的输出并转化为易于理解的格式,最后通过人工标注者的后处理来完善结果。

​ 在这项工作中,我们收集了数千条冷启动数据,用于对 DeepSeek-V3-Base 进行微调,作为强化学习的起点。与 DeepSeek-R1-Zero 相比,冷启动数据的优势包括:

可读性:DeepSeek-R1-Zero 的一个主要限制是其内容通常不适合阅读。模型的响应可能会混合多种语言,或缺少标记格式来突出用户的答案。相比之下,在为 DeepSeek-R1 创建冷启动数据时,我们设计了一个易于阅读的模式,其中包括每个响应末尾的总结,并过滤掉不适合阅读的响应。我们在此将输出格式定义为 |special_token|<reasoning_process>|special_token|<summary>,其中推理过程是针对查询的链式思维(CoT),总结部分则用于概括推理结果。

潜力:通过精心设计带有人类先验的冷启动数据模式,我们观察到相较于 DeepSeek-R1-Zero,性能有所提升。我们相信,迭代训练是推理模型更好的训练方式。

2.3.2. 面向推理的强化学习

在使用冷启动数据对 DeepSeek-V3-Base 进行微调后,我们采用与 DeepSeek-R1-Zero 相同的大规模强化学习训练过程。该阶段的重点是提升模型的推理能力,特别是在涉及明确问题和清晰解决方案的推理密集型任务中,如编程、数学、科学和逻辑推理。在训练过程中,我们发现链式思维(CoT)经常出现语言混合现象,尤其是在强化学习提示涉及多种语言时。为了缓解语言混合问题,我们引入了语言一致性奖励,该奖励通过计算 CoT 中目标语言词汇的比例来得出。虽然消融实验表明这种对齐会导致模型性能略有下降,但这种奖励方式更符合人类偏好,使得模型输出更加易读。最后,我们通过将推理任务的准确性和语言一致性奖励相加,形成最终的综合奖励。然后,我们继续对微调后的模型进行强化学习训练,直到其在推理任务上达到稳定的优异表现。

2.3.3. 拒绝采样与监督微调

当面向推理的强化学习训练达到稳定状态后,我们利用得到的模型版本收集监督微调(SFT)数据,为下一轮训练做准备。与最初的冷启动数据主要集中在推理任务不同,这一阶段加入了来自其他领域的数据,以提升模型在写作、角色扮演和其他通用任务中的能力。具体来说,我们生成这些数据,并按照以下方式对模型进行微调。

推理数据:我们通过从前一阶段的模型版本中挑选推理提示,并生成推理过程。在前一个阶段我们只使用了可以通过规则验证的数据,但在这个阶段,我们加入了更多的数据,其中一部分使用生成奖励模型,通过将真实答案和模型的预测输入 DeepSeek-V3 来进行判断。此外,由于模型的输出有时比较混乱,难以阅读,我们过滤掉了包含混合语言、长段落和代码块的推理过程。对于每个提示,我们会采样多个回答,并只保留正确的回答。总的来说,我们收集了大约 60 万条与推理相关的训练样本。

非推理数据:对于非推理数据,如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 的流程,并重新使用了 DeepSeek-V3 的部分微调数据集。对于某些非推理任务,我们通过提示调用 DeepSeek-V3 来生成推理过程,再进行回答。对于一些简单的查询,比如“你好”,我们不会提供推理过程作为回答。最终,我们收集了大约 20 万条与推理无关的训练样本。

​ 我们使用上述精心挑选的数据集(大约 80 万个样本)对 DeepSeek-V3-Base 进行了两轮微调。

2.3.4. 针对所有场景的强化学习

为了进一步使模型与人类偏好对齐,我们实施了一个二次强化学习阶段,旨在提高模型的有用性和无害性,同时改进其推理能力。具体来说,我们通过结合奖励信号和多样化的提示分布来训练模型。对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,利用基于规则的奖励来指导数学、编程和逻辑推理领域的学习过程。对于通用数据,我们使用奖励模型来捕捉复杂和微妙场景中的人类偏好。我们在 DeepSeek-V3 流程的基础上,采用类似的偏好对和训练提示分布。对于有用性,我们专注于最终总结,确保评估重点放在响应对用户的实用性和相关性上,同时尽量减少对底层推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和总结部分,以识别和减轻在生成过程中可能出现的任何风险、偏见或有害内容。最终,奖励信号和多样化数据分布的结合使我们能够训练一个在推理方面表现出色,同时优先考虑有用性和无害性的模型。

2.4. 蒸馏:赋予小型模型推理能力

为了赋予更高效的小型模型像 DeepSeek-R1 一样的推理能力,我们直接使用 DeepSeek-R1 精心挑选的 80 万个样本,对开源模型如 Qwen(Qwen, 2024b)和 Llama(AI@Meta, 2024)进行微调,具体方法见 §2.3.3。我们的研究结果表明,这种简单的蒸馏方法显著增强了小型模型的推理能力。我们在此使用的基础模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我们选择 Llama-3.3,因为它的推理能力略优于 Llama-3.1。

​ 对于蒸馏模型,我们仅应用监督微调(SFT),不包含强化学习(RL)阶段,尽管加入 RL 可能会显著提高模型性能。我们的主要目标是展示蒸馏技术的有效性,而 RL 阶段的探索留给更广泛的研究社区。

3 实验

基准测试:我们在以下基准上评估模型:MMLU(Hendrycks 等,2020)、MMLU-Redux(Gema 等,2024)、MMLU-Pro(Wang 等,2024)、C-Eval(Huang 等,2023)、CMMLU(Li 等,2023)、IFEval(Zhou 等,2023)、FRAMES(Krishna 等,2024)、GPQA Diamond(Rein 等,2023)、SimpleQA(OpenAI,2024c)、C-SimpleQA(He 等,2024)、SWE-Bench Verified(OpenAI,2024d)、Aider、LiveCodeBench(Jain 等,2024)(2024-08 – 2025-01)、Codeforces、中国全国高中数学奥林匹克竞赛(CNMO 2024)、美国邀请数学考试 2024(AIME 2024)(MAA,2024)。除了标准基准测试外,我们还在开放式生成任务中评估模型,使用大语言模型(LLMs)作为评判工具。具体来说,我们遵循 AlpacaEval 2.0(Dubois 等,2024)和 Arena-Hard(Li 等,2024)的原始配置,利用 GPT-4-Turbo-1106 作为评判工具进行成对比较。在此,我们仅将最终总结提供给评估,以避免长度偏差。对于蒸馏模型,我们报告了在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上的代表性结果。

评估提示:根据 DeepSeek-V3 的设置,标准基准如 MMLU、DROP、GPQA Diamond 和 SimpleQA 使用 simpleevals 框架中的提示进行评估。对于 MMLU-Redux,我们采用 Zero-Eval 提示格式(Lin,2024),并在没有任何训练示例的情况下(zero-shot)进行评估。在 MMLU-Pro、C-Eval 和 CLUE-WSC 中,由于原始提示是少量样本(few-shot),我们将提示稍作修改,以便在没有任何训练数据的情况下进行评估。少量样本中的链式思维(CoT)可能会影响 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议,并使用其创建者提供的默认提示。对于代码和数学基准,HumanEval-Mul 数据集涵盖了八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。LiveCodeBench 上的模型性能使用 CoT 格式进行评估,数据收集时间为 2024 年 8 月至 2025 年 1 月。Codeforces 数据集使用 10 场 Div.2 竞赛中的问题以及专家设计的测试用例进行评估,随后计算预期的评分和参赛者的百分比。SWE-Bench 的验证结果通过无代理框架(Xia 等,2024)获得。与 AIDER 相关的基准使用 “diff” 格式进行测量。DeepSeek-R1 的输出在每个基准中最多限制为 32,768 个标记(tokens)。

基准模型:我们对多个强基准进行了全面评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 存在困难,我们基于官方报告报告其性能。对于蒸馏模型,我们还与开源模型 QwQ-32B-Preview(Qwen,2024a)进行了比较。

评估设置:我们将模型的最大生成长度设置为 32,768 个标记。我们发现,使用贪婪解码来评估长输出推理模型会导致较高的重复率,并且不同检查点之间的变异性较大。因此,我们默认使用 pass@𝑘 评估(Chen 等,2021),并报告使用非零温度的 pass@1 结果。具体来说,我们使用 0.6 的采样温度和 0.95 的 top-𝑝 值为每个问题生成 𝑘 个响应(通常介于 4 到 64 之间,具体取决于测试集的大小)。然后,pass@1 的计算公式为:
p a s s @ 1 = 1 k ∑ i = 1 k p i {pass@1} = \frac{1}{k} \sum_{i=1}^{k} p_i pass@1=k1i=1kpi
其中,𝑝𝑖 表示第 𝑖 个响应的正确性。此方法提供了更可靠的性能估计。对于 AIME 2024,我们还报告了多数投票结果(Wang 等,2022),使用 64 个样本,记作 cons@64。

3.1. DeepSeek-R1 评估

在这里插入图片描述

表 4 | DeepSeek-R1 与其他代表性模型的对比。

对于面向教育的知识基准测试,如 MMLU、MMLU-Pro 和 GPQA Diamond,DeepSeek-R1 相较于 DeepSeek-V3 展现了更优的性能。这一提升主要归因于在 STEM 相关问题上的准确性提高,尤其通过大规模强化学习取得了显著进展。此外,DeepSeek-R1 在 FRAMES 这一依赖长文本的问答任务中表现出色,展示了其强大的文档分析能力。这突显了推理模型在 AI 驱动的搜索和数据分析任务中的潜力。在事实基准测试 SimpleQA 中,DeepSeek-R1 超越了 DeepSeek-V3,展示了其处理事实查询的能力。在这个基准上,也观察到 OpenAI-o1 超越了 GPT-4o。然而,DeepSeek-R1 在中文 SimpleQA 基准上的表现逊色于 DeepSeek-V3,主要原因是在经过安全强化学习(RL)后,模型倾向于拒绝回答某些查询。如果没有安全 RL,DeepSeek-R1 的准确率可以超过 70%。

​ DeepSeek-R1 在 IF-Eval 基准测试中也展现了令人印象深刻的结果,该基准旨在评估模型遵循格式指令的能力。这些改进可以归因于在监督微调(SFT)和强化学习(RL)训练的最后阶段加入了遵循指令的数据。此外,在 AlpacaEval 2.0 和 ArenaHard 上也观察到显著的表现,表明 DeepSeek-R1 在写作任务和开放域问答中的优势。它显著超越 DeepSeek-V3,凸显了大规模强化学习的泛化效益,这不仅提升了推理能力,还在多个领域中提高了表现。此外,DeepSeek-R1 生成的摘要长度简洁,在 ArenaHard 上的平均长度为 689 个标记,在 AlpacaEval 2.0 上为 2,218 个字符。这表明 DeepSeek-R1 在基于 GPT 的评估中避免了引入长度偏差,进一步巩固了其在多任务中的稳健性。

​ 在数学任务上,DeepSeek-R1 的表现与 OpenAI-o1-1217 不相上下,远超其他模型。在编程算法任务上,如 LiveCodeBench 和 Codeforces,也观察到了类似的趋势,推理为主的模型在这些基准测试中占据主导地位。在面向工程的编程任务中,OpenAI-o1-1217 在 Aider 上优于 DeepSeek-R1,但在 SWE Verified 上表现相当。我们认为,随着相关强化学习(RL)训练数据的增加,DeepSeek-R1 在下一版本中的工程性能将得到提升,因为目前这类数据仍然非常有限。

3.2 蒸馏模型评估

在这里插入图片描述

表 5 | DeepSeek-R1 蒸馏模型与其他可比模型在推理相关基准测试中的对比。

如表 5 所示,简单地蒸馏 DeepSeek-R1 的输出使得高效的 DeepSeek-R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,以下同样简称)在各项指标上超越了非推理模型,如 GPT-4o-0513。DeepSeek-R1-14B 在所有评估指标上都超过了 QwQ-32B-Preview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中显著超越了 o1-mini。这些结果展示了蒸馏的强大潜力。此外,我们发现将强化学习(RL)应用于这些蒸馏模型可以带来显著的进一步提升。我们认为这一点值得进一步探索,因此这里只呈现了简单监督微调(SFT)蒸馏模型的结果。

4 讨论

4.1. 蒸馏与强化学习的对比

在第 3.2 节中,我们看到通过蒸馏 DeepSeek-R1,较小的模型可以达到令人印象深刻的结果。然而,仍然有一个问题:是否可以通过本文讨论的大规模强化学习训练,做到在没有蒸馏的情况下,模型仍能实现相当的性能?

​ 为了回答这个问题,我们在 Qwen-32B-Base 上进行了大规模的强化学习训练,使用了数学、编程和 STEM 数据,训练超过 10,000 步,最终得到 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示,显示经过大规模强化学习训练的 32B 基础模型达到了与 QwQ-32B-Preview 相当的性能。然而,从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中的表现明显优于 DeepSeek-R1-Zero-Qwen-32B。

在这里插入图片描述

表 6 | 蒸馏模型与 RL 模型在推理相关基准测试中的对比。

因此,我们可以得出两个结论:首先,将更强大的模型蒸馏成较小的模型能够获得优秀的结果,而依赖于本文提到的大规模强化学习的较小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,尽管蒸馏策略既经济又有效,但要突破智能的边界,仍然可能需要更强大的基础模型和更大规模的强化学习。

4.2. 不成功的尝试

在开发 DeepSeek-R1 的早期阶段,我们也遇到了一些失败和挫折。我们在这里分享我们的失败经验,以提供一些见解,但这并不意味着这些方法无法开发出有效的推理模型。

过程奖励模型 (PRM):过程奖励模型 (PRM) 是一种合理的方法,可以引导模型朝着更好的方式解决推理任务(Lightman 等,2023;Uesato 等,2022;Wang 等,2023)。然而,在实际应用中,PRM 存在三个主要限制,可能会阻碍其最终成功。首先,明确地定义一般推理中的细粒度步骤是具有挑战性的。其次,确定当前的中间步骤是否正确是一个具有挑战性的任务。使用模型进行自动标注可能无法得到令人满意的结果,而人工标注则不利于规模化。第三,一旦引入基于模型的 PRM,它不可避免地会导致奖励操控(Gao 等,2022),而重新训练奖励模型需要额外的训练资源,并使整个训练流程更加复杂。总之,尽管 PRM 在重新排序模型生成的 top-N 响应或辅助引导搜索方面表现出良好的能力(Snell 等,2024),但与它在大规模强化学习过程中带来的额外计算开销相比,其优势是有限的。

蒙特卡罗树搜索 (MCTS):受到 AlphaGo(Silver 等,2017b)和 AlphaZero(Silver 等,2017a)的启发,我们探索了使用蒙特卡罗树搜索(MCTS)来增强测试阶段计算的可扩展性。这种方法通过将答案分解为更小的部分,使模型能够系统地探索解空间。为了实现这一点,我们提示模型生成多个标签,这些标签对应于搜索所需的特定推理步骤。在训练过程中,我们首先使用收集的提示通过由预训练的价值模型指导的 MCTS 查找答案。随后,我们使用生成的问题-答案对来训练演员模型和价值模型,迭代地优化这一过程。

​ 然而,在扩大训练规模时,这种方法遇到了几个挑战。首先,与棋类游戏不同,棋类游戏的搜索空间相对明确,而令牌生成则呈指数级增长,导致搜索空间更大。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优解。其次,价值模型直接影响生成质量,因为它指导了搜索过程中的每一步。训练一个精细的价值模型本身就很困难,这使得模型难以进行迭代改进。虽然 AlphaGo 的核心成功依赖于训练一个价值模型来逐步提升其性能,但由于令牌生成的复杂性,这一原则在我们的设置中很难复制。

​ 总之,尽管将 MCTS 与预训练的价值模型结合使用可以在推理过程中提高性能,但通过自我搜索迭代地提升模型性能仍然是一个重大挑战。

5 结论、局限性与未来工作

​ 在本研究中,我们分享了通过强化学习提升模型推理能力的过程。DeepSeek-R1-Zero 代表了一种纯强化学习方法,未依赖冷启动数据,并在多个任务中取得了强劲的表现。DeepSeek-R1 更为强大,结合了冷启动数据和迭代强化学习微调。最终,DeepSeek-R1 在多个任务上达到了与 OpenAI-o1-1217 相当的表现。

​ 我们进一步探索了将推理能力蒸馏到小型密集模型的方向。我们使用 DeepSeek-R1 作为教师模型生成了 80 万个训练样本,并微调了多个小型密集模型。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B 在数学基准上超越了 GPT-4o 和 Claude-3.5-Sonnet,在 AIME 上达到了 28.9%,在 MATH 上达到了 83.9%。其他密集模型也取得了令人印象深刻的结果,显著超越了基于相同基础模型版本的其他指令微调模型。

未来,我们计划在以下几个方向上对 DeepSeek-R1 进行进一步的研究:

通用能力:目前,DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的能力不及 DeepSeek-V3。未来,我们计划探索如何利用长链式思维(CoT)来增强这些领域的任务表现。

语言混合:DeepSeek-R1 目前主要针对中文和英文进行了优化,这可能导致在处理其他语言查询时出现语言混合问题。例如,DeepSeek-R1 可能会在推理和回答时使用英语,即使查询是用非英语或非中文的语言提出的。我们计划在未来的更新中解决这一限制。

提示工程:在评估 DeepSeek-R1 时,我们观察到它对提示非常敏感。使用少量样本的提示会始终降低其性能。因此,我们建议用户直接描述问题,并使用 zero-shot 设置指定输出格式,以获得最佳结果。

软件工程任务:由于评估时间较长,影响了强化学习过程的效率,大规模强化学习尚未在软件工程任务中得到广泛应用。因此,DeepSeek-R1 在软件工程基准测试上的表现未能显著超越 DeepSeek-V3。未来的版本将通过在软件工程数据上实现拒绝采样,或在强化学习过程中引入异步评估来提高效率,从而解决这一问题。

6 引用


原文链接:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning


版权声明:本文由 敲代码不忘补水 对论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》进行摘编与翻译。原文版权归作者及期刊所有,本译文仅供学术研究与学习使用。


@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
  title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
  author={DeepSeek-AI et al.},
  year={2025},
  eprint={2501.12948},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2501.12948},
}

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐