原文地址:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

我们介绍了我们第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习 (RL) 训练的模型,没有以监督微调 (SFT) 作为预备步骤,它展现了非凡的推理能力。通过 RL,DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。然而,它遇到了诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它在 RL 之前结合了多阶段训练和冷启动数据。DeepSeekR1 在推理任务上的性能与 OpenAI-o1-1217 相当。为了支持研究界,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 和六个基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出来的密集模型 (1.5B、7B、8B、14B、32B、70B)。

近年来,大型语言模型(LLMs)正在经历快速迭代和演变(Anthropic,2024;Google,2024;OpenAI,2024a),逐步缩小了通向通用人工智能(AGI)的差距。

近年来,微调已成为完整训练流程中的重要组成部分。研究表明,微调可以提高推理任务的准确性,使其与社会价值观保持一致,并适应用户偏好,同时与预训练相比,所需的计算资源相对较少。在推理能力的背景下,OpenAI 的 o1(OpenAI,2024b)系列模型首次引入了通过增加思维链推理过程的长度来实现推理时间扩展。这种方法在各种推理任务中取得了显著的改进,例如数学、编码和科学推理。然而,有效测试时间扩展的挑战仍然是研究界的一个开放问题。之前的一些工作探索了各种方法,包括基于过程的奖励模型(Lightman 等人,2023;Uesato 等人,2022;Wang 等人,2023),强化学习(Kumar 等人,2024),以及蒙特卡洛树搜索和束搜索等搜索算法(Feng 等人,2024;Trinh 等人,2024;Xin 等人,2024)。然而,这些方法都没有达到与 OpenAI 的 o1 系列模型相当的通用推理性能。 

本文首次尝试使用纯强化学习(RL)来提升语言模型的推理能力。我们的目标是探索LLM在没有任何监督数据的情况下发展推理能力的潜力,重点关注其通过纯RL过程的自我演化。具体来说,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao等人,2024)作为RL框架来提升模型在推理方面的性能。在训练过程中,DeepSeek-R1-Zero自然而然地展现出许多强大且有趣的推理行为。经过数千步的RL训练后,DeepSeek-R1-Zero在推理基准测试中表现出超群的性能。例如,在AIME 2024上的pass@1得分从15.6%提升至71.0%,并且通过多数投票,得分进一步提高至86.7%,与OpenAI-o1-0912的性能相当。

然而,DeepSeek-R1-Zero 面临着可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它整合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千条冷启动数据来微调 DeepSeek-V3-Base 模型。在此之后,我们执行类似 DeepSeek-R1-Zero 的面向推理的强化学习。在强化学习过程接近收敛时,我们通过对强化学习检查点进行拒绝采样,并结合来自 DeepSeek-V3 在写作、事实问答和自我认知等领域中的监督数据,创建新的 SFT 数据,然后重新训练 DeepSeek-V3-Base 模型。在使用新数据进行微调后,检查点会进行额外的强化学习过程,同时考虑来自所有场景的提示。经过这些步骤,我们获得了名为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。

我们进一步探索了从 DeepSeek-R1 到更小的稠密模型的蒸馏。使用 Qwen2.5- 32B (Qwen, 2024b) 作为基础模型,直接从 DeepSeek-R1 蒸馏优于对其应用强化学习。这表明,大型基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的 Qwen 和 Llama (Dubey 等人,2024) 系列。值得注意的是,我们蒸馏的 14B 模型在推理基准测试中,大幅度超过了最先进的开源 QwQ-32B-Preview (Qwen, 2024a),而蒸馏的 32B 和 70B 模型在稠密模型中创下了新的记录。

1.1. 贡献

Post-Training: Large-Scale Reinforcement Learning on the Base Model

我们直接将强化学习(RL)应用于基础模型,无需依赖监督微调(SFT)作为预备步骤。这种方法允许模型探索思维链(CoT)以解决复杂问题,从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长CoT等能力,标志着研究界的一个重要里程碑。值得注意的是,这是第一个公开研究验证了LLM的推理能力可以通过纯粹的RL来激励,而无需SFT。这一突破为该领域的未来发展铺平了道路。

我们介绍了开发 DeepSeek-R1 的管道。该管道包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信该管道将通过创建更好的模型而使行业受益。

备注:这两次RL和SFT分别是哪俩个阶段,数据能否获取到?RL场景能否和和垂直领域场景对齐?

Distillation: Smaller Models Can Be Powerful Too

我们证明了大型模型的推理模式可以被提炼到更小的模型中,从而在推理性能上优于通过强化学习在小型模型上发现的推理模式。开源的 DeepSeek-R1 以及它的 API 将有利于研究界在未来提炼出更好的小型模型。

利用 DeepSeek-R1 生成的推理数据,我们微调了研究界广泛使用的几种稠密模型。评估结果表明,蒸馏后的较小稠密模型在基准测试中表现出色。DeepSeekR1-Distill-Qwen-7B 在 AIME 2024 上取得了 55.5% 的成绩,超过了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%。这些结果显著优于之前的开源模型,与 o1-mini 相当。我们向社区开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点。

备注:这些蒸馏后的模型在RAG场景会更强吗?

1.2. Summary of Evaluation Results

推理任务: (1) DeepSeek-R1 在 AIME 2024 上的 Pass@1 得分为 79.8%,略微超过 OpenAI-o1-1217。在 MATH-500 上,它取得了令人印象深刻的 97.3% 的得分,与 OpenAI-o1-1217 表现相当,并且明显优于其他模型。 (2) 在与编码相关的任务中,DeepSeek-R1 在代码竞赛任务中展现出专家级水平,因为它在 Codeforces 上获得了 2,029 的 Elo 评分,超过了比赛中 96.3% 的人类参与者。对于与工程相关的任务,DeepSeek-R1 的表现略好于 DeepSeek-V3,这可能有助于开发人员完成现实世界中的任务。

备注:数学和代码领域对推理能力要求已经相当高了,既然如此,我估计蒸馏出来的在RAG也不会太差。

知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeekR1 取得了优异的成绩,显著优于 DeepSeek-V3,在 MMLU 上得分 90.8%,在 MMLU-Pro 上得分 84.0%,在 GPQA Diamond 上得分 71.5%。虽然其性能略低于 OpenAI-o1-1217 在这些基准测试中的表现,但 DeepSeek-R1 超越了其他闭源模型,证明了其在教育任务中的竞争优势。在事实性基准 SimpleQA 上,DeepSeek-R1 优于 DeepSeek-V3,证明了其处理基于事实的查询的能力。在 OpenAI-o1 在此基准测试中超越 4o 的情况下,也观察到了类似的趋势。

备注:数据集介绍如下:

1. MMLU 数据集

MMLU(Massive Multi-Task Language Understanding)是一个大规模多任务语言理解基准测试数据集,旨在通过多领域的多选问答任务评估语言模型的知识和推理能力。该数据集包含 57 个子任务,涵盖 STEM、人文科学、社会科学等多个领域,难度从基础到高级不等。每个问题有 4 个选项,主要考察模型在不同领域的知识掌握程度。

2. MMLU-Pro 数据集

MMLU-Pro 是 MMLU 的升级版本,由滑铁卢大学、多伦多大学和卡内基梅隆大学的研究人员于 2024 年发布。它在多个方面进行了改进,以提供更具挑战性的测试环境:

  • 问题数量和复杂性:包含 12,032 个跨学科的复杂问题,问题来源包括原始 MMLU 数据集、STEM 网站、TheoremQA 和 SciBench。

  • 选项数量:将每个问题的选项从 4 个增加到 10 个,增加了干扰项的数量,降低了随机猜测的正确率。

  • 推理能力要求:新增了更多需要推理的问题,使得仅靠知识记忆难以取得高分。

  • 鲁棒性提升:通过增加选项数量和多样化问题来源,降低了模型对提示词变化的敏感性。

其他:DeepSeek-R1 在广泛的任务中也表现出色,包括创意写作、通用问答、编辑、摘要等。在 AlpacaEval 2.0 上,它取得了令人印象深刻的长度控制胜率 87.6%,在 ArenaHard 上的胜率为 92.3%,展现了其在智能处理非考试导向型查询方面的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务中表现出色,在长上下文基准测试中大幅超越 DeepSeek-V3

2. Approach

2.1. Overview

先前的工作严重依赖大量监督数据来提高模型性能。在本研究中,我们证明了推理能力可以通过大规模强化学习 (RL) 显着提高,即使不使用监督微调 (SFT) 作为冷启动。此外,通过包含少量冷启动数据,性能可以进一步提高。在接下来的部分中,我们将介绍:(1) DeepSeek-R1-Zero,它将 RL 直接应用于基础模型,没有任何 SFT 数据;(2) DeepSeek-R1,它从使用数千个长链式思维 (CoT) 示例微调的检查点开始应用 RL。3) 将 DeepSeek-R1 的推理能力蒸馏到小型密集模型中。

2.2. DeepSeek-R1-Zero: Reinforcement Learning on the Base Model 

强化学习在推理任务中展现出显著的有效性,正如我们之前的工作(邵等,2024;王等,2023)所证明的那样。然而,这些工作严重依赖于监督数据,而收集监督数据非常耗时。在本节中,我们探讨了大型语言模型在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯粹的强化学习过程进行自我演化。我们首先简要概述我们的强化学习算法,然后展示一些令人兴奋的结果,并希望这能为社区提供宝贵的见解。

2.2.1. 强化学习算法

 

 2.2.2. 奖励建模

奖励是强化学习训练信号的来源,决定了强化学习的优化方向。为了训练DeepSeek-R1-Zero,我们采用了一种基于规则的奖励系统,该系统主要由两种类型的奖励组成:

 准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题中,模型需要以指定格式(例如,在框内)提供最终答案,从而实现基于规则的可靠正确性验证。类似地,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。

格式奖励:除了准确性奖励模型之外,我们还采用了一个格式奖励模型,强制模型将其思考过程置于“”和“”标签之间。

我们在开发 DeepSeek-R1-Zero 时没有使用结果或过程神经奖励模型,因为我们发现神经奖励模型在大型强化学习过程中可能会遭受奖励黑客攻击,并且重新训练奖励模型需要额外的训练资源,这会使整个训练流程变得复杂。

2.2.3. 训练模板

为了训练 DeepSeek-R1-Zero,我们首先设计了一个简单的模板,引导基础模型遵循我们指定的指令。如表 1 所示,该模板要求 DeepSeek-R1-Zero 首先生成推理过程,然后给出最终答案。我们有意将约束限制在该结构格式,避免任何内容特定的偏差——例如强制反射性推理或推广特定问题解决策略——以确保我们能够准确地观察模型在强化学习 (RL) 过程中的自然进展。

2.2.4. DeepSeek-R1-Zero 的性能、自进化过程和顿悟时刻 

DeepSeek-R1-Zero 图 2 展示了 DeepSeekR1-Zero 在 AIME 2024 基准测试中,在整个强化学习 (RL) 训练过程中的性能轨迹。如图所示,DeepSeek-R1-Zero 在 RL 训练推进过程中表现出稳定且持续的性能提升。值得注意的是,AIME 2024 上的平均 pass@1 得分显着提高,从最初的 15.6% 上升到令人印象深刻的 71.0%,达到与 OpenAI-o1-0912 相当的性能水平。这一显著改进突出了我们的 RL 算法在优化模型性能方面的有效性。

表 2 对 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各种推理相关基准测试中进行了比较分析。研究结果表明,强化学习赋予DeepSeek-R1-Zero 强大的推理能力,无需任何监督微调数据。这是一个值得注意的成就,因为它突出了该模型仅通过强化学习就能有效地学习和泛化的能力。此外,DeepSeekR1-Zero 的性能可以通过应用多数投票进一步增强。例如,当在 AIME 基准测试中使用多数投票时,DeepSeek-R1-Zero 的性能从 71.0% 上升到 86.7%,从而超过了 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 能够在使用和不使用多数投票的情况下都取得如此具有竞争力的性能,突出了其强大的基础能力及其在推理任务中进一步发展的潜力。

表 2 | 深度搜索-R1-Zero 和 OpenAI o1 模型在推理相关基准上的比较。

 

图 2 | DeepSeek-R1-Zero 在训练过程中的 AIME 准确率。对于每个问题,我们采样 16 个响应并计算总体平均准确率,以确保评估的稳定性。

DeepSeek-R1-Zero 的自我进化过程:DeepSeek-R1-Zero 的自我进化过程是强化学习如何驱动模型自主提高其推理能力的一个引人入胜的演示。通过直接从基础模型启动强化学习,我们可以密切监控模型的进展,不受监督微调阶段的影响。这种方法为我们提供了模型随时间推移如何演变的清晰视图,特别是在处理复杂推理任务的能力方面。 

如图 3 所示,DeepSeek-R1-Zero 的思考时间在整个训练过程中持续改善这种改进并非源于外部调整,而是模型内部的固有发展。DeepSeek-R1-Zero 通过利用扩展的测试时间计算,自然地获得了解决越来越复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

图 3 | DeepSeek-R1-Zero 在强化学习过程中训练集上的平均响应长度。DeepSeek-R1-Zero 自然地学会了用更多思考时间来解决推理任务。

这种自我进化的一个最显著的方面是,随着测试时计算量的增加,出现了复杂的行为。诸如反思——模型重新审视和重新评估其先前的步骤——以及探索解决问题的替代方法等行为自发出现。这些行为并非显式编程,而是模型与强化学习环境交互的结果。这种自发发展显著增强了DeepSeek-R1-Zero的推理能力,使其能够更有效率和准确地处理更具挑战性的任务。

备注:使用多长的思考路径是自主学习的,无需指定需要快思考还是慢思考。效率更高 

DeepSeek-R1-Zero 的“顿悟”时刻 在 DeepSeek-R1-Zero 的训练过程中,一个特别引人注目的现象是“顿悟”时刻的出现。如表 3 所示,这一时刻发生在模型的中间版本中。在此阶段,DeepSeek-R1-Zero 通过重新评估其初始方法,学会了将更多思考时间分配给问题。这种行为不仅证明了模型不断增长的推理能力,也是强化学习如何导致意想不到的复杂结果的迷人例子。 

这一时刻不仅对模型而言是“顿悟时刻”,对观察其行为的研究人员来说也是如此。这突出了强化学习的力量和美丽:我们不是明确地教模型如何解决问题,而是简单地为其提供正确的激励,它便会自主地开发出先进的解决问题策略。“顿悟时刻”有力地提醒了强化学习在人工智能系统中释放新智能水平的潜力,为未来更自主、更适应性强的模型铺平了道路。 

表 3 | DeepSeek-R1-Zero 中间版本的一个有趣的“顿悟时刻”。该模型学会了以拟人化的语气思考。这对我们来说也是一个顿悟时刻,让我们见证了强化学习的力量和美丽。

DeepSeek-R1-Zero 的缺点 尽管 DeepSeek-R1-Zero 表现出强大的推理能力,并自主发展出意想不到的强大推理行为,但它也面临着一些问题。例如,DeepSeek-R1-Zero 在可读性差和语言混合等挑战方面举步维艰。为了使推理过程更易读并与开放社区共享,我们探索了 DeepSeek-R1,这是一种利用 RL 和人性化冷启动数据的方法。

2.3. DeepSeek-R1:冷启动强化学习

受 DeepSeek-R1-Zero 的出色结果启发,我们自然会提出两个问题:1)是否可以通过少量高质量数据作为冷启动来进一步提高推理性能或加速收敛?2)如何训练一个用户友好的模型,使其不仅能够生成清晰连贯的思维链 (CoT),而且还展现出强大的通用能力?为了解决这些问题,我们设计了一个训练 DeepSeek-R1 的流程。该流程包含四个阶段,概述如下。

2.3.1. 冷启动

与 DeepSeek-R1-Zero 不同,为了防止 RL 训练从基础模型开始的早期不稳定冷启动阶段,对于 DeepSeek-R1,我们构建并收集少量长 CoT 数据,以微调模型作为初始 RL 演员。为了收集此类数据,我们探索了几种方法:使用少量样本提示,以长 CoT 作为示例;直接提示模型生成带有反思和验证的详细答案;以可读格式收集 DeepSeek-R1-Zero 输出;以及通过人工标注者进行后处理来细化结果。

在本研究中,我们收集了数千条冷启动数据,用于微调DeepSeek-V3-Base作为强化学习的起点。与DeepSeek-R1-Zero相比,冷启动数据的优势包括:

可读性:DeepSeek-R1-Zero 的一个主要局限性是其内容通常不适合阅读。响应可能混合多种语言或缺乏 Markdown 格式来突出显示答案以供用户使用。相比之下,在为 DeepSeek-R1 创建冷启动数据时,我们设计了一种可读的模式,包括在每个响应的末尾添加摘要,并过滤掉不适合阅读的响应。在这里,我们将输出格式定义为 |special_token||special_token|,其中推理过程是查询的 CoT,摘要用于总结推理结果。

潜力:通过精心设计利用人类先验知识的冷启动数据模式,我们观察到比 DeepSeek-R1-Zero 更好的性能。我们认为迭代训练是推理模型的更好方法。

2.3.2. 面向推理的强化学习

在对DeepSeek-V3-Base进行冷启动数据微调后,我们应用了与DeepSeek-R1-Zero中相同的 大规模强化学习训练过程。此阶段侧重于增强模型的推理能力,特别是在推理密集型任务中,例如编码、数学、科学和逻辑推理,这些任务涉及具有明确解决方案的明确定义的问题。在训练过程中,我们观察到CoT经常出现语言混合,特别是在RL提示涉及多种语言时。为了缓解语言混合问题,我们在RL训练过程中引入了语言一致性奖励,该奖励计算为CoT中目标语言词的比例。虽然消融实验表明这种对齐会导致模型性能略有下降,但这种奖励符合人类偏好,使其更易读。最后,我们通过直接将推理任务的准确性和语言一致性奖励相加来形成最终奖励。然后,我们对微调后的模型应用强化学习(RL)训练,直到它在推理任务上收敛。

2.3.3. Rejection Sampling and Supervised Fine-Tuning

当基于推理的强化学习收敛时,我们利用得到的检查点来收集用于下一轮的监督微调(SFT)数据。与最初的冷启动数据主要侧重于推理不同,此阶段整合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务方面的能力。具体来说,我们按照以下描述生成数据并微调模型。

推理数据 我们通过对上述 RL 训练的检查点进行拒绝采样,来整理推理提示并生成推理轨迹。在上一阶段,我们只包含了可以使用基于规则的奖励进行评估的数据。然而,在这个阶段,我们通过合并额外的​​数据来扩展数据集,其中一些数据使用生成式奖励模型,通过将真实值和模型预测输入 DeepSeek-V3 进行判断。此外,由于模型输出有时混乱且难以阅读,我们已经过滤掉了包含混合语言、长段落和代码块的思维链。对于每个提示,我们采样多个响应,只保留正确的响应。总共,我们收集了大约 60 万个与推理相关的训练样本。 

备注:这一段没看明白,将RL模型的采样输出和正确答案交给DeepSeek-V3判断后,再用于RL模型的微调?

对于非推理数据,例如写作、事实问答、自我认知和翻译,我们采用 DeepSeek-V3 管道并重用 DeepSeek-V3 的 SFT 数据集的部分内容。对于某些非推理任务,我们调用 DeepSeek-V3 在回答问题之前通过提示生成潜在的思维链。但是,对于更简单的查询,例如“你好”,我们不会提供 CoT 作为响应。最终,我们收集了大约 20 万个与推理无关的训练样本。

我们使用上述约 80 万个样本的精选数据集对 DeepSeek-V3-Base 进行微调,共训练了两个 epoch。

为了进一步使模型与人类偏好相一致,我们实施了一个二级强化学习阶段,旨在提高模型的有用性和无害性,同时改进其推理能力。具体来说,我们使用奖励信号和多样化的提示分布的组合来训练模型。对于推理数据,我们遵循 DeepSeek-R1-Zero 中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域中的学习过程。对于一般数据,我们求助于奖励模型来捕捉人类在复杂和细微场景中的偏好。我们在 DeepSeek-V3 管道的基础上,采用了类似的偏好对和训练提示的分布。对于有用性,我们只关注最终的摘要,确保评估强调响应对用户的效用和相关性,同时最大限度地减少对底层推理过程的干扰。对于无害性,我们评估模型的整个响应,包括推理过程和摘要,以识别和减轻生成过程中可能出现的任何潜在风险、偏差或有害内容。最终,奖励信号和多样化数据分布的整合使我们能够训练一个在推理方面表现出色,同时优先考虑有用性和无害性的模型。

2.4. 蒸馏:赋予小型模型推理能力

为了使更小、更高效的模型具备像 DeekSeek-R1 这样的推理能力,我们直接使用 DeepSeek-R1 收集的 800k 个样本对开源模型(如 Qwen(Qwen,2024b)和 Llama(AI@Meta,2024))进行了微调,具体细节见 §2.3.3。我们的发现表明,这种直接的蒸馏方法显著增强了小型模型的推理能力。我们在此使用的基础模型为 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instr uct。我们选择 Llama-3.3 作为基础模型,因为它的推理能力略优于 Llama-3.1。

备注:这里蒸馏使用的是lora还是freeze之类

对于蒸馏模型,我们只应用 SFT,不包括 RL 阶段,即使加入 RL 可以大幅提升模型性能。我们这里的主要目标是展示蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的研究社区

备注:也许可以探索其在合规RL、RL蒸馏微调技术路线

基准测试 我们在 MMLU (Hendrycks 等人,2020)、MMLU-Redux (Gema 等人,2024)、MMLU-Pro (Wang 等人,2024)、C-Eval (Huang 等人,2023) 和 CMMLU (Li 等人,2023)、IFEval (Zhou 等人,2023)、FRAMES (Krishna 等人,2024)、GPQA Diamond (Rein 等人,2023)、SimpleQA (OpenAI,2024c)、C-SimpleQA (He 等人,2024)、SWE-Bench Verified (OpenAI,2024d)、Aider 1、LiveCodeBench (Jain 等人,2024) (2024-08 – 2025-01)、Codeforces 2、中国全国高中数学奥林匹克竞赛 (CNMO 2024)3 和美国数学邀请赛 2024 (AIME 2024) (MAA,2024。除了标准基准测试外,我们还使用 LLM 作为评判者,对模型在开放式生成任务中的表现进行评估。具体来说,我们遵循 AlpacaEval 2.0 (Dubois 等人,2024 和 Arena-Hard (Li 等人,2024) 的原始配置,利用 GPT-4-Turbo-1106 作为评判者进行成对比较。这里,我们只将最终的摘要提供给评估,以避免长度偏差。对于蒸馏模型,我们在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上报告了代表性结果。

遵循 DeepSeek-V3 中的设置,使用 simpleevals 框架中的提示评估标准基准,例如 MMLU、DROP、GPQA Diamond 和 SimpleQA。对于 MMLU-Redux,我们在零样本设置中采用 Zero-Eval 提示格式(Lin,2024)。在 MMLU-Pro、C-Eval 和 CLUE-WSC 方面,由于原始提示是少样本的,我们对提示进行了一些修改以适应零样本设置。少样本中的 CoT 可能会损害 DeepSeek-R1 的性能。其他数据集遵循其原始评估协议,使用其创建者提供的默认提示。对于代码和数学基准,HumanEval-Mul 数据集涵盖八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。模型在 LiveCodeBench 上的性能使用 CoT 格式进行评估,数据收集于 2024 年 8 月至 2025 年 1 月之间。Codeforces 数据集使用来自 10 场 Div.2 比赛的问题以及专家精心设计的测试用例进行评估,然后计算出预期的评级和参赛者的百分比。SWE-Bench 验证结果通过无代理框架获得(Xia 等人,2024)。AIDER 相关基准使用“diff”格式进行测量。DeepSeek-R1 的输出在每个基准的最大 32,768 个令牌处被截断。

备注:这个评估框架可参考使用

基准 我们针对多个强大的基准进行了全面评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini 和 OpenAI-o1-1217。由于在中国大陆访问 OpenAI-o1-1217 API 存在挑战,我们根据官方报告报告其性能。对于蒸馏模型,我们还比较了开源模型 QwQ-32B-Preview(Qwen,2024a)。

所有模型的生成设置:最大生成长度设置为 32,768 个 token。对于需要采样的基准测试,我们使用 0.6 的温度,0.95 的 top-p 值,并为每个查询生成 64 个响应来估计 pass@1。

3.1. DeepSeek-R1 评估 

对于以教育为导向的知识基准,例如 MMLU、MMLU-Pro 和 GPQA Diamond,DeepSeek-R1 表现出优于 DeepSeek-V3 的性能。这种改进主要归因于 STEM 相关问题的准确性提高,通过大规模强化学习 (RL) 取得了显著的进步。此外,DeepSeek-R1 在 FRAMES 上表现出色,这是一个依赖长上下文问答任务,展示了其强大的文档分析能力。这突出了推理模型在人工智能驱动的搜索和数据分析任务中的潜力。在事实基准 SimpleQA 上,DeepSeek-R1 优于 DeepSeek-V3,证明了其处理基于事实查询的能力。在该基准测试中,OpenAI-o1 超越 GPT-4o 也观察到了类似的趋势。然而,DeepSeek-R1 在中文 SimpleQA 基准测试中的表现不如 DeepSeek-V3,这主要是因为其在安全 RL 后倾向于拒绝回答某些查询。如果没有安全 RL,DeepSeek-R1 的准确率可以超过 70%。

 DeepSeek-R1 在 IF-Eval 上也取得了令人印象深刻的结果,IF-Eval 是一个旨在评估模型遵循格式指令能力的基准。这些改进可以归因于在监督微调 (SFT) 和强化学习训练的最后阶段加入了指令遵循数据。此外,在 AlpacaEval2.0 和 ArenaHard 上观察到显著的性能,表明 DeepSeek-R1 在写作任务和开放域问答方面的优势。它显著优于 DeepSeek-V3,突出了大规模强化学习的泛化优势,不仅增强了推理能力,而且提高了跨不同领域的性能。此外,DeepSeek-R1 生成的摘要长度简洁,在 ArenaHard 上平均为 689 个词元,在 AlpacaEval 2.0 上平均为 2,218 个字符。这表明 DeepSeek-R1 在基于 GPT 的评估中避免了引入长度偏差,进一步巩固了其在多种任务中的稳健性。

在数学任务上,DeepSeek-R1 表现与 OpenAI-o1-1217 相当,大幅超越其他模型。在编码算法任务(如 LiveCodeBench 和 Codeforces)上也观察到类似趋势,推理导向模型在这些基准测试中占据主导地位。在工程导向的编码任务中,OpenAI-o1-1217 在 Aider 上的表现优于 DeepSeek-R1,但在 SWE Verified 上表现相当。我们相信 DeepSeek-R1 的工程性能将在下一版本中得到提升,因为目前相关的强化学习训练数据仍然非常有限。

表 5 | 深度搜索-R1 蒸馏模型与其他可比模型在推理相关基准上的比较。

备注:从这个数据看来,蒸馏后的14B和70B各项数据准确率在5%内 。蒸馏后提升非常显著。

qwen2-14B,蒸馏前数据为:

  • LiveCodeBench:25.5%。蒸馏后为53.1

  • GPQA:34.3%,蒸馏后为59.1

如表5所示,仅对DeepSeek-R1的输出进行蒸馏,即可使高效的DeepSeekR1-7B(即DeepSeek-R1-Distill-Qwen-7B,以下简称)在所有指标上均优于非推理模型,如GPT-4o-0513。DeepSeek-R1-14B在所有评估指标上均超过QwQ-32BPreview,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著超过o1-mini。这些结果表明蒸馏方法具有巨大潜力。此外,我们发现将强化学习应用于这些蒸馏模型可以带来显著的进一步收益。我们认为这值得进一步探索,因此这里仅展示简单SFT蒸馏模型的结果。

备注:这里的7B可以直接拿来放到生产用了。。

4. Discussion

4.1. 蒸馏与强化学习

Table 6 | Comparison of distilled and RL Models on Reasoning-Related Benchmarks.

表 6 | 蒸馏和强化学习模型在推理相关基准上的比较。

在第 3.2 节中,我们可以看到,通过蒸馏 DeepSeek-R1,小型模型可以取得令人印象深刻的结果。然而,还有一个问题尚未解决:在没有蒸馏的情况下,模型是否可以通过论文中讨论的大规模强化学习训练来实现可比的性能?

为了回答这个问题,我们使用数学、代码和 STEM 数据对 Qwen-32B-Base 进行大规模 RL 训练,训练超过 10K 步,最终得到 DeepSeek-R1-Zero-Qwen-32B。实验结果如6图所示,表明 32B 基础模型经过大规模RL 训练后,其性能与 QwQ-32B-Preview 相当。然而,从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中都明显优于 DeepSeek-R1-Zero-Qwen-32B。因此,我们可以得出两个结论:首先,将更强大的模型蒸馏到更小的模型中可以产生出色的结果,而本文中提到的依赖于大规模 RL 的较小模型需要巨大的计算能力,甚至可能无法达到蒸馏的性能。其次,虽然蒸馏策略既经济又有效,但要突破智力的边界,可能仍然需要更强大的基础模型和更大规模的强化学习

备注:这才是蒸馏的正确用法,目前很多开源的都是从头开始训练

4.2. 未成功尝试

在 DeepSeek-R1 开发的早期阶段,我们也遇到了失败和挫折。我们在这里分享我们的失败经验以提供见解,但这并不意味着这些方法无法开发出有效的推理模型。

过程奖励模型 (PRM) 是一种合理的方法,可以引导模型朝着解决推理任务的更好方法发展 (Lightman 等人,2023;Uesato 等人,2022;Wang 等人,2023)。然而,在实践中,PRM 有三个主要局限性,可能会阻碍其最终成功。首先,在一般推理中明确定义细粒度步骤具有挑战性。其次,确定当前中间步骤是否正确是一项具有挑战性的任务。使用模型进行自动标注可能无法产生令人满意的结果,而人工标注不利于扩展。第三,一旦引入基于模型的 PRM,它不可避免地会导致奖励黑客攻击 (Gao 等人,2022),而重新训练奖励模型需要额外的训练资源,并且会使整个训练流程变得复杂。总之,虽然 PRM 在重新排序模型生成的 top-N 响应或辅助引导搜索方面表现出良好的能力 (Snell 等人,2024),但在我们实验中,与它在大型强化学习过程中引入的额外计算开销相比,它的优势有限

受 AlphaGo (Silver 等人,[NT0]2017b[NT0]) 和 AlphaZero (Silver 等人,[NT1]2017a[NT1]) 的启发,我们探索了使用蒙特卡洛树搜索 (MCTS) 来增强测试时计算可扩展性。这种方法涉及将答案分解成更小的部分,以允许模型系统地探索解空间。为了促进这一点,我们提示模型生成多个标签,这些标签对应于搜索所需的特定推理步骤。在训练中,我们首先使用收集的提示通过由预训练价值模型引导的 MCTS 找到答案。随后,我们使用生成的问答对来训练演员模型和价值模型,迭代地完善该过程。

然而,这种方法在扩展训练时遇到了几个挑战。首先,与搜索空间相对明确的国际象棋不同,令牌生成呈现出指数级更大的搜索空间。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这会导致模型陷入局部最优。其次,价值模型直接影响生成质量,因为它指导搜索过程的每一步。训练一个细粒度的价值模型本质上是困难的,这使得模型难以迭代改进。虽然 AlphaGo 的核心成功依赖于训练一个价值模型来逐步提高其性能,但由于令牌生成的复杂性,这一原则在我们目前的设置中难以复制。

5. Conclusion, Limitation, and Future Work

在本研究中,我们分享了通过强化学习 (RL) 提升模型推理能力的历程。DeepSeek-R1-Zero 代表了一种纯粹的 RL 方法,不依赖于冷启动数据,在各种任务中取得了优异的性能。DeepSeek-R1 更加强大,它利用冷启动数据以及迭代 RL 微调。最终,DeepSeek-R1 在一系列任务中取得了与 OpenAI-o1-1217 相当的性能。

我们进一步探索将推理能力蒸馏到小型密集模型中。我们使用 DeepSeek-R1 作为教师模型生成 800K 数据,并微调了几个小型密集模型。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B 在 AIME 上取得 28.9% 的成绩,在 MATH 上取得 83.9% 的成绩,优于 GPT-4o 和 Claude-3.5-Sonneton 数学基准。其他密集模型也取得了令人印象深刻的结果,显著优于基于相同底层检查点的其他指令微调模型。

未来,我们计划在以下方向对 DeepSeek-R1 进行研究投资

• 通用能力:目前,DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务上的能力不及 DeepSeekV3。未来,我们计划探索如何利用长 CoT 来增强这些领域的任务。

• 语言混合:DeepSeek-R1 目前针对中文和英文进行了优化,这可能会导致在处理其他语言查询时出现语言混合问题。例如,DeepSeek-R1 可能会使用英文进行推理和响应,即使查询语言不是英文或中文。我们将在未来更新中解决此限制。

提示工程:在评估 DeepSeek-R1 时,我们观察到它对提示很敏感。少样本提示始终会降低其性能。因此,我们建议用户直接描述问题并使用零样本设置指定输出格式,以获得最佳结果。

软件工程任务:由于评估时间较长,影响了强化学习过程的效率,大规模强化学习尚未在软件工程任务中得到广泛应用。因此,DeepSeek-R1 在软件工程基准测试中并没有比 DeepSeek-V3 产生显著的改进。未来版本将通过在软件工程数据上实施拒绝采样或在强化学习过程中整合异步评估来解决这个问题,从而提高效率。 

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐