【论文阅读】DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Deepseek-R1模型论文原理详解

xianshuiyihui

880人浏览 · 2025-05-13 21:20:53

xianshuiyihui · 2025-05-13 21:20:53 发布

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

通过强化学习，激励LLM的推理能力
原文摘要
- 模型介绍与核心创新
  - DeepSeek-R1-Zero
    - 训练方法：完全通过大规模强化学习，跳过了传统的监督微调（SFT）阶段。
    - 优势：展现了强大的推理能力，且在RL训练中自发涌现出多种复杂推理行为。
    - 问题：存在输出可读性差（如逻辑跳跃、表述不清）和语言混杂（如中英文混合）的缺陷。
  - DeepSeek-R1
    - 改进方法：在RL训练前引入多阶段训练和冷启动数据（初始高质量数据引导模型行为）。
    - 性能：在推理任务上达到与OpenAI-o1-1217（推测为OpenAI的某个未公开模型）相当的水平。
- 研究意义
  - 方法论创新：挑战了“必须先SFT再RL”的传统流程，探索了纯RL训练的潜力与局限。
  - 实践价值：通过开源推动推理模型的普及，尤其蒸馏(distill)模型适合资源有限的研究者。
  - 性能对标：DeepSeek-R1与OpenAI未公开模型性能相近。

1. Introduction

研究背景与现状
- 大语言模型的快速迭代
  - 现状：近年来，LLMs（如Anthropic、Google、OpenAI的模型）快速发展，逐步逼近 通用人工智能（AGI）。
  - 关键趋势：训练后优化（Post-training） 成为提升模型能力的重要环节，相比预训练，它计算成本更低，却能显著提升：
    - 推理准确性（如数学、代码、科学推理）
    - 价值观对齐（Social Alignment）
    - 用户偏好适应（Preference Tuning）
- 推理能力的现有方法
  - OpenAI的o1系列模型 率先通过 推理时扩展（Inference-time Scaling） 提升性能，例如：
    - 延长思维链（Chain-of-Thought, CoT） 的推理步骤。
    - 在数学、代码等任务上取得显著进步。
  - 存在问题：如何实现 高效的测试时扩展（Test-time Scaling） 仍是开放性问题。现有方法包括：
    - 基于过程的奖励模型（Process-based Reward Models）
    - 强化学习（RL）
    - 搜索算法（如蒙特卡洛树搜索、Beam Search）
  - 局限性：这些方法均未达到与 OpenAI o1系列 相当的通用推理性能。
本文核心内容
- 纯强化学习（RL）探索推理能力
  - 目标：研究 无需监督数据，仅通过纯RL让模型自我进化出推理能力。
  - 方法：
    - 基模型：DeepSeek-V3-Base
    - RL框架：GRPO
  - 结果：
    - DeepSeek-R1-Zero（纯RL训练模型）涌现出强大的推理行为。
    - 在 AIME 2024 数学竞赛中：
      - Pass@1 从15.6%提升至71.0%
      - 多数投票（Majority Voting） 后达86.7%，媲美 OpenAI-o1-0912
  - 问题与改进：DeepSeek-R1
    - R1-Zero的缺陷：
      - 可读性差（逻辑跳跃、表述不清）
      - 语言混杂（中英文混合）
    - 解决方案：
      1. 冷启动数据（Cold-start Data）：少量高质量数据初始化模型。
      2. 多阶段训练：
        
        阶段1：用冷启动数据微调基模型（SFT）。
        
        阶段2：RL优化推理能力（类似R1-Zero）。
        
        阶段3：通过 拒绝采样（Rejection Sampling） 从RL模型生成新数据，结合监督数据（写作、事实QA等）重新训练。
        
        阶段4：最终RL微调，覆盖全场景提示（Prompts）。
      - 结果：DeepSeek-R1 性能匹配 OpenAI-o1-1217
  - 蒸馏轻量模型
    - 方法：将 DeepSeek-R1 的知识蒸馏到 Qwen 和 Llama 架构的小模型（1.5B~70B）。
    - 关键发现：
      - 直接蒸馏 比 对小模型单独RL训练 更有效，说明大模型的推理模式对小模型至关重要。
      - 开源模型表现：
        
        14B蒸馏模型 超越当前最优开源模型 QwQ-32B-Preview
        
        32B/70B蒸馏模型 在稠密模型中创下推理基准新纪录

1.1 Contribution

Post-Training: 纯强化学习驱动的基座模型优化
- 无监督微调（SFT-free）的强化学习训练
  - 核心创新：
    直接对基础模型（Base Model）应用强化学习（RL），跳过了传统的监督微调（SFT）阶段，仅通过RL激励模型生成长思维链（CoT），并具备**自我验证（Self-Verification）和反思（Reflection）**能力。
    - 意义：首次验证了纯RL可以激发大模型的推理能力，打破了“SFT是RLHF必要前置步骤”的传统认知。
    - 成果模型：DeepSeek-R1-Zero（纯RL训练的基座模型）。
- 两阶段RL + 两阶段SFT的完整训练框架
Pipeline设计：
- RL阶段1：探索更优的推理模式（如复杂CoT生成）。
- RL阶段2：对齐人类偏好（如答案简洁性、正确性）。
- 两个SFT阶段：作为种子模型，分别增强推理和非推理能力（如通用文本生成）。
工业价值：为行业提供可复现的高效训练框架，推动模型能力边界。
Distillation: 大模型推理能力向小模型迁移
- 大模型推理模式蒸馏
  - 关键发现：
    将大模型（如DeepSeek-R1）的推理能力蒸馏到小模型，效果优于直接对小模型进行RL训练。
    - 优势：小模型无需从头探索推理路径，直接继承大模型的优化模式。
    - 开源贡献：发布基于Qwen2.5和Llama3系列的蒸馏模型（1.5B~70B参数）。
- 蒸馏模型的卓越性能
  - 评测结果：
    - DeepSeek-R1-Distill-Qwen-7B：在AIME 2024上达到55.5%，超越QwQ-32B-Preview。
    - DeepSeek-R1-Distill-Qwen-32B：
      - AIME 2024: 72.6%
      - MATH-500: 94.3%
      - LiveCodeBench: 57.2%
    - 对比基线：性能显著超越同类开源模型，接近闭源模型o1-mini。

1.2 Evaluation

推理能力（Reasoning Tasks）
- 数学推理
  - AIME 2024：
    - DeepSeek-R1 Pass@1：79.8%，略超 OpenAI-o1-1217。
    - 说明：AIME是高难度数学竞赛，Pass@1（单次生成正确率）直接反映模型的推理精度。
  - MATH-500：
    - DeepSeek-R1：97.3%，与OpenAI-o1-1217持平，显著优于其他模型。
    - 意义：接近人类顶级水平（如IMO金牌选手）。
- 编程能力
  - Codeforces Elo评分：
    - DeepSeek-R1：2029分，超越 96.3%的人类参赛者。
    - 对比：相当于Codeforces的“Candidate Master”级别（高阶竞赛选手）。
  - 工程任务：
    - 略优于 DeepSeek-V3，适合开发者实际应用（如代码调试、优化）。
知识掌握（Knowledge）
- 综合知识测试
  - MMLU（多学科选择题）：
    - DeepSeek-R1：90.8%，显著优于 DeepSeek-V3（约+5%），但略低于 OpenAI-o1-1217。
  - MMLU-Pro（进阶版）：
    - 84.0%，显示对复杂问题的更强理解力。
  - GPQA Diamond（高难度科学问答）：
    - 71.5%，体现专业领域知识深度。
- 事实性问答（SimpleQA）
  - DeepSeek-R1 > DeepSeek-V3，但 OpenAI-o1 > DeepSeek-R1。
  - 说明：闭源模型（如OpenAI-o1）可能在事实检索上仍有优势。
综合任务（Others）
- 通用能力
  - AlpacaEval 2.0（对话质量评测）：
    - 长度控制胜率87.6%，表明回答既简洁又高质量。
  - ArenaHard（复杂问答）：
    - 胜率92.3%，体现对开放域问题的强解决能力。
- 长文本理解
  - 在长上下文任务中大幅超越 DeepSeek-V3。
  - 应用场景：法律合同分析、论文摘要等需长文本记忆的任务。
- 创意与实用任务
  - 创意写作、编辑、摘要生成等表现优异，接近人类专业水平。

2. Approach

这部分主要包含三个内容
- DeepSeek-R1-Zero
- DeepSeek-R1
- 模型蒸馏

2.1 DeepSeek-R1-Zero

DeepSeek-R1-Zero: Reinforcement Learning on the Base Model
强化学习在推理任务中已被证明非常有效，但现有方法 高度依赖监督数据（Supervised Data），而标注数据成本高、耗时长。
本阶段探索 无需监督数据，仅通过 纯强化学习（Pure RL） 让大语言模型（LLM）自我进化出推理能力。
- 本阶段目标：研究模型在无人工干预下的“自学习”潜力。

2.1.1 Reinforcement Learning Algorithm

采用GRPO算法：Group Relative Policy Optimization
- 算法核心是 摒弃传统RL中的Critic模型（通常与策略模型大小相同），转而通过 分组相对奖励（Group Relative Reward） 直接优化策略。
GRPO算法动机
- 传统RL方法（如PPO）依赖两个模型：
  - 策略模型（Policy Model）：生成回答。
  - Critic模型：评估回答质量，指导策略更新。
- 问题：
  - Critic模型通常与策略模型参数量相当（如7B），训练成本翻倍。
  - Critic的估值可能不稳定，增加训练难度。
- GRPO的解决思路：
  - 去掉Critic，改用 同一组输出的相对奖励 作为优化信号。
  - 通过 分组统计量（均值、标准差） 计算优势（Advantage），减少对独立Critic的依赖。
GRPO算法流程
1. 分组采样（Group Sampling）
  - 对每个问题 $q$ ，从旧策略 $\pi_{\theta_{old}}$ 采样 G个输出 ${o_1, o_2, ..., o_G\}$ ，并获取对应的奖励 ${r_1, r_2, ..., r_G\}$
  - 示例：
    - 问题 $q$ ：“解方程 $x + 3 = 7$ 。”
    - 输出组：
      - $o_1$ ：“x = 4” （奖励 $r_1 = 1.0$ ）
      - $o_2$ ：“x = 7 - 3 = 4” （奖励 $r_2 = 1.2$ ）
      - $o_3$ ：“x = 5” （奖励 $r_3 = 0$ ）
2. 计算相对优势（Advantage）
  - 用组内奖励的 标准化差值 作为优势 $A_i$ ：
    $A_i = \frac{r_i - \text{mean}(\{r_1, r_2, ..., r_G\})}{\text{std}(\{r_1, r_2, ..., r_G\})}$
    - 作用：
      - $A_i > 0$ ：输出优于组内平均，应鼓励。
      - $A_i < 0$ ：输出劣于组内平均，应抑制。
  - 接上例：
    - 均值 $\text{mean} = (1.0 + 1.2 + 0)/3 = 0.733$
    - 标准差 $\text{std} \approx 0.6$
    - $A_1 = (1.0 - 0.733)/0.6 \approx 0.44$
    - $A_2 = (1.2 - 0.733)/0.6 \approx 0.78$
    - $A_3 = (0 - 0.733)/0.6 \approx -1.22$
3. 策略优化目标函数
  - 最大化以下目标，同时约束策略变化幅度：
    $J_{GRPO}(\theta) = \frac{1}{G} \sum_{i=1}^G \left( \min\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} A_i, \text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\varepsilon, 1+\varepsilon \right) A_i \right) \right) - \beta D_{KL}(\pi_\theta \| \pi_{ref})$
  1. 重要性采样比 $\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}$ ：
    - 衡量新旧策略对同一输出的概率差异。
    - 若新策略更倾向于高奖励输出，则比值增大。
  2. Clip函数：
    - 限制比值在 $[1-\varepsilon, 1+\varepsilon]$ 之间，防止策略突变。
    - 超参数 $\varepsilon$ 通常取 0.1~0.3。
  3. KL散度惩罚 $D_{KL}(\pi_\theta \| \pi_{ref})$ ：
    - 约束新策略 $\pi_\theta$ 不偏离参考策略 $\pi_{ref}$ （如SFT模型）。
    - 系数 $\beta$ 控制惩罚强度。
4. KL散度计算
  $D_{KL}(\pi_\theta \| \pi_{ref}) = \frac{\pi_{ref}(o_i|q)}{\pi_\theta(o_i|q)}-\log \frac{\pi_{ref}(o_i|q)}{\pi_\theta(o_i|q)} - 1$
  - 这里单独用了一个参考策略，在经典PPO中，参考策略就是旧策略

2.1.2 Reward Modeling

DeepSeek-R1-Zero 采用了一种 基于规则的奖励系统（Rule-Based Reward），完全避开了神经网络奖励模型（Neural Reward Model），以解决 Reward Hacking 和训练复杂度问题。以下是其奖励建模的完整解析：
奖励系统的设计原则
- 目标：通过简单、可解释的规则，直接评估模型输出的 正确性 和 格式规范性。
- 放弃神经奖励模型的原因：
  - 奖励黑客风险：神经网络奖励模型容易被模型“欺骗”，生成高分但无实质内容的输出。
  - 训练成本高：需额外资源训练和更新奖励模型，增加流程复杂性。
- 解决方案：规则驱动的奖励系统，无需动态调整，且完全透明。
奖励函数的具体组成
1. 准确性奖励（Accuracy Reward）
  - 用途：判断模型输出的答案是否正确。
  - 适用任务：数学问题、编程题等结果确定性高的任务。
  - 实现方式：
    - 数学问题：
      - 要求模型将最终答案放在指定格式中（如 \boxed{答案}）。
      - 通过字符串匹配或符号计算工具（如SymPy）验证答案正确性。
    - 编程题（如LeetCode）：
      - 用编译器/测试用例验证代码的正确性和通过率。
  - 优势：
    - 零歧义：规则明确，避免神经奖励模型的主观偏差。
    - 高效计算：无需调用大模型，节省资源。
2. 格式奖励（Format Reward）
  - 用途：强制模型按指定格式生成推理过程，提升可读性和结构化。
  - 实现方式：
    - 要求模型将推理步骤包裹在特定标签中（如 <think>...</think>）。
  - 优势：
    - 规范化输出：强制模型展示推理链，便于人类理解和后续分析。
    - 抑制偷懒行为：避免模型直接输出答案而不展示过程。

2.1.3 Training Template

强制分步推理：通过标签 <think> 和 </think> 明确分隔推理与答案，便于后续规则化奖励计算（如格式奖励）。
避免内容干预：
- 不限制推理风格（如不要求“反思性思考”或特定解题策略）。
- 不植入人类偏好（如不强制使用特定术语或步骤数量）。
目的：让模型在RL过程中自主探索推理策略，而非模仿预设模式。

2.1.4 Self-evolution Process and Aha Moment of DeepSeek-R1-Zero

Self-evolution Process
- 核心方法
  - 纯强化学习（Pure RL）驱动：直接从基模型（Base Model）启动RL训练，跳过了传统的监督微调（SFT）阶段，避免人为干预，从而清晰观察模型在RL环境中的自然进化。
  - 自主能力提升：模型通过RL自主优化推理能力，无需外部调整或预设策略。
- 关键发现
  - 推理时间的持续增长：
    - 训练过程中，模型生成更长的思维链（从数百到数千个token），逐步深化推理步骤。
    - 这种增长是**内源性（Intrinsic）**的，源于模型对复杂任务的适应性探索。
  - 高阶行为的涌现：
    - 反思（Reflection）：模型自发学会回顾和评估之前的推理步骤。
    - 多路径探索：尝试不同的解题策略，而非依赖固定模式。
    - 动态计算扩展：通过延长推理时间（Test-time Computation）提升任务解决能力。
- 性能提升
  - 复杂任务处理：
    - 随着训练推进，模型能高效解决更具挑战性的任务（如数学证明、多步逻辑问题）。
    - 例如，AIME竞赛的Pass@1从15.6%提升至71.0%（多数投票后达86.7%）。
  - 效率与准确性：
    - 自主进化的行为（如反思）显著提高了答案的准确性和推理可靠性。
Aha Moment（顿悟时刻） of DeepSeek-R1-Zero
- 什么是“顿悟时刻”？
  
  在训练过程中，模型（中间版本）突然表现出一种高阶认知行为：
  - 自主延长思考时间：对问题分配更多计算资源（如生成更长的推理链）。
  - 重新评估初始策略：发现初始方法无效后，自发调整解题路径。
  - 突破性性能提升：伴随该行为，模型在复杂任务上的表现显著改善。
  类比人类：类似于解题时“灵光一现”，突然找到关键思路。

2.1.5 Drawback

DeepSeek-R1-Zero可读性差
DeepSeek-R1-Zero会有语言混合的情况

2.2 DeepSeek-R1

DeepSeek-R1-Zero启发下的两个核心问题
1. 能否通过引入少量高质量冷启动数据进一步提升推理性能或加速收敛？
  - 背景：DeepSeek-R1-Zero（纯RL训练）已展现强大推理能力，但仍有优化空间。
  - 挑战：
    - 纯RL依赖探索，初期训练效率较低。
    - 冷启动数据能否提供“初始信号”，引导模型更快学习？
  - 目标：探索数据效率与RL自主性的平衡。
  1. 如何训练一个用户友好的模型，使其同时具备以下能力？
    - 清晰的思维链（Coherent CoT）：推理步骤易读、逻辑连贯（解决R1-Zero可读性差的问题）。
    - 强通用能力（General Capabilities）：在数学、代码、常识问答等任务上表现均衡。
    - 挑战：
      - 纯RL可能生成晦涩或混杂的输出（如中英文混合）。
      - 需兼顾格式规范与任务性能。
于是乎提出了DeepSeek-R1

2.2.0 DeepSeek R1整体训练流程

冷启动阶段（Cold-Start Fine-tuning）：
- 方法：用少量人工设计的长思维链（Long CoT）数据对基模型（如DeepSeek-V3-Base）进行监督微调（SFT）。
- 目的：让模型初步学会结构化推理（如分步骤、带反思、总结答案），形成高质量的初始策略。
强化学习阶段1：
- 方法：基于冷启动后的模型，继续通过强化学习优化，利用奖励信号（如准确性、格式奖励）进一步提升推理能力。
- 这个阶段关注推理类任务，且用规则奖励来选择策略
监督学习阶段
- 用拒绝采样方法选取用于SFT的数据，然后将模型在数据上训练两个epoch
强化学习阶段2：
- 同样是强化学习优化模型，但这一阶段主要是针对人类偏好
- 同时训练数据更多样化

2.2.1 Cold Start

冷启动数据的收集方法
1. 少样本提示（Few-shot Prompting）：
  - 提供长思维链示例，引导模型生成类似输出。
  - 示例：
```
"问题：解方程x + 3 = 7 →  
<think>1. 两边减3：x = 7 - 3  
2. 验证：4 + 3 = 7 ✔</think>  
\boxed{4}"
```
2. 直接提示模型生成反思性答案：
  - 要求模型输出包含**反思（Reflection）和验证（Verification）**的详细步骤。
3. 复用R1-Zero的输出：
  - 筛选R1-Zero生成中可读性较好的样本，人工后处理优化。
4. 人工标注：
  - 专家编写或修正推理过程，确保逻辑严谨、格式规范。
冷启动数据的核心优势
1. 可读性改进：
  - 强制模型生成格式化输出（如分步骤、总结），避免杂乱无章。
  - 过滤非用户友好内容（如未标记的混合语言）。
2. 性能潜力：
  - 人类先验（如反思、验证步骤）帮助模型更快学习高效推理策略。
  - 实验显示，冷启动后的RL训练收敛更快，最终性能优于R1-Zero。
3. 迭代训练的基础：
  - 冷启动模型作为RL的高质量起点，后续可通过多阶段优化持续提升。

2.2.2 Reasoning-oriented Reinforcement Learning

本阶段训练流程
- 冷启动微调后：基于已用CoT数据微调的DeepSeek-V3-Base模型，沿用DeepSeek-R1-Zero的大规模RL训练方法，进一步优化推理能力。
- 目标任务：专注代码、数学、科学、逻辑推理等推理量大的任务。
语言混合问题与解决
- 问题发现：RL训练中，模型生成的思维链（CoT）常出现多语言混杂（如中英文混合）。
- 解决方案：引入语言一致性奖励（Language Consistency Reward）：
  - 计算方式：统计CoT中目标语言词汇的占比。
  - 效果：虽轻微降低任务性能，但显著提升可读性，更符合人类偏好。
最终奖励设计
- 复合奖励信号 = 推理准确性奖励 + 语言一致性奖励。
阶段训练目标
- 在推理类任务上收敛

2.2.3 Rejection Sampling and Supervised Fine-Tuning

当面向推理的强化学习训练达到收敛后，我们会利用该阶段生成的模型检查点来收集监督微调（SFT）数据，用于下一轮训练。
与初期仅聚焦推理能力的冷启动数据不同，本阶段会整合来自写作、角色扮演等通用任务领域的数据，以全面提升模型的多维能力。
Reasoning Data
- 数据来源与生成方式
  - 基础数据源：
    - 从上一阶段RL训练收敛后的checkpoint出发，通过拒绝采样（Rejection Sampling）生成推理轨迹。
    - 拒绝采样逻辑：
      - 对每个输入提示（prompt），模型生成多个输出，仅保留正确答案（通过规则或奖励模型判断）。
  - 与前一阶段的差异：
    - 初期RL阶段：仅包含可通过规则奖励评估的数据（如数学问题、代码编译结果）。
    - 本阶段扩展：新增需生成式奖励模型评估的数据（如开放域推理任务）。
- 数据收集流程
```
RL训练收敛模型
    ↓
生成多个响应（拒绝采样）
    ↓
评估方式：
├── 规则验证（数学/代码）→ 保留正确答案
└── DeepSeek-V3奖励模型评分 → 保留高分样本
    ↓
可读性过滤：
├── 剔除语言混杂
├── 剔除冗长段落
└── 剔除无关代码块
    ↓
最终输出：60万条高质量推理样本
```
Non-reasoning Data
- 数据范围与来源
  - 涵盖任务类型：
    - 写作（writing）、事实问答（factual QA）、自我认知（self-cognition）、翻译（translation）等非推理型任务。
  - 主要数据来源：
    - 复用DeepSeek-V3的SFT数据集：直接采用其已验证的高质量数据。
    - DeepSeek-V3生成扩充：对部分任务，调用DeepSeek-V3生成带思维链（CoT）的响应。
- 数据生成策略
  1. 简单查询处理（如问候语"hello"）：
    - 不强制生成CoT，直接提供简洁回答，避免过度复杂化。
  2. 复杂任务增强（如事实问答）：
    - 提示DeepSeek-V3生成潜在思维链，再生成最终答案。
- 数据流程图示
```
数据需求
├── 复用DeepSeek-V3 SFT数据 → 写作/翻译等
└── DeepSeek-V3动态生成
    ├── 复杂任务：生成CoT + 答案
    └── 简单任务：直接生成答案
        ↓
人工筛选 → 20万条高质量非推理样本
```
模型在这两种数据上训练两个epoch

2.2.4 Reinforcement Learning for all Scenarios

目标与设计理念
- 核心目标：在保持推理能力的基础上，进一步对齐人类偏好（Helpfulness & Harmlessness）。
- 双轨策略：
  - 推理任务：延续R1-Zero的规则奖励（Rule-Based Rewards），确保数学/代码等任务的准确性。
  - 通用任务：引入奖励模型（Reward Model），捕捉开放域场景中的复杂偏好（如语言得体性、信息实用性）。
奖励信号设计

对齐维度	评估范围	奖励设计逻辑	技术实现
Helpfulness	仅针对最终摘要	强调回答的实用性和相关性（如是否直接解决用户问题），避免干扰推理过程本身。	奖励模型评分聚焦摘要部分，忽略中间推理步骤的细节。
Harmlessness	完整响应（推理+摘要）	检测全文本中的潜在风险（如偏见、有害建议），需覆盖推理链以防隐蔽性危害。	结合关键词过滤+奖励模型全文本评估。

数据与训练方法
- 数据分布：
  - 推理数据：沿用R1-Zero的规则奖励数据（数学、代码等封闭任务）。
  - 通用数据：基于DeepSeek-V3的偏好对（Preference Pairs）和提示分布，扩展至开放域任务。
- 训练流程：
  - 多任务奖励融合：将规则奖励（推理）与偏好奖励（通用）加权结合，形成复合奖励信号。用复合奖励信号和多样的数据分布，来优化模型。

2.3 Distillation

Distillation: Empower Small Models with Reasoning Capability
目标与方法
- 目标：将DeepSeek-R1的推理能力迁移到更小的开源模型（如Qwen、Llama）。
- 方法：
  - 直接监督微调（SFT）：使用DeepSeek-R1生成的80万条高质量样本（数据生成方式参照2.2.3节）微调小模型。
  - 不包含RL阶段：尽管RL能进一步提升性能，但本文仅验证蒸馏技术的有效性。
基模型选择
- Qwen系列：
  - 1.5B/7B/14B/32B参数规模，选择Math专用版本（已预训练数学能力）。
- Llama系列：
  - 选择Llama-3.3（如8B/70B），因其推理能力略优于Llama-3.1。
关键发现
- 蒸馏效果显著：
  - 仅通过SFT，小模型即可显著提升推理能力（如数学、代码任务）。
  - 证明DeepSeek-R1的生成数据具有高迁移价值。

3. Experiment

3.1 Benchmarks

Standard Benchmarks
- MMLU (Hendrycks et al., 2020)、MMLU-Redux (Gemaet al., 2024)、MMLU-Pro (Wang et al., 2024),
- C-Eval (Huang et al., 2023)
- CMMLU (Li et al.,2023)
- IFEval (Zhou et al., 2023)
- FRAMES (Krishna et al., 2024)
- GPQA Diamond (Rein et al.,2023)
- SimpleQA (OpenAI, 2024c)
- C-SimpleQA (He et al., 2024)
- SWE-Bench Verified (OpenAI,112024d)
- Aider
- LiveCodeBench (Jain et al., 2024) (2024-08 – 2025-01)
- Codeforces
- ChineseNational High School Mathematics Olympiad (CNMO 2024)
- American Invitational Mathematics Examination 2024 (AIME 2024) (MAA, 2024).
除标准基准测试外，作者还通过LLM作为评判者，对开放域生成任务进行评估。具体而言：
1. 评估框架：
  - 严格遵循 AlpacaEval 2.0（Dubois等，2024）和 Arena-Hard（Li等，2024）的原始配置
  - 使用GPT-4-Turbo-1106作为对比评判模型（pairwise comparisons）
2. 评估设计：
  - 仅提交最终摘要（final summary）进行评分，避免文本长度偏差（length bias）
3. 蒸馏模型报告记录了在一下benchmark上的表现：
  - AIME 2024
  - MATH-500
  - GPQA Diamond
  - Codeforces
  - LiveCodeBench

3.2 Evaluation Prompts

评估基准与提示词设计
- 标准基准测试：
  - 知识型任务：MMLU, DROP, GPQA Diamond, and SimpleQA。
  - 提示词来源：采用 simple-evals 框架的标准提示词（Prompt）。
- 特殊基准调整：
  - MMLU-Redux：
    - 使用 Zero-Eval (Lin, 2024) 提示格式，零样本（zero-shot）评估，避免示例干扰。
  - MMLU-Pro/C-Eval/CLUE-WSC：
    - 原提示为少样本（Few-Shot），调整为 零样本，因预训练的思维链（CoT）示例可能降低DeepSeek-R1表现。
- 其他数据集：遵循原作者提供的默认评估协议（如提示词、评分规则）。
代码与数学专项评估
- 编程语言覆盖：
  - HumanEval-Mul：覆盖8种主流语言（Python、Java、C++、C#、JavaScript、TypeScript、PHP、Bash），测试多语言代码生成能力。
- 动态代码评估：
  - LiveCodeBench：使用 思维链（CoT）格式 评估，数据收集时间为2024年8月至2025年1月，反映模型对最新编程趋势的适应性。
  - Codeforces：
    - 选用 10场Div.2竞赛题目 + 专家编写的测试用例。
- 软件工程任务：
  - SWE-Bench：通过 **Agentless Framework（Xia et al., 2024）**验证模型修复代码缺陷的能力。
  - AIDER相关基准：以 "diff"格式（代码差异比对）评估代码补全效果。
输入输出限制：
- 每个基准测试中，模型输出限制为 最大32,768 Token，防止生成长度影响公平性。

3.3 Baselines

DeepSeek-V3
Claude-Sonnet-3.5-1022
GPT-4o-0513
OpenAI-o1-mini
OpenAI-o1-1217
蒸馏模型的baseline
- QwQ-32B-Preview (Qwen, 2024a)

3.4 Evaluation Setup

生成长度限制与解码策略
- Token限制：
  - 设定最大生成长度为 32,768 Token，防止评估时因生成长度过长导致计算资源浪费或结果偏差。
- 解码方法优化：
  - 问题发现：贪心解码（Greedy Decoding）会导致：
    - 高重复率：模型陷入局部最优，生成冗余内容。
    - 检查点波动：不同训练阶段的模型输出差异大，评估不稳定。
  - 解决方案：采用 Pass@k评估（Chen et al., 2021） + 非零温度采样：
    - 温度（Temperature）= 0.6，Top-p = 0.95，生成 k个多样化解（k=4~64，依测试集规模调整）。
Pass@k评估方法
- 计算公式：
  $\text{pass@1} = \frac{1}{k} \sum_{i=1}^k p_i$
  - $p_i$ ：第i个生成的正确性
  - 本质：k次采样中至少一次正确的概率，反映模型的首次尝试准确率。
- 技术优势：
  - 稳定性：通过多次采样平滑随机性，减少检查点波动。
  - 多样性：温度采样鼓励探索，避免贪心解码的保守性。
共识评估（cons@64）
- AIME 2024专项：
  - 生成 64个解，通过**多数投票（Majority Vote）**选择最终答案（Wang et al., 2022）。
  - 标记为cons@64，反映模型在多次尝试中的一致性推理能力。

4. Discussion

4.1 Distillation v.s. Reinforcement Learning

直接给出论文的结论：

首先，将更强大的模型的知识蒸馏到较小模型中能够取得优异效果，而依赖大规模强化学习的小模型不仅需要巨大的计算资源，其性能甚至可能无法达到蒸馏模型的水平。
其次，尽管蒸馏策略兼具经济性和高效性，但若要突破智能边界，仍需依赖更强大的基础模型和更大规模的强化学习训练。

4.2 Unsuccessful Attempts

过程奖励模型（PRM）的局限性
- 目标：通过逐步奖励（Process Reward）引导模型优化推理步骤。
- 失败原因：
  1. 定义困难：
    - 通用推理任务中难以明确定义细粒度步骤（如数学证明的中间步骤合理性）。
  2. 评估不可靠：
    - 自动标注（模型判断）准确性不足，人工标注又无法规模化。
  3. 奖励黑客：
    - 模型学会刷分策略（如生成符合PRM偏好但无实质推理的步骤），而非真正提升能力。
  4. 计算成本高：
    - 需额外训练PRM模型，复杂化训练流程且收益有限（仅对Top-N重排序有效）。
- 结论：
  - PRM在大规模RL训练中弊大于利，最终被放弃。
蒙特卡洛树搜索（MCTS）的适配性问题
- 目标：借鉴AlphaGo的MCTS方法，通过搜索增强推理能力。
- 失败原因：
  1. 搜索空间爆炸：
    - 相比围棋的有限动作空间，文本生成的Token选择呈指数级复杂度，即使限制节点扩展仍易陷入局部最优。
  2. 价值模型（Value Model）瓶颈：
    - 需精准评估每一步生成的潜在价值，但文本推理的模糊性使其难以训练：
    - 围棋胜负明确，而推理步骤的“部分正确性”难以量化。
  3. 迭代优化失效：
    - AlphaGo通过价值模型迭代提升，但文本生成中错误会累积传播，导致搜索偏离正确方向。
- 结论：
  - MCTS虽能推理时（Inference）辅助生成，但无法通过自搜索持续提升模型训练效果。

5. Conclusion, Limitations, and Future Work

Conclusion
- 纯RL训练（DeepSeek-R1-Zero）：
  - 无需冷启动数据，仅通过强化学习即实现多任务（数学、代码等）的强性能。
- 混合训练（DeepSeek-R1）：
  - 结合冷启动数据与迭代RL微调，性能媲美顶级闭源模型（如OpenAI-o1-1217）。
- 蒸馏小模型：
  - 用DeepSeek-R1生成80万样本蒸馏至1.5B~70B参数模型，部分小模型（如Qwen-1.5B）在数学基准上超越GPT-4o和Claude-3.5-Sonnet。

Limitations

领域	问题描述
通用能力	在函数调用、多轮对话、复杂角色扮演、JSON输出等任务上弱于DeepSeek-V3。
语言混合	仅优化中英文，其他语言查询可能混杂英文推理（如法语问题得到英文回答）。
提示词敏感性	Few-shot提示会降低性能，需零样本（Zero-shot）直接描述问题+指定输出格式。
软件工程任务	因评估耗时长，RL未充分优化，相比V3提升有限（需异步评估或拒绝采样改进效率）。

Future Work
1. 通用能力增强：
  - 研究**长思维链（Long CoT）**在函数调用、多轮对话等任务中的应用。
2. 多语言优化：
  - 解决非中英文查询的语言混合问题，提升小语种推理一致性。
3. 提示工程改进：
  - 优化模型对Few-shot提示的鲁棒性，减少用户格式指定的负担。
4. 软件工程RL扩展：
  - 通过拒绝采样或异步评估提升RL在代码生成、缺陷修复等任务中的训练效率。