
清华学姐解读deepseek论文:「DeepSeek-R1:通过强化学习增强大语言模型推理能力的创新解析」
deepseek论文解读:近年来,大型语言模型(LLMs)在推理任务上的表现持续提升,但传统方法通常依赖监督微调(Supervised Fine-Tuning, SFT)和大规模标注数据。系列模型通过纯强化学习(Reinforcement Learning, RL)和多阶段训练,探索了一种无需监督数据即可提升推理能力的新范式。:首个通过纯强化学习(无需SFT)训练的模型,展示了RL在推理任务中的潜
一、论文概述
近年来,大型语言模型(LLMs)在推理任务上的表现持续提升,但传统方法通常依赖监督微调(Supervised Fine-Tuning, SFT)和大规模标注数据。DeepSeek-R1 系列模型通过纯强化学习(Reinforcement Learning, RL)和多阶段训练,探索了一种无需监督数据即可提升推理能力的新范式。论文核心贡献如下:
- DeepSeek-R1-Zero:首个通过纯强化学习(无需SFT)训练的模型,展示了RL在推理任务中的潜力。
- DeepSeek-R1:结合冷启动数据和多阶段训练,解决了可读性和语言混合问题,性能对标OpenAI的顶级模型。
- 知识蒸馏:将大模型的推理能力迁移到小模型,性能超越直接RL训练的小模型。
- 算法创新:提出改进的强化学习算法GRPO(Group Relative Policy Optimization),降低训练成本。
二、方法详解
1. DeepSeek-R1-Zero:纯强化学习训练
核心思想
- 无需监督数据:直接从基础模型(DeepSeek-V3-Base)出发,通过RL训练提升推理能力。
- 奖励设计:使用规则化的奖励系统,包括准确性奖励(基于答案正确性)和格式奖励(确保输出结构规范)。
- 自进化过程:模型通过RL自主发展出反思、验证等复杂推理行为。
训练模板
用户提问 → 模型思考(<think>标签内) → 最终答案(<answer>标签内)
通过结构化模板引导模型生成链式思考(Chain-of-Thought, CoT),但避免内容层面的干预。
2. DeepSeek-R1:多阶段优化
冷启动(Cold Start)
- 目的:解决DeepSeek-R1-Zero的可读性问题。
- 方法:收集少量高质量的CoT数据(数千条),对基础模型进行初步微调,作为RL训练的起点。
多阶段训练流程
- 冷启动微调:使用高质量CoT数据微调模型。
- 推理导向的RL:应用与DeepSeek-R1-Zero相同的RL算法,优化数学、代码等任务。
- 拒绝采样与SFT:从RL检查点生成新数据,结合其他领域数据(写作、事实问答等)进行监督微调。
- 全场景RL:结合多样化的奖励信号(帮助性、无害性)进行二次RL训练。
3. 知识蒸馏:小模型的逆袭
- 方法:使用DeepSeek-R1生成的80万条数据,直接对开源小模型(Qwen、Llama系列)进行监督微调。
- 效果:蒸馏后的小模型(如7B、14B)性能超越直接RL训练的同规模模型,甚至接近OpenAI的闭源模型。
三、公式解析
1. GRPO算法目标函数(式1)
论文提出Group Relative Policy Optimization (GRPO),通过分组计算优势函数,避免使用独立的Critic模型,降低训练成本。
公式1:
[
\mathcal{J}{GRPO}(\theta) = \mathbb{E}\left[\frac{1}{G}\sum{i=1}^{G} \left( \min\left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} A_i, \text{clip}\left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\varepsilon, 1+\varepsilon\right) A_i \right) - \beta \mathbb{D}{KL}(\pi{\theta} || \pi_{ref}) \right) \right]
]
符号解释:
- ( G ):每组采样的输出数量。
- ( \pi_{\theta} ):当前策略(待优化)。
- ( \pi_{\theta_{old}} ):旧策略(采样时的策略)。
- ( A_i ):优势函数,计算方式见式3。
- ( \varepsilon ):剪切范围超参数(防止策略突变)。
- ( \beta ):KL散度惩罚项的权重。
- ( \mathbb{D}{KL} ):KL散度,用于约束策略与参考策略((\pi{ref}))的偏离。
式3(优势函数计算):
[
A_i = \frac{r_i - \text{mean}({r_1, r_2, \cdots, r_G})}{\text{std}({r_1, r_2, \cdots, r_G})}
]
通过组内奖励的均值和标准差归一化,动态调整优势值。
2. 背景知识:KL散度的作用
KL散度(Kullback-Leibler Divergence)用于衡量两个概率分布的差异。在RL中,加入KL惩罚项可以防止策略更新过快,避免模型偏离参考策略(例如初始策略或人类偏好),从而提升训练稳定性。
四、实验结果
1. 关键指标解释
- pass@1:单次采样的正确率。
- cons@64:64次采样中通过多数投票达成共识的正确率。
- Elo评分:竞技编程平台的排名指标,反映模型在编程竞赛中的表现。
2. 性能对比
模型 | AIME 2024 (pass@1) | MATH-500 (pass@1) | Codeforces Rating |
---|---|---|---|
DeepSeek-R1 | 79.8% | 97.3% | 2029 (超越96.3%人类) |
OpenAI-o1-1217 | 79.2% | 96.4% | 2061 |
GPT-4o | 9.3% | 74.6% | 759 |
蒸馏模型表现:
- DeepSeek-R1-Distill-Qwen-32B:AIME 72.6%,超越QwQ-32B-Preview(50.0%)。
五、创新点与意义
- 纯RL训练的可行性:首次证明无需监督数据,仅通过RL即可显著提升推理能力。
- 多阶段训练的通用性:冷启动数据+RL+SFT的组合为行业提供高效训练框架。
- 蒸馏的经济性:小模型通过蒸馏获得接近大模型的性能,降低推理成本。
- 算法优化(GRPO):通过分组策略降低计算开销,适合大规模RL训练。
六、局限性与未来方向
- 通用能力不足:在函数调用、多轮对话等任务上仍需改进。
- 语言混合问题:模型对非中英文查询可能混合语言。
- 工程任务优化:需结合异步评估提升软件工程任务的训练效率。
七、总结
DeepSeek-R1系列模型通过强化学习与知识蒸馏,在推理任务上达到了行业领先水平。其核心创新在于:
- 纯RL训练验证了自进化推理的可能性;
- 多阶段训练平衡了性能与可读性;
- 蒸馏技术为小模型的高效部署提供了新思路。
未来,结合更复杂的任务场景和算法优化,DeepSeek-R1有望进一步推动AGI的发展。
参考文献与致谢
详见论文附录(A节)及官方开源代码:DeepSeek-R1 GitHub。
更多推荐
所有评论(0)