一文读懂DeepSeek R1论文中的三大科研创新成果！

DeepSeek-R1-Zero是首个完全依赖大规模强化学习（RL）训练的大型语言模型（LLM），无需任何监督微调（SFT）阶段。该模型通过RL算法（）自主演化出复杂的推理行为，包括自我验证、反思和生成长链思维（CoT），打破了传统依赖海量标注数据的训练范式。GRPO算法省去了通常与策略模型同等大小的评价模型（Critic Model），并通过群体得分来估算基准（Baseline）。而奖励是训练信

EnjoyEDU

1336人浏览 · 2025-03-21 09:31:58

EnjoyEDU · 2025-03-21 09:31:58 发布

1、名词解释

名词	解释
监督微调（SFT, Supervised Fine-Tuning）	基于标注数据对预训练模型进行参数微调，提升特定任务性能。
GRPO（Group Relative Policy Optimization）算法	一种强化学习算法，通过组内奖励均值与标准差计算优势函数，舍弃传统评论家模型以降低训练成本。
冷启动数据（Cold-Start Data）	人工设计的高质量长链思维（CoT）示例，用于模型初始微调，解决纯RL训练的不稳定性与可读性问题。
拒绝采样（Rejection Sampling）	从模型生成的候选答案中筛选正确且格式规范的样本，用于构建高质量训练数据。
COT（Chain-of-Thought）	模型在推理过程中生成的逐步思维链，通过逻辑步骤引导最终答案，提升复杂任务表现。

2、DeepSeek-R1-Zero的纯强化学习训练

DeepSeek-R1-Zero是首个完全依赖大规模强化学习（RL）训练的大型语言模型（LLM），无需任何监督微调（SFT）阶段。该模型通过RL算法（群组相对策略优化 [Group Relative Policy Optimization，GRPO]）自主演化出复杂的推理行为，包括自我验证、反思和生成长链思维（CoT），打破了传统依赖海量标注数据的训练范式。

GRPO算法省去了通常与策略模型同等大小的评价模型（Critic Model），并通过群体得分来估算基准（Baseline）。而奖励是训练信号的来源，决定的RL优化的方向，那么R1-Zero采用的是什么奖励规则呢？它采用了一种基于规则的奖励系统，该系统主要由两种类型的奖励组成：

准确率奖励（Accuracy rewards）：准确率奖励模型评估响应是否正确。例如，在具有确定性结果的数学问题中，模型需要以指定的格式（box）提供最终答案，从而能够通过基于规则的验证来可靠地确认正确性。同样，对于 LeetCode 问题，可以使用编译器根据预定义的测试用例生成反馈。
格式奖励（Format rewards）: 除了准确性奖励模型，还采用了一种格式奖励模型，要求模型将其思考过程放在 ’ ’ 和 ’ ’ 标签之间。

需要强调用R1-Zero中格式奖励是按照和里面，回答的内容是包装在

DeepSeek-R1-Zero 性能

在数学竞赛AIME 2024中，其单次通过率（pass@1）从初始的15.6%跃升至71.0%，多数投票（cons@64）后更达到86.7%，性能直逼OpenAI的o1-0912模型。这一成果验证了纯强化学习（GRPO算法）在激发模型推理能力方面的潜力。

DeepSeek-R1-Zero 的自我演化过程

DeepSeek-R1-Zero的思考能力是与它的思考链长度是有很大关系的，在DeepSeek-V3-Base + GRPO训练过程中，里面的内容，即思考链的内容也是会随着迭代次数的增加而增加的。因此得出结论：GRPO这个算法是能够不断增加模型内部的思考链长度来提升模型的推理能力。

DeepSeek-R1-Zero 的 “开悟” 时刻

“Wait, wait. Wait. That’s an aha moment I can flag here.”表明DeepSeek V3 Base在进行GRPO训练的过程中出现了在思考链里面反思的过程，也就是说模型在思考链里面围绕自己思考的内容又进行了反思的过程。可以说明DeepSeek-R1-Zero的推理能力足够强！

3、DeepSeek-R1的四阶段训练

我们从上面看到DeepSeek-R1-Zero的训练流程非常简单，就使用GRPO这一个算法不断进行训练迭代。尽管R1-Zero展现出了强大的推理能力，但暴露出使用纯GRPO训练遇到的一些挑战：

可读性差
语言混杂

因此，为了解决上述挑战，DeepSeek团队提出DeepSeek-R1模型。其核心创新在于引入冷启动数据（数千条高质量长链思维示例）和四阶段训练流程：

在 DeepSeek V3 Base 模型上，利用高质量的 CoT 数据进行冷启动，并通过有监督微调（SFT）进行训练；
进行GROP强化学习训练，提升模型在推理任务上的性能；
再次进行有监督微调（SFT）训练，将模型推理能力迁移到文本创作等领域；
再次进行GRPO强化学习训练，提升模型推理过程语言一致性以及安全性；

第一轮SFT训练

目标：为GRPO强化学习提供稳定的初始模型，解决纯GRPO训练初期的不稳定性，并规范R1模型的输出格式进而提升输出的可读性。

实施步骤：

数据构建：

收集数千条高质量长链思维（CoT）示例，涵盖数学、编程等推理任务。

数据来源包括：

少样本提示生成：使用长 CoT 的小样本提示作为示例，直接提示模型通过反思和验证生成详细答案。
人工后处理：对DeepSeek-R1-Zero生成内容进行格式优化（如添加特殊标记、分段总结），确保可读性。

定义输出格式为 |special_token|<推理过程>|special_token|<总结>，强制模型生成结构化内容。解决了DeepSeek-R1-Zero生成的内容不适合阅读的问题。

模型微调：

使用冷启动数据对基础模型（DeepSeek-V3-Base）进行监督微调（SFT），确保初始RL阶段的稳定性。

第一轮GRPO强化学习训练

目标：通过大规模RL训练，强化模型在数学、编程等密集型推理任务中的能力。技术细节：

算法与奖励设计：

采用 GRPO算法（Group Relative Policy Optimization），舍弃传统评论家模型，通过组内奖励均值与标准差计算优势函数（Advantage）。

奖励分为两部分：

准确性奖励：基于规则验证最终答案（如数学结果、代码编译通过）。
语言一致性奖励：计算目标语言（如英语或中文）在推理文本中的占比，抑制语言混合现象。

训练流程：

从冷启动后的模型开始RL训练，逐步优化策略。
观察模型生成更长的推理链（如数百至数千词），并自发涌现反思、多步验证等行为。

第二轮SFT训练

目标：整合高质量推理数据与非推理任务数据，增强模型通用能力。（与第一轮SFT不同的就是这一阶段的数据涵盖了其它领域）

实施步骤：

推理数据生成：（大约60万条数据）

对RL检查点进行拒绝采样，仅保留正确答案的推理轨迹。
引入生成式奖励模型（如DeepSeek-V3）评估部分数据的合理性。
过滤语言混合、冗长段落或代码块，确保数据可读性。

非推理数据整合：（大约20万条数据）

复用DeepSeek-V3的SFT数据集，覆盖写作、事实问答、自我认知等任务
对简单查询（如“你好”）不强制生成推理链，保持响应简洁。

混合微调：

将约60万条推理数据与20万条非推理数据合并，对基础模型进行两轮微调。

核心作用：

平衡模型的推理能力与通用任务表现（如写作、多轮对话）。
通过数据多样性防止模型过度偏向特定领域。

第二轮GRPO强化学习训练

目标：对齐人类偏好，优化模型的“有益性”与“无害性”，同时保持推理性能。技术策略：

多奖励信号融合：

推理任务：沿用规则奖励（准确性、语言一致性）。
通用任务：引入神经奖励模型，评估生成内容的有用性（如回答相关性）和无害性（如避免偏见或有害内容）。

提示分布扩展：

覆盖多样化场景（如角色扮演、开放式问答），确保模型适应复杂需求。
对最终总结部分单独评估有用性，减少对推理过程的干扰。

4、蒸馏技术在小模型中的应用

DeepSeek-R1通过强化学习GRPO算法展现出卓越的推理能力，但其庞大的参数量（如671B）限制了实际部署的效率和成本。因此，研究团队提出知识蒸馏技术，将大模型的推理能力迁移至更小规模的密集模型（1.5B至70B参数），目标在于：

降低计算成本：避免对小模型直接进行大规模RL训练的高资源消耗。
提升性能上限：利用大模型已探索的优质推理模式，弥补小模型自身训练的局限性。
推动开源生态：通过开源蒸馏后的小模型，助力社区在资源受限场景下的应用开发。

蒸馏的核心：来源数据的质量

来源：80万条高质量推理样本是基于DeepSeek-R1的RL检查点进行拒绝采样（Rejection Sampling），仅保留正确且格式规范的推理轨迹。

筛选规则：

准确性过滤：通过规则验证（如数学答案正确性、代码编译通过）或生成式奖励模型（如调用DeepSeek-V3）评估答案正确性。
可读性过滤：剔除语言混合（如中英文混杂）、冗长段落或不必要代码块的内容。

数据多样性：覆盖数学（如AIME、MATH-500）、编程（如Codeforces、LiveCodeBench）、科学推理（如GPQA Diamond）等任务，确保小模型泛化能力。

蒸馏过程

蒸馏过程以监督微调（SFT）为核心，具体步骤如下：

基础模型选择：针对不同规模需求，选用开源模型如Qwen2.5（1.5B、7B、14B、32B）和Llama3（8B、70B）系列。

微调策略：

仅SFT阶段：直接使用800K推理数据对基础模型进行微调，未引入RL阶段。论文指出，加入RL可能进一步提升性能，但为简化流程，优先验证蒸馏本身的有效性。
混合任务训练：部分非推理任务（如写作、事实问答）复用DeepSeek-V3的SFT数据，防止模型过度偏向推理任务。

训练细节：

采用标准的自回归语言模型训练目标（交叉熵损失）。
微调轮数为两轮（2 epochs），确保模型充分吸收大模型的推理模式。

蒸馏方式的分类

黑盒蒸馏：

在黑盒蒸馏中，学生模型仅能利用教师模型的输入数据和最终输出 （如预测概率或分类标签）进行学习，无法获取教师模型的内部参数、中间层特征或梯度信息。
这种方法主要依赖于教师模型的输出层信息，知识迁移的精细程度相对有限，但实现简单且对教师模型的隐私保护较好。

白盒蒸馏：

白盒蒸馏允许学生模型不仅学习教师模型的输入和最终输出 ，还可以访问其完整的内部信息 ，包括中间层特征、注意力权重、梯度等。
通过利用这些丰富的信息，学生模型能够实现更精细、更深层次的知识迁移，从而可能获得更高的性能。不过，这种方法对教师模型的透明性要求较高，可能涉及隐私或知识产权问题。

DeepSeek R1论文中提到的模型蒸馏方式使用的是黑盒蒸馏。

以上就是DeepSeek R1论文中涉及的三项重大的科研成果，如果对您有帮助，关注点起来吧！！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】