一文彻底搞明白 DeepSeek R1 四个阶段都在干嘛

DeepSeek R1 Zero 首先通过纯强化学习验证了强化学习在提升模型数学和代码能力上的巨大潜力。然后 DeepSeek R1 继续探索了 SFT 和强化学习交替进行两次的 pipeline，本文将详细解释这个 pipeline 的各个阶段都在干嘛。全流程示意图如下图所示：DeepSeek R1 全流程 pipeline。

拥抱AGI

906人浏览 · 2025-02-10 13:53:07

拥抱AGI · 2025-02-10 13:53:07 发布

DeepSeek R1 Zero 首先通过纯强化学习验证了强化学习在提升模型数学和代码能力上的巨大潜力。然后 DeepSeek R1 继续探索了 SFT 和强化学习交替进行两次的 pipeline，本文将详细解释这个 pipeline 的各个阶段都在干嘛。全流程示意图如下图所示：

DeepSeek R1 全流程 pipeline

阶段1:冷启动（获得基础的反思和验证能力和格式遵循能力）

这一阶段通过构建长 Long CoT 数据（数千个）进行微调让模型具有初步的推理能力从而防止强化学习早期训练不稳定。具体来说，使用 Few shot with Long CoT Prompt 鼓励模型通过反思和验证生成推理步骤和答案，从 R1 Zero 收集可读性较好的结果并通过人工进行筛选与改进。

疑问：这里使用 Prompt 鼓励的是 R1 zero 还是 V3 ？R1 zero 好像不需要鼓励就能生成 Long CoT，如果这里的 Prompt 是用于 R1 zero，是不是起一个鼓励生成较好可读性的 CoT 的作用？

阶段2:强化学习（增强推理能力）

在冷启动数据微调后的模型基础上在代码和数学领域进行强化学习来增强模型的推理能力，这一阶段的强化学习和 R1 Zero大体一致。唯一的区别在于为了缓解语言混乱的问题，在奖励模型中加入了语言一致性奖励，计算方法为目标语言 token 在CoT 中的比例。消融实验表明这种奖励会导致表现略有下降，但是更符合人类偏好。

阶段3:拒绝采样和监督微调（增强通用性）

这一阶段通过阶段2的检查点进行拒绝采样生产监督微调数据。

推理数据：对于数学或代码领域，利用基于规则的奖励模型评估采样结果，保留质量好的样本。对于无法用基于规则的奖励模型验证的通用推理问题，用 DeepSeek V3 作为生成式奖励模型，将标签和模型输出一起输入 DeepSeek V3 ，由 DeepSeek V3 生成一个得分，根据得分进行拒绝采样（ LLM as Judge）。共收集600k数据。（蒸馏强化学习模型的数学和代码推理能力和更通用任务的推理能力）
非推理数据：复用了部分 DeepSeek V3 的监督数据。对于这些非推理任务，让 V3 生成 potential 思维链。具体来说，让 DeepSeek V3 根据微调数据的输入和答案反过来生成 CoT，这可能是导致实际使用时出现 CoT 与答案对应不上情况的原因。对于一些特别简单的输入，则不在回应中加入 CoT 数据。共收集200k数据。（适配更通用的非推理任务）

用收集的800k数据重新微调 DeepSeek-V3（2个epoch），要注意这里不是对进行强化学习的模型进行训练。第三阶段训练和后续的蒸馏模型训练是一致的，蒸馏模型的区别就是没有再进行第四阶段的强化学习。

阶段4:全场景强化学习（对齐）

使用组合奖励信号和多样的提示词来训练模型，在保持推理能力的同时对齐人类偏好。

对于推理数据，使用 R1 Zero 的方法进行强化学习。（这些数据是为了在对齐人类偏好的同时保持推理能力）
对于通用数据，应该是使用两个维度奖励模型进行偏好对齐。对于帮助性的评估，帮助性奖励模型只接受最终摘要作为输入，防止对推理过程产生干扰。无害性奖励模型的输入则会涉及整个输出（CoT + 答案）。（这部分数据用于对齐人类偏好）

疑问：怎么具体组合奖励没有提及，是一个 batch 中混合不同类型的数据还是交替使用不同数据进行强化学习？