介绍

DeepSeek-R1使用简洁、低成本的训练方案探索出了模型训练在长链路复杂推理问题中的可行路径,并且毫无遮掩的在DeepSeek论文中开放出了技术实现细节和一些宝贵的失败经验。我们先来看最终的模型评测结论:
在这里插入图片描述

从测评结果来看整体的结果几乎都与OpenAI-o1-1217持平,部分能力如AIME和MATH都超过OpenAI-o1-1217;在得到此成绩之前DeepSeek也做了许多尝试和创新,例如:尝试使用纯强化学习(RL)提高语言模型的推理能力、自创GRPO强化学习算法降低训练复杂度并提高推理效率等。

实现路径

首先引用DeepSeek论文中的训练目标:

Our goal is to explore the potential of LLMs to develop reasoning capabilities without any supervised data, focusing on their self-evolution through a pure RL process.
我们的目标是探索LLM在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯RL过程进行自我进化。

DeepSeek-R1-Zero

基于训练目标DeepSeek首先完成了DeepSeek-R1-Zero的训练,DeepSeek-R1-Zero的训练步骤如下:

  1. 将DeepSeek-V3-Base作为基础模型直接采用GRPO(群体相对策略优化算法,该算法放弃了通常与策略模型大小相同的评论家模型,而是从群体得分中估计基线。)RL算法训练模型,跳过SFT阶段。算法如下:
    在这里插入图片描述
  2. 引入基于规则的奖励系统,该系统主要包含两种类型的奖励:
    a. 准确度奖励:准确度奖励模型评估响应是否正确。例如,对于具有确定性结果的数学问题,要求模型以指定的格式(例如,在一个框内)提供最终答案,从而实现可靠的基于规则的正确性验证。
    b. 格式奖励:除了准确度奖励模型之外,我们还采用了格式奖励模型,强制模型将其思考过程置于“”和“”标签之间。
  3. 引入训练模版,DeepSeek首先设计一个简单的模板,指导基础模型遵循我们指定的指令。此模板要求 DeepSeek-R1-Zero 首先产生一个推理过程,然后给出最终答案。通过训练模版的引入,研究人员能清晰的看到模型思考过程,避免出现偏见以达到可观测的效果。
    在这里插入图片描述
    训练结果如下:
    在这里插入图片描述

其中AIME 2024的得分从15.6%一跃到71%,而且整个过程无需任何监督微调数据,只对最终结果进行评估是否正确。随着测试时间的增加,模型涌现了反思和探索解决复杂问题的替代方法等行为。我理解这种涌现能力得益于GRPO强化学习算法的设计,模型通过与强化学习环境的交互来获得奖励信号,不断调整其策略以应对复杂问题的推理任务。

虽然DeepSeek-R1-Zero验证了强化学习能够为模型带来强大的CoT能力,但由于其完全依赖强化学习进行训练导致随机性过强且缺乏考虑人类偏好,导致其仍然面临着可读性差、语言混合等挑战。因此,DeepSeek训练了升级版本:DeepSeek-R1模型。

DeepSeek-R1

基于DeepSeek-R1-Zero的能力衍生问题:1)通过结合少量高质量数据作为冷启动,推理性能是否可以进一步提高或收敛速度更快?2)如何训练一个用户友好的模型,该模型不仅可以产生清晰连贯的CoT,而且还具有强大的通用能力?
这里引用DeepSeek- R1的训练过程原文:

we introduce DeepSeek-R1, which incorporates a small amount of cold-start data and a multi-stage training pipeline. Specifically, we begin by collecting thousands of cold-start data to fine-tune the DeepSeek-V3-Base model. Following this, we perform reasoning-oriented RL like DeepSeek-R1- Zero. Upon nearing convergence in the RL process, we create new SFT data through rejection sampling on the RL checkpoint, combined with supervised data from DeepSeek-V3 in domains such as writing, factual QA, and self-cognition, and then retrain the DeepSeek-V3-Base model. After fine-tuning with the new data, the checkpoint undergoes an additional RL process, taking into account prompts from all scenarios. After these steps, we obtained a checkpoint referred to as DeepSeek-R1, which achieves performance on par with OpenAI-o1-1217.

整个训练过程如下:
在这里插入图片描述

阶段一:冷启动

● 目的:冷启动阶段为了防止基础模型在RL训练的早期不稳定;
● 做法:构建并收集少量长CoT数据,以微调模型作为初始RL参与者;
● 收集方法:使用长CoT的少样本提示作为提示,直接提示模型通过反射和验证生成详细答案,以可读格式收集DeepSeek-R1-Zero输出,并通过人工注释者的后处理细化结果;
● 微调过程:收集数千个冷启动数据来微调DeepSeek-V3-Base作为RL起点;
● 优点:
○ 可读性:在为 DeepSeek-R1 创建冷启动数据时,DeepSeek设计了一个可读模式,在每个响应的末尾包含一个摘要,并过滤掉不易于阅读的响应。将输出格式定义为 |special_token|<reasoning_process>|special_token|,其中推理过程是查询的 CoT,摘要用于总结推理结果;
○ 潜力高:效果更好,迭代训练是推理模型的更好方法;

阶段二:推理导向的强化学习

该阶段专注于增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及定义明确的问题和明确的解决方案。
● 训练过程问题:CoT经常表现出语言混合,特别是当RL提示设计多种语言时;
● 语言问题解决方案:引入语言一致性奖励,该奖励计算为CoT中目标语言单词的比例;虽然会导致性能下降但更具可读性、更符合人类便好。最终,将推理任务的准确性和语言一致性的奖励直接相加,形成最终奖励;
● 训练目标:对微调后的模型应用RL训练,直到它在推理任务上实现收敛。

阶段三:拒绝抽样和监督微调

当面向推理的RL收敛时,利用生成的检查点为下一轮收集SFT数据。此阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务方面的能力。

推理数据

通过合并其他数据来扩展数据集,其中一些数据使用生成奖励模型,将基本事实和模型预测输入 DeepSeek-V3进行判断。
此外,由于模型输出有时混乱且难以阅读,过滤掉了混合语言、长段落和代码块的思路链。对于每个提示,采样多个响应并仅保留正确的响应。总共收集了大约 600k 个与推理相关的训练样本。

非推理数据

例如写作、事实问答、自我认知和翻译,采用 DeepSeek-V3 管道并重用 DeepSeek-V3 的 SFT 数据集的部分内容。
对于某些非推理任务,调用 DeepSeek-V3 来生成潜在的思路链,然后再通过提示回答问题。但是,对于更简单的查询,例如“你好”,将不提供 CoT 作为响应。最后,总共收集了大约 200k 个与推理无关的训练样本。

阶段四:适用所有场景的强化学习

为了使模型与人类偏好保持一致,DeepSeek实施了二级强化学习阶段,旨在提高模型的有用性和无害性,同时完善其推理能力。

训练过程

● 原理:使用奖励信号和各种提示分布的组合来训练模型;
● 推理数据:遵循DeepSeek-R1-Zero中的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程;
● 一般数据:采用奖励模型来捕获复杂和细微场景中的人类偏好;

评估目标

● 有用性:只关注最终总结,确保评估强调响应对用户的实用性和相关性,同时最大程度减少对底层推理过程的干扰;
● 无害性:评估模型的整个响应,包括推理过程和摘要,以识别和减轻生成过程中可能出现的任何潜在风险、偏见或有害内容;

模型蒸馏

为了使更高效的小型模型具备像DeepSeek-R1的推理能力,可使用DeepSeek-R1策划的NK个样本对目标模型进行微调,微调可采用SFT和RL。
DeepSeek使用DeepSeek-R1对Qwen和Llama等开源模型进行了微调测试,测评结果:
在这里插入图片描述

仅通过提炼DeepSeek-R1的输出,DeepSeek-R1-Distill-Qwen-7B即可超过GPT-4o-0513 等非推理模型。DeepSeek-R1-14B 在所有评估指标上都超过了 QwQ-32BPreview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中都显著超过了 o1-mini。

较大模蒸馏的数据用于训练小模型效果比直接从零RL小模型要好,这点也说明了数据集本身的质量对模型训练起到了决定性作用。

该实践结论也非常关键,将对诸如Scale.ai此类数据标注平台有非常大的挑战,未来使用高质量模型的蒸馏数据训练小模型将成为重要的训练路径,也是训练垂域模型高效、低成本的新共识。

总结

DeepSeek-R1的成功不仅将国内AI的发展重新推向世界的T0梯队,同时为大模型领域的研究打开了新的可行路线并得到验证。

DeepSeek-R1-Zero验证了仅通过RL训练,模型即可涌现复杂问题的推理能力以及模型的自我反思能力;通过引入SFT和高质量的CoT数据进行迭代训练即可训练出具备强推理能力、强人类偏好的推理模型。

将高质量的基础模型蒸馏为较小的模型会产生出色的结果,尽管蒸馏模型即经济又有效,但想达到理想的效果可能仍然需要依赖更强大的基础模型和更大规模的强化学习。

最后附上DeepSeek相关材料:
Arxiv论文地址:https://arxiv.org/pdf/2501.12948
github地址:https://github.com/deepseek-ai/DeepSeek-R1

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐