DeepSeek R1 Zero 首先通过纯强化学习验证了强化学习在提升模型数学和代码能力上的巨大潜力。然后 DeepSeek R1 继续探索了 SFT 和强化学习交替进行两次的 pipeline,本文将详细解释这个 pipeline 的各个阶段都在干嘛。全流程示意图如下图所示:

DeepSeek R1 全流程 pipeline

阶段1:冷启动(获得基础的反思和验证能力和格式遵循能力)

这一阶段通过构建长 Long CoT 数据(数千个)进行微调让模型具有初步的推理能力从而防止强化学习早期训练不稳定。具体来说,使用 Few shot with Long CoT Prompt 鼓励模型通过反思和验证生成推理步骤和答案,从 R1 Zero 收集可读性较好的结果并通过人工进行筛选与改进。

疑问:这里使用 Prompt 鼓励的是 R1 zero 还是 V3 ?R1 zero 好像不需要鼓励就能生成 Long CoT,如果这里的 Prompt 是用于 R1 zero,是不是起一个鼓励生成较好可读性的 CoT 的作用?

阶段2:强化学习(增强推理能力)

在冷启动数据微调后的模型基础上在代码和数学领域进行强化学习来增强模型的推理能力,这一阶段的强化学习和 R1 Zero大体一致。唯一的区别在于为了缓解语言混乱的问题,在奖励模型中加入了语言一致性奖励,计算方法为目标语言 token 在CoT 中的比例。消融实验表明这种奖励会导致表现略有下降,但是更符合人类偏好。

阶段3:拒绝采样和监督微调(增强通用性)

这一阶段通过阶段2的检查点进行拒绝采样生产监督微调数据。

  • 推理数据:对于数学或代码领域,利用基于规则的奖励模型评估采样结果,保留质量好的样本。对于无法用基于规则的奖励模型验证的通用推理问题,用 DeepSeek V3 作为生成式奖励模型,将标签和模型输出一起输入 DeepSeek V3 ,由 DeepSeek V3 生成一个得分,根据得分进行拒绝采样( LLM as Judge)。共收集600k数据。(蒸馏强化学习模型的数学和代码推理能力和更通用任务的推理能力)

  • 非推理数据:复用了部分 DeepSeek V3 的监督数据。对于这些非推理任务,让 V3 生成 potential 思维链。具体来说,让 DeepSeek V3 根据微调数据的输入和答案反过来生成 CoT,这可能是导致实际使用时出现 CoT 与答案对应不上情况的原因。对于一些特别简单的输入,则不在回应中加入 CoT 数据。共收集200k数据。(适配更通用的非推理任务)

用收集的800k数据重新微调 DeepSeek-V3(2个epoch),要注意这里不是对进行强化学习的模型进行训练。第三阶段训练和后续的蒸馏模型训练是一致的,蒸馏模型的区别就是没有再进行第四阶段的强化学习。

阶段4:全场景强化学习(对齐)

使用组合奖励信号和多样的提示词来训练模型,在保持推理能力的同时对齐人类偏好。

  • 对于推理数据,使用 R1 Zero 的方法进行强化学习。(这些数据是为了在对齐人类偏好的同时保持推理能力)

  • 对于通用数据,应该是使用两个维度奖励模型进行偏好对齐。对于帮助性的评估,帮助性奖励模型只接受最终摘要作为输入,防止对推理过程产生干扰。无害性奖励模型的输入则会涉及整个输出(CoT + 答案)。(这部分数据用于对齐人类偏好)

疑问:怎么具体组合奖励没有提及,是一个 batch 中混合不同类型的数据还是交替使用不同数据进行强化学习?

AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐