RLHF是LLM训练中的重要一环,随着开源模型的发展,我们观察到一些主流的开源大模型如DeepSeek、Qwen、LLaMA等在解决RL问题上的不同策略和实现方法。这些模型在学习过程的设计与策略选择上各有千秋,本文将会对几个主流的开源模型系列采用的RL策略进行探讨和总结。

DeepSeek系列:早期的模型采用DPO进行对齐,后续逐渐过渡到PPO,最近都是使用GRPO进行RLHF阶段的学习。同时RM的策略也在不断演进,rule-based RM与model-based RM并重,同时最新的DeepSeek-V3中还使用了self-rewarding策略,使得模型能够不断自我改进。

Qwen系列:从早期的PPO过渡到DPO(同时也会训练RM进行样本选择),过渡到离线阶段用DPO,在线阶段用GRPO。同时最新的qwen2.5-coder模型只用了离线的DPO。

LLaMA:偏向于采用迭代式的技术来优化模型,每一轮都结合Rejection Sampling+PPO(或者DPO)来进行模型优化。

有几点结论:

1. GRPO/PPO 与 DPO之争,似乎还没有明确的高下之分。LLaMA偏向DPO,DeepSeek偏向使用GRPO,Qwen则是两者相结合。

2. 不管使用GRPO/PPO还是使用DPO, RM都是特别关键的(即便采用DPO进行RL,也需要使用RM进行Rejection Sampling),各个模型每次更新几乎都会提及一些RM的优化点和关键。

3. RL阶段的必要性已经达成共识,简单的SFT是远远不够的。尤其是对于代码/数学等强推理场景,RL对于模型能力提升起到关键作用。

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

01

DeepSeek系列

DeepSeek LLM (2024-01)

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

RL阶段只使用了DPO, 构建了用于DPO训练的偏好数据,包括有用性和无害性数据。偏好数据的候选直接由DeepSeek Chat生成。发现DPO可以增强模型的开放式生成技能,但在标准基准测试中的表现差异不大。

DeepSeek-Coder (2024-01)

DeepSeek-Coder: When the Large Language Model Meets Programming – The Rise of Code Intelligence

未使用RL,只使用了SFT进行对齐。

DeepSeek-V2(2024-05)

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

使用GRPO,与PPO相比,GRPO省略了critic model,而是通过从一组输出中估计基线值来优化策略模型。

采用两阶段训练策略:

第一阶段:旨在提升推理能力。训练了一个着重代码和数学推理能力的reward model来进行对齐。

第二阶段:旨在提升人类对齐的能力。采用3个reward model(包括safety、helpful和基于规则)的加权来进行对齐。

此外在工程策略上也做了诸多优化来提升训练效率。

一些RL相关的观察和讨论:

  1. DeepSeek-V2 Chat (RL) 在数学和代码任务上表现出色,特别是在GSM8K、MATH和HumanEval等基准测试中,RL阶段的训练显著提升了模型的性能**。**

  2. 对齐税:模型在对齐过程中无法完全避免性能的权衡。特别是在强化学习(RL)阶段,模型可能会在某些标准基准测试(如BBH)上表现下降,尽管它在开放式生成任务(如对话生成)上表现更好。

2. online RL: 在线强化学习(online RL)在偏好对齐实验中显著优于离线强化学习(offline RL)。因此,团队投入了大量精力来实现一个在线RL框架,以更好地对齐DeepSeek-V2的偏好。

DeepSeek-Coder-V2(2024-06)

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

整体训练策略和DeepSeek-V2一致。

不同的地方在于:

对于代码任务,没有使用编译器的反馈,而是训练了Reward Model。实验也表明奖励模型在RL训练中起到了优化和稳定训练信号的作用,特别是在处理复杂的代码生成任务时,奖励模型能够提供更可靠的反馈,帮助模型更好地学习和优化。

DeepSeek-V3(2024-12)

DeepSeek-V3 Technical Report

RL部分仍然沿用V2系列的GRPO方法,Reward Model 也包含rule-based 和 model-based两种。其中model-based RM是从DeepSeek-V3的SFT的checkpoint训练的,继承了SFT模型的能力。为了增强奖励模型的可靠性,团队构建了包含**思维链(CoT)**的偏好数据,不仅提供最终奖励,还评估模型的推理过程。论文中没有说得特别细节,不确定是不是使用的PRM。

其他相关的信息:

  1. 在RL过程中,采用了Self-Rewarding策略,特别是在那些难以通过外部工具验证的领域(如创意写作)。通过使用DeepSeek-V3自身的投票结果作为反馈来源,模型能够自我改进。


02

Qwen系列

Qwen (2023-09)

Qwen Technical Report

RL阶段使用了标准的PPO。其中RM的训练分为两个阶段。首先,模型会进行预训练(Preference Model Pretraining, PMP),使用大量的对比数据(包含两个不同响应的样本对及其偏好)。然后,模型会根据人类反馈进行微调,确保奖励模型能够准确反映人类的偏好。

Qwen1.5(2024-02)

Introducing Qwen1.5

没有专门的技术报告,blog中提及RL阶段使用了DPO和PPO来进行对齐。

Qwen2(2024-07)

Qwen2 Technical Report

整体采用DPO,分为离线和在线两个阶段。离线阶段直接用偏好数据集,采用DPO来对齐;在线训练阶段,模型通过实时反馈不断优化其表现。具体做法是,从当前policy model中采样多个响应,然后reward model会选择最受偏好和最不受偏好的响应,形成偏好对,并在每个训练周期中用于DPO。看样子虽然没直接用PPO,但是仍然训练了reward model用作挑选DPO偏好对。

Qwen2.5(2024-09模型发布,2024-12 技术报告发布)

Qwen2.5 Technical Report

Qwen2.5仍然采用两阶段方式,离线阶段使用DPO, 利用执行反馈和答案匹配确保生成响应的质量,特别适用于数学、代码生成等有标准答案但难以评估的任务。在线RL则采用GRPO,通过RM对响应的反馈,提升了模型生成响应的精确性、连贯性和人类偏好对齐能力。

Qwen2.5-Coder(2024-09)

Qwen2.5-Coder Technical Report

Qwen2.5-Coder通过离线DPO进行对齐。对于简单代码,使用多语言代码沙箱生成测试用例验证正确性;对于复杂代码,利用LLM-as-judge方法评估代码质量。最终,代码DPO数据与通用数据结合,用于离线DPO训练。

03

LLaMA系列

LLaMA (2023-02)

LLaMA: Open and Efficient Foundation Language Models

未涉及RL阶段,只设计了指令微调。

LLaMA-2 (2023-06)

Llama 2: Open Foundation and Fine-Tuned Chat Models

结合Rejection Sampling和PPO进行迭代式的优化提升,Reward Model包含两个模型(一个负责Safety,另一个负责Helpful)。在每次迭代中,模型生成多个响应,并使用奖励模型选择得分最高的响应作为新的标准,然后对模型进行微调。这种方法通过多次采样和选择来逐步提升模型的表现。在拒绝采样的基础上,进一步使用PPO算法进行优化。

LLaMA-3&LLaMA-3.1(2024-06)

The Llama 3 Herd of Models

整体也是和LLaMA-2类似,采用迭代式的策略进行提升(论文中指出迭代了6轮)。Reward Model的训练和LLaMA-2有所不同,移除了损失函数中的margin项。然后采用的DPO进行偏好优化,与LLaMA-2使用PPO也有所区别。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐