从DeepSeek到LLaMA,主流开源LLM的RL策略深讨
RLHF是LLM训练中的重要一环,随着开源模型的发展,我们观察到一些主流的开源大模型如DeepSeek、Qwen、LLaMA等在解决RL问题上的不同策略和实现方法。这些模型在学习过程的设计与策略选择上各有千秋,本文将会对几个主流的开源模型系列采用的RL策略进行探讨和总结。DeepSeek系列:早期的模型采用DPO进行对齐,后续逐渐过渡到PPO,最近都是使用GRPO进行RLHF阶段的学习。
RLHF是LLM训练中的重要一环,随着开源模型的发展,我们观察到一些主流的开源大模型如DeepSeek、Qwen、LLaMA等在解决RL问题上的不同策略和实现方法。这些模型在学习过程的设计与策略选择上各有千秋,本文将会对几个主流的开源模型系列采用的RL策略进行探讨和总结。
DeepSeek系列:早期的模型采用DPO进行对齐,后续逐渐过渡到PPO,最近都是使用GRPO进行RLHF阶段的学习。同时RM的策略也在不断演进,rule-based RM与model-based RM并重,同时最新的DeepSeek-V3中还使用了self-rewarding策略,使得模型能够不断自我改进。
Qwen系列:从早期的PPO过渡到DPO(同时也会训练RM进行样本选择),过渡到离线阶段用DPO,在线阶段用GRPO。同时最新的qwen2.5-coder模型只用了离线的DPO。
LLaMA:偏向于采用迭代式的技术来优化模型,每一轮都结合Rejection Sampling+PPO(或者DPO)来进行模型优化。
有几点结论:
1. GRPO/PPO 与 DPO之争,似乎还没有明确的高下之分。LLaMA偏向DPO,DeepSeek偏向使用GRPO,Qwen则是两者相结合。
2. 不管使用GRPO/PPO还是使用DPO, RM都是特别关键的(即便采用DPO进行RL,也需要使用RM进行Rejection Sampling),各个模型每次更新几乎都会提及一些RM的优化点和关键。
3. RL阶段的必要性已经达成共识,简单的SFT是远远不够的。尤其是对于代码/数学等强推理场景,RL对于模型能力提升起到关键作用。
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
01
DeepSeek系列
DeepSeek LLM (2024-01)
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
RL阶段只使用了DPO, 构建了用于DPO训练的偏好数据,包括有用性和无害性数据。偏好数据的候选直接由DeepSeek Chat生成。发现DPO可以增强模型的开放式生成技能,但在标准基准测试中的表现差异不大。
DeepSeek-Coder (2024-01)
DeepSeek-Coder: When the Large Language Model Meets Programming – The Rise of Code Intelligence
未使用RL,只使用了SFT进行对齐。
DeepSeek-V2(2024-05)
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
使用GRPO,与PPO相比,GRPO省略了critic model,而是通过从一组输出中估计基线值来优化策略模型。
采用两阶段训练策略:
第一阶段:旨在提升推理能力。训练了一个着重代码和数学推理能力的reward model来进行对齐。
第二阶段:旨在提升人类对齐的能力。采用3个reward model(包括safety、helpful和基于规则)的加权来进行对齐。
此外在工程策略上也做了诸多优化来提升训练效率。
一些RL相关的观察和讨论:
-
DeepSeek-V2 Chat (RL) 在数学和代码任务上表现出色,特别是在GSM8K、MATH和HumanEval等基准测试中,RL阶段的训练显著提升了模型的性能**。**
-
对齐税:模型在对齐过程中无法完全避免性能的权衡。特别是在强化学习(RL)阶段,模型可能会在某些标准基准测试(如BBH)上表现下降,尽管它在开放式生成任务(如对话生成)上表现更好。
2. online RL: 在线强化学习(online RL)在偏好对齐实验中显著优于离线强化学习(offline RL)。因此,团队投入了大量精力来实现一个在线RL框架,以更好地对齐DeepSeek-V2的偏好。
DeepSeek-Coder-V2(2024-06)
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
整体训练策略和DeepSeek-V2一致。
不同的地方在于:
对于代码任务,没有使用编译器的反馈,而是训练了Reward Model。实验也表明奖励模型在RL训练中起到了优化和稳定训练信号的作用,特别是在处理复杂的代码生成任务时,奖励模型能够提供更可靠的反馈,帮助模型更好地学习和优化。
DeepSeek-V3(2024-12)
DeepSeek-V3 Technical Report
RL部分仍然沿用V2系列的GRPO方法,Reward Model 也包含rule-based 和 model-based两种。其中model-based RM是从DeepSeek-V3的SFT的checkpoint训练的,继承了SFT模型的能力。为了增强奖励模型的可靠性,团队构建了包含**思维链(CoT)**的偏好数据,不仅提供最终奖励,还评估模型的推理过程。论文中没有说得特别细节,不确定是不是使用的PRM。
其他相关的信息:
-
在RL过程中,采用了Self-Rewarding策略,特别是在那些难以通过外部工具验证的领域(如创意写作)。通过使用DeepSeek-V3自身的投票结果作为反馈来源,模型能够自我改进。
02
Qwen系列
Qwen (2023-09)
Qwen Technical Report
RL阶段使用了标准的PPO。其中RM的训练分为两个阶段。首先,模型会进行预训练(Preference Model Pretraining, PMP),使用大量的对比数据(包含两个不同响应的样本对及其偏好)。然后,模型会根据人类反馈进行微调,确保奖励模型能够准确反映人类的偏好。
Qwen1.5(2024-02)
Introducing Qwen1.5
没有专门的技术报告,blog中提及RL阶段使用了DPO和PPO来进行对齐。
Qwen2(2024-07)
Qwen2 Technical Report
整体采用DPO,分为离线和在线两个阶段。离线阶段直接用偏好数据集,采用DPO来对齐;在线训练阶段,模型通过实时反馈不断优化其表现。具体做法是,从当前policy model中采样多个响应,然后reward model会选择最受偏好和最不受偏好的响应,形成偏好对,并在每个训练周期中用于DPO。看样子虽然没直接用PPO,但是仍然训练了reward model用作挑选DPO偏好对。
Qwen2.5(2024-09模型发布,2024-12 技术报告发布)
Qwen2.5 Technical Report
Qwen2.5仍然采用两阶段方式,离线阶段使用DPO, 利用执行反馈和答案匹配确保生成响应的质量,特别适用于数学、代码生成等有标准答案但难以评估的任务。在线RL则采用GRPO,通过RM对响应的反馈,提升了模型生成响应的精确性、连贯性和人类偏好对齐能力。
Qwen2.5-Coder(2024-09)
Qwen2.5-Coder Technical Report
Qwen2.5-Coder通过离线DPO进行对齐。对于简单代码,使用多语言代码沙箱生成测试用例验证正确性;对于复杂代码,利用LLM-as-judge方法评估代码质量。最终,代码DPO数据与通用数据结合,用于离线DPO训练。
03
LLaMA系列
LLaMA (2023-02)
LLaMA: Open and Efficient Foundation Language Models
未涉及RL阶段,只设计了指令微调。
LLaMA-2 (2023-06)
Llama 2: Open Foundation and Fine-Tuned Chat Models
结合Rejection Sampling和PPO进行迭代式的优化提升,Reward Model包含两个模型(一个负责Safety,另一个负责Helpful)。在每次迭代中,模型生成多个响应,并使用奖励模型选择得分最高的响应作为新的标准,然后对模型进行微调。这种方法通过多次采样和选择来逐步提升模型的表现。在拒绝采样的基础上,进一步使用PPO算法进行优化。
LLaMA-3&LLaMA-3.1(2024-06)
The Llama 3 Herd of Models
整体也是和LLaMA-2类似,采用迭代式的策略进行提升(论文中指出迭代了6轮)。Reward Model的训练和LLaMA-2有所不同,移除了损失函数中的margin项。然后采用的DPO进行偏好优化,与LLaMA-2使用PPO也有所区别。
如何学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业
?”“谁的饭碗又将不保了?
”等问题热议不断。
不如成为「掌握AI工具的技术人
」,毕竟AI时代,谁先尝试,谁就能占得先机!
想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料
分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程
等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈
学习路线
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐
所有评论(0)