从DeepSeek到LLaMA，主流开源LLM的RL策略深讨

RLHF是LLM训练中的重要一环，随着开源模型的发展，我们观察到一些主流的开源大模型如DeepSeek、Qwen、LLaMA等在解决RL问题上的不同策略和实现方法。这些模型在学习过程的设计与策略选择上各有千秋，本文将会对几个主流的开源模型系列采用的RL策略进行探讨和总结。DeepSeek系列：早期的模型采用DPO进行对齐，后续逐渐过渡到PPO,最近都是使用GRPO进行RLHF阶段的学习。

Python蛋挞

1795人浏览 · 2025-01-29 08:00:00

Python蛋挞 · 2025-01-29 08:00:00 发布

RLHF是LLM训练中的重要一环，随着开源模型的发展，我们观察到一些主流的开源大模型如DeepSeek、Qwen、LLaMA等在解决RL问题上的不同策略和实现方法。这些模型在学习过程的设计与策略选择上各有千秋，本文将会对几个主流的开源模型系列采用的RL策略进行探讨和总结。

DeepSeek系列：早期的模型采用DPO进行对齐，后续逐渐过渡到PPO,最近都是使用GRPO进行RLHF阶段的学习。同时RM的策略也在不断演进，rule-based RM与model-based RM并重，同时最新的DeepSeek-V3中还使用了self-rewarding策略，使得模型能够不断自我改进。

Qwen系列：从早期的PPO过渡到DPO（同时也会训练RM进行样本选择），过渡到离线阶段用DPO，在线阶段用GRPO。同时最新的qwen2.5-coder模型只用了离线的DPO。

LLaMA：偏向于采用迭代式的技术来优化模型，每一轮都结合Rejection Sampling+PPO(或者DPO)来进行模型优化。

有几点结论：

1. GRPO/PPO 与 DPO之争，似乎还没有明确的高下之分。LLaMA偏向DPO，DeepSeek偏向使用GRPO，Qwen则是两者相结合。

2. 不管使用GRPO/PPO还是使用DPO, RM都是特别关键的（即便采用DPO进行RL，也需要使用RM进行Rejection Sampling），各个模型每次更新几乎都会提及一些RM的优化点和关键。

3. RL阶段的必要性已经达成共识，简单的SFT是远远不够的。尤其是对于代码/数学等强推理场景，RL对于模型能力提升起到关键作用。

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

DeepSeek系列

DeepSeek LLM （2024-01）

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

RL阶段只使用了DPO, 构建了用于DPO训练的偏好数据，包括有用性和无害性数据。偏好数据的候选直接由DeepSeek Chat生成。发现DPO可以增强模型的开放式生成技能，但在标准基准测试中的表现差异不大。

DeepSeek-Coder (2024-01)

DeepSeek-Coder: When the Large Language Model Meets Programming – The Rise of Code Intelligence

未使用RL，只使用了SFT进行对齐。

DeepSeek-V2(2024-05)

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

使用GRPO，与PPO相比，GRPO省略了critic model，而是通过从一组输出中估计基线值来优化策略模型。

采用两阶段训练策略：

第一阶段：旨在提升推理能力。训练了一个着重代码和数学推理能力的reward model来进行对齐。

第二阶段：旨在提升人类对齐的能力。采用3个reward model（包括safety、helpful和基于规则）的加权来进行对齐。

此外在工程策略上也做了诸多优化来提升训练效率。

一些RL相关的观察和讨论：

DeepSeek-V2 Chat (RL) 在数学和代码任务上表现出色，特别是在GSM8K、MATH和HumanEval等基准测试中，RL阶段的训练显著提升了模型的性能**。**
对齐税：模型在对齐过程中无法完全避免性能的权衡。特别是在强化学习（RL）阶段，模型可能会在某些标准基准测试（如BBH）上表现下降，尽管它在开放式生成任务（如对话生成）上表现更好。

2. online RL: 在线强化学习（online RL）在偏好对齐实验中显著优于离线强化学习（offline RL）。因此，团队投入了大量精力来实现一个在线RL框架，以更好地对齐DeepSeek-V2的偏好。

DeepSeek-Coder-V2（2024-06）

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

整体训练策略和DeepSeek-V2一致。

不同的地方在于：

对于代码任务，没有使用编译器的反馈，而是训练了Reward Model。实验也表明奖励模型在RL训练中起到了优化和稳定训练信号的作用，特别是在处理复杂的代码生成任务时，奖励模型能够提供更可靠的反馈，帮助模型更好地学习和优化。

DeepSeek-V3(2024-12)

DeepSeek-V3 Technical Report

RL部分仍然沿用V2系列的GRPO方法，Reward Model 也包含rule-based 和 model-based两种。其中model-based RM是从DeepSeek-V3的SFT的checkpoint训练的，继承了SFT模型的能力。为了增强奖励模型的可靠性，团队构建了包含**思维链（CoT）**的偏好数据，不仅提供最终奖励，还评估模型的推理过程。论文中没有说得特别细节，不确定是不是使用的PRM。

其他相关的信息：

在RL过程中，采用了Self-Rewarding策略，特别是在那些难以通过外部工具验证的领域（如创意写作）。通过使用DeepSeek-V3自身的投票结果作为反馈来源，模型能够自我改进。

Qwen系列

Qwen (2023-09)

Qwen Technical Report

RL阶段使用了标准的PPO。其中RM的训练分为两个阶段。首先，模型会进行预训练（Preference Model Pretraining, PMP），使用大量的对比数据（包含两个不同响应的样本对及其偏好）。然后，模型会根据人类反馈进行微调，确保奖励模型能够准确反映人类的偏好。

Qwen1.5（2024-02）

Introducing Qwen1.5

没有专门的技术报告，blog中提及RL阶段使用了DPO和PPO来进行对齐。

Qwen2（2024-07）

Qwen2 Technical Report

整体采用DPO，分为离线和在线两个阶段。离线阶段直接用偏好数据集，采用DPO来对齐；在线训练阶段，模型通过实时反馈不断优化其表现。具体做法是，从当前policy model中采样多个响应，然后reward model会选择最受偏好和最不受偏好的响应，形成偏好对，并在每个训练周期中用于DPO。看样子虽然没直接用PPO，但是仍然训练了reward model用作挑选DPO偏好对。

Qwen2.5(2024-09模型发布，2024-12 技术报告发布)

Qwen2.5 Technical Report

Qwen2.5仍然采用两阶段方式，离线阶段使用DPO，利用执行反馈和答案匹配确保生成响应的质量，特别适用于数学、代码生成等有标准答案但难以评估的任务。在线RL则采用GRPO，通过RM对响应的反馈，提升了模型生成响应的精确性、连贯性和人类偏好对齐能力。

Qwen2.5-Coder(2024-09)

Qwen2.5-Coder Technical Report

Qwen2.5-Coder通过离线DPO进行对齐。对于简单代码，使用多语言代码沙箱生成测试用例验证正确性；对于复杂代码，利用LLM-as-judge方法评估代码质量。最终，代码DPO数据与通用数据结合，用于离线DPO训练。

LLaMA系列

LLaMA （2023-02）

LLaMA: Open and Efficient Foundation Language Models

未涉及RL阶段，只设计了指令微调。

LLaMA-2 （2023-06）

Llama 2: Open Foundation and Fine-Tuned Chat Models

结合Rejection Sampling和PPO进行迭代式的优化提升，Reward Model包含两个模型（一个负责Safety,另一个负责Helpful）。在每次迭代中，模型生成多个响应，并使用奖励模型选择得分最高的响应作为新的标准，然后对模型进行微调。这种方法通过多次采样和选择来逐步提升模型的表现。在拒绝采样的基础上，进一步使用PPO算法进行优化。

LLaMA-3&LLaMA-3.1（2024-06）

The Llama 3 Herd of Models

整体也是和LLaMA-2类似，采用迭代式的策略进行提升（论文中指出迭代了6轮）。Reward Model的训练和LLaMA-2有所不同，移除了损失函数中的margin项。然后采用的DPO进行偏好优化，与LLaMA-2使用PPO也有所区别。

如何学习AI大模型？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

想正式转到一些新兴的 AI 行业，不仅需要系统的学习AI大模型。同时也要跟已有的技能结合，辅助编程提效，或上手实操应用，增加自己的职场竞争力。

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高

那么针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

学习路线

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

一文搞懂 Deepseek

DeepSeek技术社区

HAproxy服务器带日志

我现在有两台WindowsAD域控 10.10.10.1 和10.10.10.2，我现在有一个准入系统10.10.11.100需要提供ldap认证，我现在想搭建一个haproxy服务器IP 10.10.10.200做ldap业务的负载均衡，这样在准入系统上只要填haproxy服务器地址即可，所有通过haproxy服务器获取ladp的信息在haproxy需要有日志，haproxy服务已经安装，配置