DPO PPO GRPO RLHF 的区别

PPO 要估 Advantage，需要价值函数（critic）；步骤：直接在（prompt, preferred, dispreferred）三元组上最小化上式即可。适合需要采样多条长解链的“深度推理”场景（DeepSeekMath、DeepSeek-R1）。介于 DPO 和 PPO 之间：保留在线改进，但通过“组相对评分”省掉 critic，当 Advantage，直接做 PPO-Clip 更新

周贵超

1773人浏览 · 2025-06-06 10:19:29

周贵超 · 2025-06-06 10:19:29 发布

下面把 4 个常见名词放到一张逻辑链里：

名称	全称	一句话核心	是否先学奖励模型	是否在线 RL 采样	主要优化目标	典型用途
RLHF	Reinforcement Learning from Human Feedback	框架：“比较 ➜ 训练奖励模型 ➜ RL 优化政策”	✔️ 需要（用人类比较数据训练）(en.wikipedia.org)	✔️ 多用 PPO 做在线 roll-out	最大化人类偏好奖励，同时约束 KL	GPT-4、ChatGPT 对齐
PPO	Proximal Policy Optimization	一种稳定的策略梯度算法：用 clip 或 KL-penalty 做“信赖域”限制	-（算法层面不管奖励来源）	✔️ 典型 on-policy RL，需反复采样(en.wikipedia.org)	maximize clipped surrogate	机器人控制、RLHF 第二阶段
DPO	Direct Preference Optimization	把偏好学习转成简单分类损失：直接用“好 / 差”对成对训练	❌ 不需要单独奖励模型；直接把 LM 当做隐式 reward model(arxiv.org)	❌ 纯离线；不采样、不算 advantage	最大化首选-劣选 log-odds	轻量对齐（SFT→DPO）
GRPO	Group Relative Policy Optimization	无 critic、按组相对得分的 PPO 简化版；从多条答案里选相对好者做梯度	❌（可直接用可编程或启发式 Reward）	✔️ 但采样后用组内相对分数估 advantage；更省算	maximize relative reward (group baseline)	DeepSeek-R1、数学推理(medium.com, arxiv.org)

1. RLHF：标准三步曲

收集人类比较
训练 Reward Model (RM)
用 RL（常见是 PPO）优化策略，同时用 KL 约束维持与原模型的相似度。
- 优点：可以用任意可微奖励。
- 缺点：过程长、超参多、不稳定；RM 偏差会直接传递给策略。 (en.wikipedia.org)

2. PPO：RL 里的“工业标准”

Policy Gradient：直接对 πθ 拿梯度。
Clip/Adaptive KL：把 r = πθ(a|s)/π_old(a|s) 裁剪到 [1-ε,1+ε]，避免一步走太远导致发散。(en.wikipedia.org)
在 RLHF 中，PPO 充当 “第三步” 的优化器。

3. DPO：不用 RL 的偏好对齐

观察：KL 正则 + 奖励最大化的 RLHF 目标可转换成
max⁡θ log⁡σ ⁣(β [log⁡πθ(ygood)−log⁡πθ(ybad)])
——一个 二分类交叉熵；β≈1/温度。
步骤：直接在（prompt, preferred, dispreferred）三元组上最小化上式即可。
无 RM、无环境采样、无 critic；训练像普通 SFT 一样简单，速度快，效果与 RLHF 接近甚至更好。(arxiv.org)

4. GRPO：去 critic、用组内排序的 PPO 轻量化

动机：PPO 要估 Advantage，需要价值函数（critic）；对 LLM 长序列推理既耗显存又不稳。
做法
1. 对每个 prompt 采样 k 个回答（组）。
2. 用编写的或 LLM-based reward 对每条回答打分。
3. 把组内 分数减组均值 当 Advantage，直接做 PPO-Clip 更新 —— 省掉 critic。
特性：
- 仍然是在线 RL；但 不训练价值网络，显存 -50 % 以上。
- 适合需要采样多条长解链的“深度推理”场景（DeepSeekMath、DeepSeek-R1）。(medium.com, arxiv.org)

关系与区别小结

RLHF 是 总流程；PPO、GRPO 是它可选的 RL 优化器。
DPO 则是把“RLHF + PPO”替换成一次性监督损失——最轻量且纯离线。
GRPO 介于 DPO 和 PPO 之间：保留在线改进，但通过“组相对评分”省掉 critic，比 PPO 更省算、更稳，又比 DPO 多了探索能力。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

所有评论(0)

查看更多评论

周贵超

已为社区贡献1条内容