下面把 4 个常见名词放到一张逻辑链里:

名称 全称 一句话核心 是否先学奖励模型 是否在线 RL 采样 主要优化目标 典型用途
RLHF Reinforcement Learning from Human Feedback 框架:“比较 ➜ 训练奖励模型 ➜ RL 优化政策” ✔️ 需要(用人类比较数据训练)(en.wikipedia.org) ✔️ 多用 PPO 做在线 roll-out 最大化人类偏好奖励,同时约束 KL GPT-4、ChatGPT 对齐
PPO Proximal Policy Optimization 一种 稳定的策略梯度算法:用 clip 或 KL-penalty 做“信赖域”限制 -(算法层面不管奖励来源) ✔️ 典型 on-policy RL,需反复采样(en.wikipedia.org) maximize clipped surrogate 机器人控制、RLHF 第二阶段
DPO Direct Preference Optimization 把偏好学习转成 简单分类损失:直接用“好 / 差”对成对训练 ❌ 不需要单独奖励模型;直接把 LM 当做隐式 reward model(arxiv.org) ❌ 纯离线;不采样、不算 advantage 最大化首选-劣选 log-odds 轻量对齐(SFT→DPO)
GRPO Group Relative Policy Optimization 无 critic、按组相对得分 的 PPO 简化版;从多条答案里选相对好者做梯度 ❌(可直接用可编程或启发式 Reward) ✔️ 但采样后 用组内相对分数 估 advantage;更省算 maximize relative reward (group baseline) DeepSeek-R1、数学推理(medium.comarxiv.org)

1. RLHF:标准三步曲

  1. 收集人类比较

  2. 训练 Reward Model (RM)

  3. 用 RL(常见是 PPO)优化策略,同时用 KL 约束维持与原模型的相似度。

    • 优点:可以用任意可微奖励。

    • 缺点:过程长、超参多、不稳定;RM 偏差会直接传递给策略。 (en.wikipedia.org)


2. PPO:RL 里的“工业标准”

  • Policy Gradient:直接对 πθ 拿梯度。

  • Clip/Adaptive KL:把 r = πθ(a|s)/π_old(a|s) 裁剪到 [1-ε,1+ε],避免一步走太远导致发散。(en.wikipedia.org)

  • 在 RLHF 中,PPO 充当 “第三步” 的优化器。


3. DPO:不用 RL 的偏好对齐

  • 观察:KL 正则 + 奖励最大化 的 RLHF 目标可转换成

    max⁡θ  log⁡σ ⁣(β [log⁡πθ(ygood)−log⁡πθ(ybad)])

    ——一个 二分类交叉熵;β≈1/温度。

  • 步骤:直接在(prompt, preferred, dispreferred)三元组上最小化上式即可。

  • 无 RM、无环境采样、无 critic;训练像普通 SFT 一样简单,速度快,效果与 RLHF 接近甚至更好。(arxiv.org)


4. GRPO:去 critic、用组内排序的 PPO 轻量化

  • 动机:PPO 要估 Advantage,需要价值函数(critic);对 LLM 长序列推理既耗显存又不稳。

  • 做法

    1. 对每个 prompt 采样 k 个回答(组)。

    2. 用编写的或 LLM-based reward 对每条回答打分。

    3. 把组内 分数减组均值 当 Advantage,直接做 PPO-Clip 更新 —— 省掉 critic。

  • 特性:

    • 仍然是在线 RL;但 不训练价值网络,显存 -50 % 以上。

    • 适合需要采样多条长解链的“深度推理”场景(DeepSeekMath、DeepSeek-R1)。(medium.comarxiv.org)


关系与区别小结

  • RLHF 是 总流程;PPO、GRPO 是它可选的 RL 优化器

  • DPO 则是把“RLHF + PPO”替换成一次性监督损失——最轻量且纯离线。

  • GRPO 介于 DPO 和 PPO 之间:保留在线改进,但通过“组相对评分”省掉 critic,比 PPO 更省算、更稳,又比 DPO 多了探索能力。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。