RLHF:ChatGPT 是怎么学会"听话"的?

同样的语言模型,为什么 GPT-2 会输出有害内容,而 ChatGPT 却温和友好、拒绝违规请求?这背后的关键技术,叫做 RLHF。


一句话定义

RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)是一种通过人类评分来训练 AI "按照人类偏好行事"的技术,让模型不只是预测下一个词,还能学会"什么样的回答更受人类认可"。


为什么需要 RLHF?

早期语言模型(如 GPT-2、GPT-3)有个根本问题:

它们只学会了"预测下一个词",没学会"什么是好的回答"。

这导致:

  • 会生成有害、歧视性内容(因为这类内容在互联网上大量存在)
  • 对指令的理解差("帮我写一首诗"可能给出偏题的内容)
  • 会生成似是而非的错误信息(幻觉严重)
  • 冗长啰嗦,不直接回答问题

OpenAI 研究员意识到:光靠"预测词",模型永远不会主动变得"对人有帮助"。

2022 年 1 月,OpenAI 发表论文《Training language models to follow instructions with human feedback》,提出了 RLHF 的完整框架,并应用于 InstructGPT。几个月后,ChatGPT 上线,RLHF 被全世界认识。


通俗类比:训狗 vs 给规则手册

传统预训练模型 = 给狗一本《狗的行为指南》手册
狗不会看手册,也不明白规则的意义,依然我行我素。

RLHF = 用零食奖励和轻推惩罚来训练狗

  • 做了好行为(坐下、握手)→ 给零食 → 狗学会"这样做有好处"
  • 做了坏行为(乱叫、咬人)→ 轻声制止 → 狗学会"这样做有坏处"
  • 反复训练 → 狗的行为越来越符合人类期望

人类评分者的反馈,就是 AI 的"零食"。


技术层面:RLHF 三步走

第一步:监督微调(SFT,Supervised Fine-Tuning)

收集高质量的"问题-答案"对,由人类撰写或筛选,对模型进行初步微调。

输入:"帮我写一首关于秋天的诗"
理想输出:[人工撰写的优质诗歌]

→ 用这些数据微调模型,让它大致知道"好回答"是什么样的

第二步:训练奖励模型(Reward Model,RM)

让人类评分员对同一问题的多个 AI 回答进行排名:

问题:"如何做意大利面?"
回答 A:详细步骤,清晰易懂  → 人类打分:最好
回答 B:有步骤但不完整        → 人类打分:一般
回答 C:只说"去查菜谱"      → 人类打分:最差

→ 用这些排名数据训练一个"评委 AI"(奖励模型)
→ 奖励模型学会:什么样的回答会获得人类高分

第三步:强化学习优化(PPO,Proximal Policy Optimization)

用奖励模型作为"评委",通过强化学习不断优化语言模型:

语言模型生成回答
    ↓
奖励模型打分(模拟人类评分)
    ↓
高分回答 → 增加这类回答的概率
低分回答 → 降低这类回答的概率
    ↓
反复迭代 → 模型越来越"讨人喜欢"

RLHF 的效果:有多显著?

OpenAI 的实验数据(InstructGPT 论文):

对比 结果
InstructGPT(RLHF版,1.3B参数)vs GPT-3(原版,175B参数) 人类更喜欢 InstructGPT 的比例:85%
有害内容生成率下降 25%
真实性提升 幻觉率下降约 20%

结论:参数少 100 倍的模型,靠 RLHF 训练后,反而比更大的未对齐模型更受人类喜欢。


RLHF 的局限性

问题 描述
人类偏见 评分员自身有偏见,会被传递到模型中
讨好倾向 模型学会"说人类想听的话",而不是"说真实的话"
过度安全 有时拒绝完全合理的请求(过于保守)
成本高 需要大量人工标注,代价昂贵
评分不一致 不同评分员对"好回答"的标准不同

RLHF 的升级版:DPO、GRPO

RLHF 很有效,但训练流程复杂、成本高。研究者们开发了简化版本:

DPO(Direct Preference Optimization,直接偏好优化)

  • 2023 年提出
  • 跳过了"训练奖励模型"这一步,直接用人类偏好数据优化模型
  • 更简单、更稳定,被 Llama 2、Mistral 等模型广泛使用

GRPO(Group Relative Policy Optimization)

  • DeepSeek-R1 使用的核心技术
  • 不需要人类反馈,用模型自己生成的多个答案互相比较
  • 大幅降低对人工标注的依赖
  • 让 DeepSeek 实现了低成本高性能的突破

在哪些产品中见到了 RLHF 的影子?

  • ChatGPT / GPT-4:OpenAI 最早的大规模 RLHF 应用,"竖起大拇指/朝下"按钮的评分就是在收集反馈
  • Claude:Anthropic 的 Constitutional AI = RLHF + AI 自我批评,更进一步
  • Gemini:Google 的对话 AI,也使用了人类反馈对齐
  • DeepSeek-R1:用 GRPO 代替传统 RLHF,无需大量人工标注

常见误区

误区 真相
“RLHF 让 AI 变得更聪明了” ❌ RLHF 让 AI 变得更"听话",不是更聪明,知识量没有增加
“RLHF = 训练 AI 服从命令” ⚠️ 更准确地说,是让 AI 学会"对人类有帮助、无害、诚实"
“有了 RLHF 就没有幻觉了” ❌ RLHF 减少了"无益回答",对幻觉有改善但无法根除
“评分越多,模型越好” ⚠️ 评分质量比数量更重要,差的反馈数据反而有害

易混淆词辨析

  • RLHF vs 强化学习(RL):RL 是一大类技术,RLHF 是其中一种,专门用人类反馈作为奖励信号
  • RLHF vs 监督学习(SL):SL 有明确的"正确答案",RLHF 的反馈是"相对偏好"(A比B好),更难量化
  • RLHF vs Constitutional AI:Constitutional AI(Anthropic)是 RLHF 的改进版,用 AI 自我检查代替部分人工反馈

一句话总结

RLHF 是让 AI 从"文字预测机器"变成"有礼貌的助手"的关键——它不改变模型的知识,而是改变模型的"价值观",让它知道什么样的回答才算好。


下一篇:《微调 vs 预训练:傻傻分不清楚?》


标签#AI术语 #RLHF #强化学习 #ChatGPT #AI对齐 #InstructGPT

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐