【词汇专栏】RLHF:ChatGPT 是怎么学会“听话“的?
RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)是一种通过人类评分来训练 AI "按照人类偏好行事"的技术,让模型不只是预测下一个词,还能学会"什么样的回答更受人类认可"。RLHF 是让 AI 从"文字预测机器"变成"有礼貌的助手"的关键——它不改变模型的知识,而是改变模型的"价值观",让它知道什么样的回答才算好。《微调 vs 预训
RLHF:ChatGPT 是怎么学会"听话"的?
同样的语言模型,为什么 GPT-2 会输出有害内容,而 ChatGPT 却温和友好、拒绝违规请求?这背后的关键技术,叫做 RLHF。
一句话定义
RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)是一种通过人类评分来训练 AI "按照人类偏好行事"的技术,让模型不只是预测下一个词,还能学会"什么样的回答更受人类认可"。
为什么需要 RLHF?
早期语言模型(如 GPT-2、GPT-3)有个根本问题:
它们只学会了"预测下一个词",没学会"什么是好的回答"。
这导致:
- 会生成有害、歧视性内容(因为这类内容在互联网上大量存在)
- 对指令的理解差("帮我写一首诗"可能给出偏题的内容)
- 会生成似是而非的错误信息(幻觉严重)
- 冗长啰嗦,不直接回答问题
OpenAI 研究员意识到:光靠"预测词",模型永远不会主动变得"对人有帮助"。
2022 年 1 月,OpenAI 发表论文《Training language models to follow instructions with human feedback》,提出了 RLHF 的完整框架,并应用于 InstructGPT。几个月后,ChatGPT 上线,RLHF 被全世界认识。
通俗类比:训狗 vs 给规则手册
传统预训练模型 = 给狗一本《狗的行为指南》手册
狗不会看手册,也不明白规则的意义,依然我行我素。
RLHF = 用零食奖励和轻推惩罚来训练狗
- 做了好行为(坐下、握手)→ 给零食 → 狗学会"这样做有好处"
- 做了坏行为(乱叫、咬人)→ 轻声制止 → 狗学会"这样做有坏处"
- 反复训练 → 狗的行为越来越符合人类期望
人类评分者的反馈,就是 AI 的"零食"。
技术层面:RLHF 三步走
第一步:监督微调(SFT,Supervised Fine-Tuning)
收集高质量的"问题-答案"对,由人类撰写或筛选,对模型进行初步微调。
输入:"帮我写一首关于秋天的诗"
理想输出:[人工撰写的优质诗歌]
→ 用这些数据微调模型,让它大致知道"好回答"是什么样的
第二步:训练奖励模型(Reward Model,RM)
让人类评分员对同一问题的多个 AI 回答进行排名:
问题:"如何做意大利面?"
回答 A:详细步骤,清晰易懂 → 人类打分:最好
回答 B:有步骤但不完整 → 人类打分:一般
回答 C:只说"去查菜谱" → 人类打分:最差
→ 用这些排名数据训练一个"评委 AI"(奖励模型)
→ 奖励模型学会:什么样的回答会获得人类高分
第三步:强化学习优化(PPO,Proximal Policy Optimization)
用奖励模型作为"评委",通过强化学习不断优化语言模型:
语言模型生成回答
↓
奖励模型打分(模拟人类评分)
↓
高分回答 → 增加这类回答的概率
低分回答 → 降低这类回答的概率
↓
反复迭代 → 模型越来越"讨人喜欢"
RLHF 的效果:有多显著?
OpenAI 的实验数据(InstructGPT 论文):
| 对比 | 结果 |
|---|---|
| InstructGPT(RLHF版,1.3B参数)vs GPT-3(原版,175B参数) | 人类更喜欢 InstructGPT 的比例:85% |
| 有害内容生成率下降 | 约 25% |
| 真实性提升 | 幻觉率下降约 20% |
结论:参数少 100 倍的模型,靠 RLHF 训练后,反而比更大的未对齐模型更受人类喜欢。
RLHF 的局限性
| 问题 | 描述 |
|---|---|
| 人类偏见 | 评分员自身有偏见,会被传递到模型中 |
| 讨好倾向 | 模型学会"说人类想听的话",而不是"说真实的话" |
| 过度安全 | 有时拒绝完全合理的请求(过于保守) |
| 成本高 | 需要大量人工标注,代价昂贵 |
| 评分不一致 | 不同评分员对"好回答"的标准不同 |
RLHF 的升级版:DPO、GRPO
RLHF 很有效,但训练流程复杂、成本高。研究者们开发了简化版本:
DPO(Direct Preference Optimization,直接偏好优化)
- 2023 年提出
- 跳过了"训练奖励模型"这一步,直接用人类偏好数据优化模型
- 更简单、更稳定,被 Llama 2、Mistral 等模型广泛使用
GRPO(Group Relative Policy Optimization)
- DeepSeek-R1 使用的核心技术
- 不需要人类反馈,用模型自己生成的多个答案互相比较
- 大幅降低对人工标注的依赖
- 让 DeepSeek 实现了低成本高性能的突破
在哪些产品中见到了 RLHF 的影子?
- ChatGPT / GPT-4:OpenAI 最早的大规模 RLHF 应用,"竖起大拇指/朝下"按钮的评分就是在收集反馈
- Claude:Anthropic 的 Constitutional AI = RLHF + AI 自我批评,更进一步
- Gemini:Google 的对话 AI,也使用了人类反馈对齐
- DeepSeek-R1:用 GRPO 代替传统 RLHF,无需大量人工标注
常见误区
| 误区 | 真相 |
|---|---|
| “RLHF 让 AI 变得更聪明了” | ❌ RLHF 让 AI 变得更"听话",不是更聪明,知识量没有增加 |
| “RLHF = 训练 AI 服从命令” | ⚠️ 更准确地说,是让 AI 学会"对人类有帮助、无害、诚实" |
| “有了 RLHF 就没有幻觉了” | ❌ RLHF 减少了"无益回答",对幻觉有改善但无法根除 |
| “评分越多,模型越好” | ⚠️ 评分质量比数量更重要,差的反馈数据反而有害 |
易混淆词辨析
- RLHF vs 强化学习(RL):RL 是一大类技术,RLHF 是其中一种,专门用人类反馈作为奖励信号
- RLHF vs 监督学习(SL):SL 有明确的"正确答案",RLHF 的反馈是"相对偏好"(A比B好),更难量化
- RLHF vs Constitutional AI:Constitutional AI(Anthropic)是 RLHF 的改进版,用 AI 自我检查代替部分人工反馈
一句话总结
RLHF 是让 AI 从"文字预测机器"变成"有礼貌的助手"的关键——它不改变模型的知识,而是改变模型的"价值观",让它知道什么样的回答才算好。
标签:#AI术语 #RLHF #强化学习 #ChatGPT #AI对齐 #InstructGPT
更多推荐



所有评论(0)