【词汇专栏】RLHF：ChatGPT 是怎么学会“听话“的？

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）是一种通过人类评分来训练 AI "按照人类偏好行事"的技术，让模型不只是预测下一个词，还能学会"什么样的回答更受人类认可"。RLHF 是让 AI 从"文字预测机器"变成"有礼貌的助手"的关键——它不改变模型的知识，而是改变模型的"价值观"，让它知道什么样的回答才算好。《微调 vs 预训

孤岛站岗

380人浏览 · 2026-04-10 14:26:39

孤岛站岗 · 2026-04-10 14:26:39 发布

RLHF：ChatGPT 是怎么学会"听话"的？

同样的语言模型，为什么 GPT-2 会输出有害内容，而 ChatGPT 却温和友好、拒绝违规请求？这背后的关键技术，叫做 RLHF。

一句话定义

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）是一种通过人类评分来训练 AI "按照人类偏好行事"的技术，让模型不只是预测下一个词，还能学会"什么样的回答更受人类认可"。

为什么需要 RLHF？

早期语言模型（如 GPT-2、GPT-3）有个根本问题：

它们只学会了"预测下一个词"，没学会"什么是好的回答"。

这导致：

会生成有害、歧视性内容（因为这类内容在互联网上大量存在）
对指令的理解差（"帮我写一首诗"可能给出偏题的内容）
会生成似是而非的错误信息（幻觉严重）
冗长啰嗦，不直接回答问题

OpenAI 研究员意识到：光靠"预测词"，模型永远不会主动变得"对人有帮助"。

2022 年 1 月，OpenAI 发表论文《Training language models to follow instructions with human feedback》，提出了 RLHF 的完整框架，并应用于 InstructGPT。几个月后，ChatGPT 上线，RLHF 被全世界认识。

通俗类比：训狗 vs 给规则手册

传统预训练模型 = 给狗一本《狗的行为指南》手册
狗不会看手册，也不明白规则的意义，依然我行我素。

RLHF = 用零食奖励和轻推惩罚来训练狗

做了好行为（坐下、握手）→ 给零食 → 狗学会"这样做有好处"
做了坏行为（乱叫、咬人）→ 轻声制止 → 狗学会"这样做有坏处"
反复训练 → 狗的行为越来越符合人类期望

人类评分者的反馈，就是 AI 的"零食"。

技术层面：RLHF 三步走

第一步：监督微调（SFT，Supervised Fine-Tuning）

收集高质量的"问题-答案"对，由人类撰写或筛选，对模型进行初步微调。

输入："帮我写一首关于秋天的诗"
理想输出：[人工撰写的优质诗歌]

→ 用这些数据微调模型，让它大致知道"好回答"是什么样的

第二步：训练奖励模型（Reward Model，RM）

让人类评分员对同一问题的多个 AI 回答进行排名：

问题："如何做意大利面？"
回答 A：详细步骤，清晰易懂  → 人类打分：最好
回答 B：有步骤但不完整        → 人类打分：一般
回答 C：只说"去查菜谱"      → 人类打分：最差

→ 用这些排名数据训练一个"评委 AI"（奖励模型）
→ 奖励模型学会：什么样的回答会获得人类高分

第三步：强化学习优化（PPO，Proximal Policy Optimization）

用奖励模型作为"评委"，通过强化学习不断优化语言模型：

语言模型生成回答
    ↓
奖励模型打分（模拟人类评分）
    ↓
高分回答 → 增加这类回答的概率
低分回答 → 降低这类回答的概率
    ↓
反复迭代 → 模型越来越"讨人喜欢"

RLHF 的效果：有多显著？

OpenAI 的实验数据（InstructGPT 论文）：

对比	结果
InstructGPT（RLHF版，1.3B参数）vs GPT-3（原版，175B参数）	人类更喜欢 InstructGPT 的比例：85%
有害内容生成率下降	约 25%
真实性提升	幻觉率下降约 20%

结论：参数少 100 倍的模型，靠 RLHF 训练后，反而比更大的未对齐模型更受人类喜欢。

RLHF 的局限性

问题	描述
人类偏见	评分员自身有偏见，会被传递到模型中
讨好倾向	模型学会"说人类想听的话"，而不是"说真实的话"
过度安全	有时拒绝完全合理的请求（过于保守）
成本高	需要大量人工标注，代价昂贵
评分不一致	不同评分员对"好回答"的标准不同

RLHF 的升级版：DPO、GRPO

RLHF 很有效，但训练流程复杂、成本高。研究者们开发了简化版本：

DPO（Direct Preference Optimization，直接偏好优化）

2023 年提出
跳过了"训练奖励模型"这一步，直接用人类偏好数据优化模型
更简单、更稳定，被 Llama 2、Mistral 等模型广泛使用

GRPO（Group Relative Policy Optimization）

DeepSeek-R1 使用的核心技术
不需要人类反馈，用模型自己生成的多个答案互相比较
大幅降低对人工标注的依赖
让 DeepSeek 实现了低成本高性能的突破

在哪些产品中见到了 RLHF 的影子？

ChatGPT / GPT-4：OpenAI 最早的大规模 RLHF 应用，"竖起大拇指/朝下"按钮的评分就是在收集反馈
Claude：Anthropic 的 Constitutional AI = RLHF + AI 自我批评，更进一步
Gemini：Google 的对话 AI，也使用了人类反馈对齐
DeepSeek-R1：用 GRPO 代替传统 RLHF，无需大量人工标注

常见误区

误区	真相
“RLHF 让 AI 变得更聪明了”	❌ RLHF 让 AI 变得更"听话"，不是更聪明，知识量没有增加
“RLHF = 训练 AI 服从命令”	⚠️ 更准确地说，是让 AI 学会"对人类有帮助、无害、诚实"
“有了 RLHF 就没有幻觉了”	❌ RLHF 减少了"无益回答"，对幻觉有改善但无法根除
“评分越多，模型越好”	⚠️ 评分质量比数量更重要，差的反馈数据反而有害

易混淆词辨析

RLHF vs 强化学习（RL）：RL 是一大类技术，RLHF 是其中一种，专门用人类反馈作为奖励信号
RLHF vs 监督学习（SL）：SL 有明确的"正确答案"，RLHF 的反馈是"相对偏好"（A比B好），更难量化
RLHF vs Constitutional AI：Constitutional AI（Anthropic）是 RLHF 的改进版，用 AI 自我检查代替部分人工反馈