什么是RLHF，为什么DeepSeek使用RLHF——白话AI

最近DeepSeek爆火，其训练的过程也引起了大家的广泛关注，特别是其中的RLHF过程，本文旨在用通俗易懂的语言，介绍一下什么是RLHF，其与传统的RL(强化学习)的区别什么，以及DeepSeek的RLHF有什么特别之处。

Silly_Master

1080人浏览 · 2025-03-18 13:53:16

Silly_Master · 2025-03-18 13:53:16 发布

传统的强化学习（RL）是什么？

想象你养了一只小狗，教它坐下。如果它做对了，你给它零食（奖励）；做错了，就不给（惩罚）。通过反复试错，小狗会学会“坐下”这个动作。
传统强化学习（RL）的原理类似：AI模型（比如机器人或游戏AI）通过与环境互动，根据预设的奖励规则（比如游戏得分）不断调整自己的行为，目标是最大化累积奖励。
最经典的例子就是之前战胜人类围棋冠军的AlphaGo，其训练过程就是在下围棋时，每走一步会根据胜率计算奖励，最终目标是赢棋。

RLHF（基于人类反馈的强化学习）是什么？

RLHF全称是Reinforcement Learning from Human Feedback，也就是基于人类反馈的强化学习。传统强化学习通常根据预设的奖励函数来调整策略，以最大化累积奖励。但是这样所带来的缺点是，奖励规则需要人为提前设定，但很多任务（比如让AI写诗或聊天）很难用简单的规则定义“好”或“坏”。
于是，人们想到：直接让人类来告诉AI什么是好的。这就是RLHF的核心思想。
具体的步骤如下：

预训练：AI先通过大量文本学习基本语言能力（比如ChatGPT预训练）。
人类反馈：人类对AI生成的多个答案打分或排序（比如“答案A比答案B更好”）。
训练奖励模型：用这些反馈数据训练一个“评分AI”（奖励模型），让它学会模仿人类的偏好。
强化学习优化：AI根据奖励模型的评分，调整生成策略，输出更符合人类偏好的结果。

举个栗子🌰：
如果让AI写笑话，传统RL可能根据“是否押韵”来评分，但RLHF会让人类评判笑话是否“好笑”，再用这些反馈训练AI。

DeepSeek的RLHF有什么特别之处？

RLHF虽然解决了传统强化学习的一大痛点，但同时也带来了另一个问题：人为依赖。DeepSeek在训练中创新性地优化了传统RLHF，主要体现为两点：

用规则替代部分人类反馈：
在部分任务（比如数学题）中，答案正确性可以直接用规则判断（比如代码是否能通过测试用例）。DeepSeek设计了GRPO算法，通过预定义规则（如答案准确性、格式规范性）自动生成奖励，减少对人类标注的依赖。这样做的优点是节省成本，避免人类主观偏差。
纯强化学习尝试：
在DeepSeek-R1-Zero模型中，直接跳过了传统RLHF中的“监督微调”阶段，仅通过强化学习让模型自主进化推理能力，发现这也能让模型学会复杂推理步骤。

RLHF和传统RL的核心区别

对比维度	传统RL	RLHF
奖励来源	预设的明确规则（如游戏得分）	人类反馈或模仿人类偏好的奖励模型
适用场景	规则清晰的任务（游戏、机器人控制）	复杂、主观的任务（写作、对话）
成本	依赖环境模拟，算力成本高	依赖人类标注，人力成本高
灵活性	受限于预设规则	更贴近人类主观判断