最近DeepSeek爆火,其训练的过程也引起了大家的广泛关注,特别是其中的RLHF过程,本文旨在用通俗易懂的语言,介绍一下什么是RLHF,其与传统的RL(强化学习)的区别什么,以及DeepSeek的RLHF有什么特别之处。

传统的强化学习(RL)是什么?

想象你养了一只小狗,教它坐下。如果它做对了,你给它零食(奖励);做错了,就不给(惩罚)。通过反复试错,小狗会学会“坐下”这个动作。
传统强化学习(RL)的原理类似:AI模型(比如机器人或游戏AI)通过与环境互动,根据预设的奖励规则(比如游戏得分)不断调整自己的行为,目标是最大化累积奖励。
最经典的例子就是之前战胜人类围棋冠军的AlphaGo,其训练过程就是在下围棋时,每走一步会根据胜率计算奖励,最终目标是赢棋。

RLHF(基于人类反馈的强化学习)是什么?

RLHF全称是Reinforcement Learning from Human Feedback,也就是基于人类反馈的强化学习。传统强化学习通常根据预设的奖励函数来调整策略,以最大化累积奖励。但是这样所带来的缺点是,奖励规则需要人为提前设定,但很多任务(比如让AI写诗或聊天)很难用简单的规则定义“好”或“坏”。
于是,人们想到:直接让人类来告诉AI什么是好的。这就是RLHF的核心思想。
具体的步骤如下:

  1. 预训练:AI先通过大量文本学习基本语言能力(比如ChatGPT预训练)。
  2. 人类反馈:人类对AI生成的多个答案打分或排序(比如“答案A比答案B更好”)。
  3. 训练奖励模型:用这些反馈数据训练一个“评分AI”(奖励模型),让它学会模仿人类的偏好。
  4. 强化学习优化:AI根据奖励模型的评分,调整生成策略,输出更符合人类偏好的结果。

举个栗子🌰:
如果让AI写笑话,传统RL可能根据“是否押韵”来评分,但RLHF会让人类评判笑话是否“好笑”,再用这些反馈训练AI。

DeepSeek的RLHF有什么特别之处?

RLHF虽然解决了传统强化学习的一大痛点,但同时也带来了另一个问题:人为依赖。DeepSeek在训练中创新性地优化了传统RLHF,主要体现为两点:

  1. 用规则替代部分人类反馈:
    在部分任务(比如数学题)中,答案正确性可以直接用规则判断(比如代码是否能通过测试用例)。DeepSeek设计了GRPO算法,通过预定义规则(如答案准确性、格式规范性)自动生成奖励,减少对人类标注的依赖。这样做的优点是节省成本,避免人类主观偏差。
  2. 纯强化学习尝试:
    在DeepSeek-R1-Zero模型中,直接跳过了传统RLHF中的“监督微调”阶段,仅通过强化学习让模型自主进化推理能力,发现这也能让模型学会复杂推理步骤。

RLHF和传统RL的核心区别

对比维度 传统RL RLHF
奖励来源 预设的明确规则(如游戏得分) 人类反馈或模仿人类偏好的奖励模型
适用场景 规则清晰的任务(游戏、机器人控制) 复杂、主观的任务(写作、对话)
成本 依赖环境模拟,算力成本高 依赖人类标注,人力成本高
灵活性 受限于预设规则 更贴近人类主观判断

为什么RLHF对DeepSeek重要?

  • 解决复杂任务:RLHF让模型学会处理需要人类主观判断的任务(比如生成符合逻辑的数学推理步骤。

  • 降低标注成本:通过规则和自动化反馈(如GRPO),DeepSeek减少了依赖人工标注的需求,训练成本仅为同类模型的1/10。

  • 推动AGI发展:RLHF被认为是实现通用人工智能(AGI)的关键路径,因为它让AI更贴近人类价值观和思维方式。

总的来说,传统RL像是一个严格按规则办事的学生,而RLHF更像是一个会参考老师意见的聪明学生。DeepSeek通过结合规则化奖励和强化学习的自主进化,既降低了成本,又提升了模型在复杂任务(如数学推理)中的表现。这种创新为AI的“类人化”学习提供了新思路

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐