【如果笔记对你有帮助,欢迎关注&点赞&收藏,收到正反馈会加快更新!谢谢支持!】

目录

0. 上期DeepSeek-V3笔记

1. DeepSeek-R1 技术介绍

1.1 DeepSeek-R1-Zero:基础模型的强化学习

1.2 DeepSeek-R1:有冷启动的强化学习

1.3 蒸馏给其他模型

2. 大模型的强化学习及GPRO算法

3. 思维链 Chain-of-Thought (CoT)

4. 拒绝采样

DeepSeek-R1技术报告:


0. 上期DeepSeek-V3笔记

DeepSeek-V3技术梳理笔记&知识点解读:混合专家模型,训练精度-CSDN博客

1. DeepSeek-R1 技术介绍

  • 提出的两个模型 & 探究的问题:
    • DeepSeek-R1-Zero:不用监督微调(SFT),如何只通过强化学习提升大模型推理能力?
    • DeepSeek-R1:如何在强化学习前进行微调,来提升性能和稳定性?

      (ps:DeepSeek-R1是这整个技术的名字,下面又分成两个模型DeepSeek-R1-Zero为基础模型,DeepSeek-R1为DeepSeek-R1-Zero的进阶拓展版)

1.1 DeepSeek-R1-Zero:基础模型的强化学习

  • 强化学习算法:组相对策略优化 Group Relative Policy Optimization (GPRO)
    【大模型的强化学习及GRPO解释见第二节⬇️】
    • 使用相对比较组内样本的优化策略,而不是用传统的价值函数模型(Critic Model)【降低内存和计算开销】
    • 对于每个问题,模型生成一组候选输出(不同条件的推断结果),用奖励模型打分
  • 优势:适用复杂推理的任务,即使没有标注,也可以通过相对比较得到好的结果;并且可以自我反思和进化
  • 缺陷:可读性差、多语言混合【因为没有冷启动,所以有下面DeepSeek-R1的改进】

1.2 DeepSeek-R1:有冷启动的强化学习

  • 冷启动是什么:在强化学习前,对模型进行有监督微调(可以理解为给模型提供人为引导)
  • 微调使用的数据:思维链 Chain-of-Thought (CoT) 推理数据【引导输出格式,增强推理能力】【CoT解释见第三节⬇️】
  • 多阶段训练流程:
    • 冷启动(如上)
    • 面向推理的强化学习 (Reasoning-oriented):对冷启动微调后的模型做强化学习,训练数据为逻辑推理领域(如编程、数学等)
    • 拒绝采样和监督微调(SFT):通过拒绝采样创建新的 SFT 数据,结合其他监督数据(如写作、事实型问答和自我认知),重新训练模型
      【拒绝采样解释见第四节⬇️】
    • 面向所有场景的强化学习:考虑所有场景

1.3 蒸馏给其他模型

  • DeepSeek-R1(作为教师模型)可以将推理能力蒸馏给其他开源模型(如Qwen、Llama)中,提升模型性能

2. 大模型的强化学习及GPRO算法

  • 一般大模型流程:先监督微调,再强化学习优化(常用近端策略优化算法 Proximal Policy Optimization, PPO)
  • 强化学习是什么:让Agent在环境中通过试错学习,找到最优的行为策略,来最大化累积奖励【通过奖励引导Agent找到最优策略】
    • 策略:指行为规则,在某个状态下应该采取什么动作
    • 奖励:给Agent的反馈
    • 优势函数:评估一个动作相对于平均表现的好坏(如果比平均表现好,就是正优势,反之为负优势),帮助Agent判断哪些动作值得学习
  • 传统PPO算法:
    • 核心:通过限制策略更新的幅度,提高训练稳定性(每次更新策略时,不要一下子改变太多)
    • 实现步骤:收集数据(按照当前策略行动,收集行为和结果数据)→ 计算优势函数 → 更新策略(计算“更新方向”,把它裁到一个合理范围内,避免一次大更新而性能变差)
  • DeepSeek-R1的GRPO算法:
    • 核心:对同一个问题,模型会生成多个不同的回答(一组),通过奖励模型打分,模型根据相对优势来优化自己的策略
    • 实现步骤:准备数据(每个问题多回答)→ 奖励打分(是否符合特定格式、回答是否正确)→ 计算相对优势 → 优化模型(根据相对优势调整策略,加入KL散度正则化,防止更新过大)

3. 思维链 Chain-of-Thought (CoT)

  • 什么是思维链:大模型在输出最终答案前,中间的推理过程
  • 思维链的作用:逐步分解复杂问题【提升推理能力】;看到结果是怎么推理出来的【增强可解释性】
  • 类型:
    • Zero-Shot CoT:只给提示(比如“Let's think step by step”)
    • Few-Shot CoT:给少量具体示例,再让模型输出

4. 拒绝采样

  • 什么是拒绝采样:从复杂概率分布中生成样本的方法(直接采样困难)
  • 如何实现:通过简单的proposal分布来生成样本,根据规则决定是否接受样本 → 间接获得目标分布的样本
  • 步骤:选择proposal分布 → 生成样本 → 计算是否接受样本 → 如果拒绝,重复采样直到接受
  • 优点:不需要复杂数学推导,适用于各种任务

DeepSeek-R1技术报告:

https://arxiv.org/pdf/2501.12948

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐