DeepSeek-R1技术梳理笔记&知识点解读：GPRO，思维链CoT，拒绝采样

DeepSeek-R1技术要点整理知识点解读：GPRO，思维链CoT，拒绝采样

xying_chloe · 2025-02-15 11:43:13 发布

【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】

0. 上期DeepSeek-V3笔记

提出的两个模型 & 探究的问题：
- DeepSeek-R1-Zero：不用监督微调(SFT)，如何只通过强化学习提升大模型推理能力？
- DeepSeek-R1：如何在强化学习前进行微调，来提升性能和稳定性？
  
  （ps：DeepSeek-R1是这整个技术的名字，下面又分成两个模型DeepSeek-R1-Zero为基础模型，DeepSeek-R1为DeepSeek-R1-Zero的进阶拓展版）

强化学习算法：组相对策略优化 Group Relative Policy Optimization (GPRO)
【大模型的强化学习及GRPO解释见第二节⬇️】
- 使用相对比较组内样本的优化策略，而不是用传统的价值函数模型(Critic Model)【降低内存和计算开销】
- 对于每个问题，模型生成一组候选输出（不同条件的推断结果），用奖励模型打分
优势：适用复杂推理的任务，即使没有标注，也可以通过相对比较得到好的结果；并且可以自我反思和进化
缺陷：可读性差、多语言混合【因为没有冷启动，所以有下面DeepSeek-R1的改进】

一般大模型流程：先监督微调，再强化学习优化（常用近端策略优化算法 Proximal Policy Optimization, PPO）
强化学习是什么：让Agent在环境中通过试错学习，找到最优的行为策略，来最大化累积奖励【通过奖励引导Agent找到最优策略】
- 策略：指行为规则，在某个状态下应该采取什么动作
- 奖励：给Agent的反馈
- 优势函数：评估一个动作相对于平均表现的好坏（如果比平均表现好，就是正优势，反之为负优势），帮助Agent判断哪些动作值得学习
传统PPO算法：
- 核心：通过限制策略更新的幅度，提高训练稳定性（每次更新策略时，不要一下子改变太多）
- 实现步骤：收集数据（按照当前策略行动，收集行为和结果数据）→ 计算优势函数 → 更新策略（计算“更新方向”，把它裁到一个合理范围内，避免一次大更新而性能变差）
DeepSeek-R1的GRPO算法：
- 核心：对同一个问题，模型会生成多个不同的回答（一组），通过奖励模型打分，模型根据相对优势来优化自己的策略
- 实现步骤：准备数据（每个问题多回答）→ 奖励打分（是否符合特定格式、回答是否正确）→ 计算相对优势 → 优化模型（根据相对优势调整策略，加入KL散度正则化，防止更新过大）

什么是思维链：大模型在输出最终答案前，中间的推理过程
思维链的作用：逐步分解复杂问题【提升推理能力】；看到结果是怎么推理出来的【增强可解释性】
类型：
- Zero-Shot CoT：只给提示（比如“Let's think step by step”）
- Few-Shot CoT：给少量具体示例，再让模型输出