Deepseek-R1模型与GRPO原理详解

︶ㄣ释然

842人浏览 · 2025-03-02 14:47:19

︶ㄣ释然 · 2025-03-02 14:47:19 发布

文章目录

1、大模型发展概述
2、背景与核心思想
3、大模型训练的"三高"挑战
4、Deepseek的技术路线
5、后训练(Post-training)的重要性
6、大模型发展趋势
7、R1-Zero模型解析
8、GRPO损失函数详解
9、R1模型的创新
10、知识蒸馏的争议与本质
11、普通人的学习与创新路径
12、总结

🍃作者介绍：双非本科大四网络工程专业在读，阿里云专家博主，前三年专注于Java领域学习，擅长web应用开发，目前已转行人工智能领域。
🦅个人主页：@逐梦苍穹
📕所属专栏：人工智能
🌻gitee地址：xzl的人工智能代码仓库
✈ 您的一键三连，是我创作的最大动力🌹

1、大模型发展概述

大语言模型从2017年谷歌提出Transformer结构开始发展，本质上是深度学习的一种应用。

通过堆叠多层网络结构实现神经网络参数的扩充，现代大模型如GPT-4已能达到1.8万亿参数的规模。

早期大语言模型主要有三条技术路线：

只用encoder的Bert路线
只用decoder的GPT路线
两者都用的T5路线

这些模型基本都是基于预训练加微调的范式，局限在深度学习范畴内。

无论是完全监督还是自监督，都基于预训练加微调的方式。

2、背景与核心思想

DeepSeek-R1 是深度强化学习（DRL）技术路线的重要突破，其核心在于通过强化学习优化模型的推理能力，而非依赖传统深度学习的“堆数据+微调”范式。该模型解决了大模型训练中的“三高难题”（数据质量高、参数规模高、算力要求高），并通过奖励工程和策略优化，实现了模型能力的螺旋式提升。

技术路线演进

预训练瓶颈
- 传统大模型（如 GPT-4）依赖 Transformer 架构的堆叠，通过海量数据和算力预训练实现能力提升，但成本高昂且边际效益递减。
- DeepSeek 的 V3 模型通过架构改进（多头潜空间注意力、混合专家模型 MOE）优化训练效率，但真正突破来自 R1 的后训练机制。
后训练革命：从 SFT 到强化学习
- SFT（监督微调）：依赖人工标注数据，模型仅能机械模仿，泛化能力有限。
- RLAIF（基于 AI 反馈的强化学习）：通过规则化奖励函数（如数学解题模板）引导模型探索，实现“自主推理”。
- R1 的双螺旋结构：
  - 冷启动：用 SFT 生成高质量初始策略（如编程、数学问题的标准解题步骤）。
  - 强化学习迭代：通过 GRPO 算法优化策略，生成新数据后二次筛选并微调，形成“推理能力提升→数据质量提升”的正循环。

3、大模型训练的"三高"挑战

预训练面临三个高要求：

数据集要求高
网络模型参数规模要求高
算力要求高（需要数万GPU卡）

这"三高"是制约AI竞争的核心因素。

虽然早期存在"scaling rule"（尺度定律），即模型越大，表征能力越强，但当模型规模达到一定程度后（如GPT-4的120层、1.8万亿参数，训练成本6300万美元），这种简单扩大规模的方法不再高效。

4、Deepseek的技术路线

Deepseek在2024年5月发布了V3模型，主要贡献体现在预训练架构上：

多头潜空间注意力(MLA, Multi-head Latent Attention)
新的混合专家模型(MOE)

同时Deepseek也开始走强化学习路线，推出了R1-Zero和R1模型。

这类似于OpenAI从GPT到o1的技术发展路径，体现了从纯深度学习转向深度强化学习的趋势。

5、后训练(Post-training)的重要性

后训练是对已训练好的模型进行调整或优化，目的是提升推理任务准确性，适应用户偏好。

后训练相比预训练，使用的GPU和数据都少得多，但可以达到"四两拨千斤"的效果。

后训练主要有三种典型形式：

SFT (Supervised Fine-Tuning)：监督式微调，需要额外的人工标注数据
RLHF (Reinforcement Learning from Human Feedback)：基于人类反馈的强化学习
后来的R1系列：更先进的强化学习方法

另外还有知识蒸馏，它是用大模型提供的知识来微调小模型，让小模型逼近大模型的表现。

6、大模型发展趋势

可得出两个关键结论：

基于深度学习的LLM经过快速发展后进入瓶颈，而深度强化学习(DRL)开始展现优势
短平快的后训练/后处理变得越来越重要，甚至可以反向改进预训练效果

7、R1-Zero模型解析

R1-Zero是一个"纯强化学习的懒人模型"：

不依赖大量人工收集和标注的数据
验证了"只用动脑子"可以超越传统的数据收集+SFT方式
本质上是强化学习和深度学习的比拼
是一种交互式认知行为学对机械式模仿学习的胜利

8、GRPO损失函数详解

R1-Zero使用GPRO (Group Relative Policy Optimization)，是PPO的一种改进版。

核心损失函数如下：

$J_{\text{GRPO}}(\theta) = E_{[q \sim \mathcal{P}(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta \, \text{old}}(O|q)] } \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)} A_i, \, \text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) A_i \right) - \beta D_{\text{KL}} (\pi_\theta || \pi_{\text{ref}}) \right), D_{\text{KL}}(\pi_{\text{old}} \parallel \pi_{\text{ref}}) = \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\text{old}}(o_i|q)} - \log \left( \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\text{old}}(o_i|q)} \right) - 1$

其中：

$r(\theta)=\frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)}$ 是策略比值，新旧策略的比较
$A_i$ 是优势函数(Advantage)，基于规则模板（如数学题的分步推理格式），对答案的准确性、逻辑连贯性、语言一致性打分
$\text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right)$ 是裁剪函数，限制策略变化的范围
$D_{\text{KL}}(\pi_{\text{old}} \parallel \pi_{\text{ref}})$ 是KL散度，限制与参考策略的偏离程度

这个损失函数可以比喻为"开车"：

$r(\theta)A_i$ 是"油门"：推动策略往好的方向更新
clip函数是"刹车"：防止策略变化过大，保持稳定
KL项是"方向盘"：由老师傅指导，确保不偏离正确方向

这样设计的目的是稳定策略优化过程，防止策略更新过大过快，确保训练稳定性。

9、R1模型的创新

R1模型相比R1-Zero，有两个核心创新：

采用了两次强化学习，形成循环迭代
使用了SFT作为训练的起点，不再是纯强化学习

这种设计成为承前启后的重要模型，不仅可以提升自身V3模型，还可以通过蒸馏提升其他大模型，包括Llama、千问等。

10、知识蒸馏的争议与本质

蒸馏原理：用 R1 生成的高质量数据微调小模型，使其“继承”大模型能力。
争议点：数据是否包含 OpenAI 的合成数据暂无定论，但技术本质在于数据质量，而非蒸馏本身。
核心结论：蒸馏是锦上添花，R1 的强化学习路线才是颠覆性创新。

11、普通人的学习与创新路径

技术方向选择
- 放弃传统LLM赛道：预训练与微调领域已高度内卷，需转向深度强化学习（DRL）。
- 核心技能：策略优化（如PPO/GRPO）、奖励函数设计、动态环境建模。
细分领域创新机会
- 规则模板设计：
  - 医疗诊断：定义“症状分析→检查建议→治疗方案”的推理链。
  - 法律文书：构建“案情梳理→法律依据→判决建议”的生成模板。
- 低成本实践：复现R1训练流程（如Hugging Face开源项目），积累调参经验。
学习路径建议
- 基础三阶段：
  1. 机器学习：掌握分类、回归、聚类基础。
  2. 深度学习：深入理解Transformer、注意力机制、微调技术。
  3. 强化学习：学习马尔可夫决策过程（MDP）、Q-learning、PPO算法。
- 实践项目：
  - 从简单CartPole游戏入手，实现PPO算法。
  - 尝试用GRPO优化开源对话模型（如ChatGLM）。

12、总结

Deepseek-R1的成功代表了大模型发展的新方向—深度强化学习路线。

它通过精心设计的损失函数和两次强化学习迭代，突破了传统深度学习的瓶颈，开辟了一条新的技术路径。

这对于未来AI学习的三部曲（机器学习→深度学习→强化学习）提供了有力证明。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

DeepSeek-R1 + 本地知识库解决方案

DeepSeek技术社区

DeepSeek【部署 03】客户端应用ChatBox、AnythingLLM及OpenWebUI部署使用详细步骤

DeepSeek 客户端应用ChatBox、AnythingLLM及OpenWebUI部署使用详细步骤

DeepSeek技术社区

清华大学 DeepSeek 1-6 版全资料惊艳首发，速点解锁 AI 秘境

带你全面了解DeepSeek，从基础概念、核心功能，到工具安装、环境配置，再到基础操作、交互界面解析，最后深入到定制化模型与参数优化，还有丰富的案例实战，助你快速上手。DeepSeek资料库链接：https://pan.quark.cn/s/7b94dc240bea。链接：https://pan.quark.cn/s/df8ce3ea6f4e。链接：https://pan.quark.cn/s/7