
Deepseek-R1模型与GRPO原理详解
Deepseek-R1模型与GRPO原理详解
文章目录
🍃作者介绍:双非本科大四网络工程专业在读,阿里云专家博主,前三年专注于Java领域学习,擅长web应用开发,目前已转行人工智能领域。
🦅个人主页:@逐梦苍穹
📕所属专栏:人工智能
🌻gitee地址:xzl的人工智能代码仓库
✈ 您的一键三连,是我创作的最大动力🌹
1、大模型发展概述
大语言模型从2017年谷歌提出Transformer结构开始发展,本质上是深度学习的一种应用。
通过堆叠多层网络结构实现神经网络参数的扩充,现代大模型如GPT-4已能达到1.8万亿参数的规模。
早期大语言模型主要有三条技术路线:
- 只用encoder的Bert路线
- 只用decoder的GPT路线
- 两者都用的T5路线
这些模型基本都是基于预训练加微调的范式,局限在深度学习范畴内。
无论是完全监督还是自监督,都基于预训练加微调的方式。
2、背景与核心思想
DeepSeek-R1 是深度强化学习(DRL)技术路线的重要突破,其核心在于通过强化学习优化模型的推理能力,而非依赖传统深度学习的“堆数据+微调”范式。该模型解决了大模型训练中的“三高难题”(数据质量高、参数规模高、算力要求高),并通过奖励工程和策略优化,实现了模型能力的螺旋式提升。
技术路线演进
- 预训练瓶颈
- 传统大模型(如 GPT-4)依赖 Transformer 架构的堆叠,通过海量数据和算力预训练实现能力提升,但成本高昂且边际效益递减。
- DeepSeek 的 V3 模型通过架构改进(多头潜空间注意力、混合专家模型 MOE)优化训练效率,但真正突破来自 R1 的后训练机制。
- 后训练革命:从 SFT 到强化学习
- SFT(监督微调):依赖人工标注数据,模型仅能机械模仿,泛化能力有限。
- RLAIF(基于 AI 反馈的强化学习):通过规则化奖励函数(如数学解题模板)引导模型探索,实现“自主推理”。
- R1 的双螺旋结构:
- 冷启动:用 SFT 生成高质量初始策略(如编程、数学问题的标准解题步骤)。
- 强化学习迭代:通过 GRPO 算法优化策略,生成新数据后二次筛选并微调,形成“推理能力提升→数据质量提升”的正循环。
3、大模型训练的"三高"挑战
预训练面临三个高要求:
- 数据集要求高
- 网络模型参数规模要求高
- 算力要求高(需要数万GPU卡)
这"三高"是制约AI竞争的核心因素。
虽然早期存在"scaling rule"(尺度定律),即模型越大,表征能力越强,但当模型规模达到一定程度后(如GPT-4的120层、1.8万亿参数,训练成本6300万美元),这种简单扩大规模的方法不再高效。
4、Deepseek的技术路线
Deepseek在2024年5月发布了V3模型,主要贡献体现在预训练架构上:
- 多头潜空间注意力(MLA, Multi-head Latent Attention)
- 新的混合专家模型(MOE)
同时Deepseek也开始走强化学习路线,推出了R1-Zero和R1模型。
这类似于OpenAI从GPT到o1的技术发展路径,体现了从纯深度学习转向深度强化学习的趋势。
5、后训练(Post-training)的重要性
后训练是对已训练好的模型进行调整或优化,目的是提升推理任务准确性,适应用户偏好。
后训练相比预训练,使用的GPU和数据都少得多,但可以达到"四两拨千斤"的效果。
后训练主要有三种典型形式:
- SFT (Supervised Fine-Tuning):监督式微调,需要额外的人工标注数据
- RLHF (Reinforcement Learning from Human Feedback):基于人类反馈的强化学习
- 后来的R1系列:更先进的强化学习方法
另外还有知识蒸馏,它是用大模型提供的知识来微调小模型,让小模型逼近大模型的表现。
6、大模型发展趋势
可得出两个关键结论:
- 基于深度学习的LLM经过快速发展后进入瓶颈,而深度强化学习(DRL)开始展现优势
- 短平快的后训练/后处理变得越来越重要,甚至可以反向改进预训练效果
7、R1-Zero模型解析
R1-Zero是一个"纯强化学习的懒人模型":
- 不依赖大量人工收集和标注的数据
- 验证了"只用动脑子"可以超越传统的数据收集+SFT方式
- 本质上是强化学习和深度学习的比拼
- 是一种交互式认知行为学对机械式模仿学习的胜利
8、GRPO损失函数详解
R1-Zero使用GPRO (Group Relative Policy Optimization),是PPO的一种改进版。
核心损失函数如下:
J GRPO ( θ ) = E [ q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ old ( O ∣ q ) ] 1 G ∑ i = 1 G ( min ( π θ ( o i ∣ q ) π θ old ( o i ∣ q ) A i , clip ( π θ ( o i ∣ q ) π θ old ( o i ∣ q ) , 1 − ϵ , 1 + ϵ ) A i ) − β D KL ( π θ ∣ ∣ π ref ) ) , D KL ( π old ∥ π ref ) = π ref ( o i ∣ q ) π old ( o i ∣ q ) − log ( π ref ( o i ∣ q ) π old ( o i ∣ q ) ) − 1 J_{\text{GRPO}}(\theta) = E_{[q \sim \mathcal{P}(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta \, \text{old}}(O|q)] } \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)} A_i, \, \text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) A_i \right) - \beta D_{\text{KL}} (\pi_\theta || \pi_{\text{ref}}) \right), D_{\text{KL}}(\pi_{\text{old}} \parallel \pi_{\text{ref}}) = \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\text{old}}(o_i|q)} - \log \left( \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\text{old}}(o_i|q)} \right) - 1 JGRPO(θ)=E[q∼P(Q),{oi}i=1G∼πθold(O∣q)]G1∑i=1G(min(πθold(oi∣q)πθ(oi∣q)Ai,clip(πθold(oi∣q)πθ(oi∣q),1−ϵ,1+ϵ)Ai)−βDKL(πθ∣∣πref)),DKL(πold∥πref)=πold(oi∣q)πref(oi∣q)−log(πold(oi∣q)πref(oi∣q))−1
其中:
- r ( θ ) = π θ ( o i ∣ q ) π θ old ( o i ∣ q ) r(\theta)=\frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)} r(θ)=πθold(oi∣q)πθ(oi∣q)是策略比值,新旧策略的比较
- A i A_i Ai是优势函数(Advantage),基于规则模板(如数学题的分步推理格式),对答案的准确性、逻辑连贯性、语言一致性打分
- clip ( π θ ( o i ∣ q ) π θ old ( o i ∣ q ) , 1 − ϵ , 1 + ϵ ) \text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) clip(πθold(oi∣q)πθ(oi∣q),1−ϵ,1+ϵ)是裁剪函数,限制策略变化的范围
- D KL ( π old ∥ π ref ) D_{\text{KL}}(\pi_{\text{old}} \parallel \pi_{\text{ref}}) DKL(πold∥πref)是KL散度,限制与参考策略的偏离程度
这个损失函数可以比喻为"开车":
- r ( θ ) A i r(\theta)A_i r(θ)Ai是"油门":推动策略往好的方向更新
- clip函数是"刹车":防止策略变化过大,保持稳定
- KL项是"方向盘":由老师傅指导,确保不偏离正确方向
这样设计的目的是稳定策略优化过程,防止策略更新过大过快,确保训练稳定性。
9、R1模型的创新
R1模型相比R1-Zero,有两个核心创新:
- 采用了两次强化学习,形成循环迭代
- 使用了SFT作为训练的起点,不再是纯强化学习
这种设计成为承前启后的重要模型,不仅可以提升自身V3模型,还可以通过蒸馏提升其他大模型,包括Llama、千问等。
10、知识蒸馏的争议与本质
- 蒸馏原理:用 R1 生成的高质量数据微调小模型,使其“继承”大模型能力。
- 争议点:数据是否包含 OpenAI 的合成数据暂无定论,但技术本质在于数据质量,而非蒸馏本身。
- 核心结论:蒸馏是锦上添花,R1 的强化学习路线才是颠覆性创新。
11、普通人的学习与创新路径
- 技术方向选择
- 放弃传统LLM赛道:预训练与微调领域已高度内卷,需转向深度强化学习(DRL)。
- 核心技能:策略优化(如PPO/GRPO)、奖励函数设计、动态环境建模。
- 细分领域创新机会
- 规则模板设计:
- 医疗诊断:定义“症状分析→检查建议→治疗方案”的推理链。
- 法律文书:构建“案情梳理→法律依据→判决建议”的生成模板。
- 低成本实践:复现R1训练流程(如Hugging Face开源项目),积累调参经验。
- 规则模板设计:
- 学习路径建议
- 基础三阶段:
- 机器学习:掌握分类、回归、聚类基础。
- 深度学习:深入理解Transformer、注意力机制、微调技术。
- 强化学习:学习马尔可夫决策过程(MDP)、Q-learning、PPO算法。
- 实践项目:
- 从简单CartPole游戏入手,实现PPO算法。
- 尝试用GRPO优化开源对话模型(如ChatGLM)。
- 基础三阶段:
12、总结
Deepseek-R1的成功代表了大模型发展的新方向—深度强化学习路线。
它通过精心设计的损失函数和两次强化学习迭代,突破了传统深度学习的瓶颈,开辟了一条新的技术路径。
这对于未来AI学习的三部曲(机器学习→深度学习→强化学习)提供了有力证明。
更多推荐
所有评论(0)