🍃作者介绍:双非本科大四网络工程专业在读,阿里云专家博主,前三年专注于Java领域学习,擅长web应用开发,目前已转行人工智能领域。
🦅个人主页:@逐梦苍穹
📕所属专栏:人工智能
🌻gitee地址:xzl的人工智能代码仓库
✈ 您的一键三连,是我创作的最大动力🌹

最近的DeepSeek-R1模型可谓是火遍全球,男女老少都知道。
在这里插入图片描述

但是它的原理你了解吗?
今天这篇文章就通俗易懂的讲一讲什么是DeepSeek-R1模型使用的GRPO算法。
在这里插入图片描述

1、什么是GRPO

GRPO指的是:群体相对策略优化算法

群体相对策略优化(GRPO)是一种强化学习(RL)算法,专门设计用于增强大规模语言模型(LLM)的推理能力。

与传统的RL方法不同,后者通常依赖外部评估者(批评者)来引导学习,GRPO通过评估一组响应之间的相对关系来优化模型。

这种方法提高了训练效率,使GRPO在需要复杂问题解决和长链思维的推理任务中表现尤为出色。


传统的RL方法,如近端策略优化(PPO),在应用于LLM的推理任务时面临着显著挑战:

1.依赖批评模型

PPO需要一个独立的批评模型来估计每个响应的价值,这增加了内存和计算的负担。

训练批评模型复杂且容易出错,尤其是对于需要主观或细致评估的任务。

2.高计算成本

RL管道通常需要大量计算资源来反复评估和优化响应。

将这些方法扩展到大型LLM时,计算成本进一步增加。

3.可扩展性问题

绝对奖励评估在处理多样化任务时困难,难以在不同推理领域间实现泛化。


GRPO如何解决这些挑战?

  • 无批评模型优化:GRPO通过比较一组响应之间的相对关系,消除了对批评模型的需求,从而显著减少了计算开销。
  • 相对评估:GRPO不依赖外部评估者,而是利用群体内部的动态来评估一个响应相较于同批次其他响应的表现。
  • 高效训练:通过专注于基于群体的优势,GRPO简化了奖励估算过程,使其更快、更具可扩展性,适用于大型模型。

2、数学原理

DeepSeek-R1模型采用了组相对策略优化(GRPO)算法,以强化学习的方式提升推理能力。

其目标函数( J GRPO ( θ ) J_{\text{GRPO}}(\theta) JGRPO(θ))的数学表达式如下:

J GRPO ( θ ) = E [ q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ   old ( O ∣ q ) ] 1 G ∑ i = 1 G ( min ⁡ ( π θ ( o i ∣ q ) π θ   old ( o i ∣ q ) A i ,   clip ( π θ ( o i ∣ q ) π θ   old ( o i ∣ q ) , 1 − ϵ , 1 + ϵ ) A i ) − β D KL ( π θ ∣ ∣ π ref ) ) , D KL ( π old ∥ π ref ) = π ref ( o i ∣ q ) π old ( o i ∣ q ) − log ⁡ ( π ref ( o i ∣ q ) π old ( o i ∣ q ) ) − 1 J_{\text{GRPO}}(\theta) = \mathbb{E}[q \sim \mathcal{P}(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta \, \text{old}}(O|q)] \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)} A_i, \, \text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta \, \text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) A_i \right) - \beta D_{\text{KL}} (\pi_\theta || \pi_{\text{ref}}) \right), D_{\text{KL}}(\pi_{\text{old}} \parallel \pi_{\text{ref}}) = \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\text{old}}(o_i|q)} - \log \left( \frac{\pi_{\text{ref}}(o_i|q)}{\pi_{\text{old}}(o_i|q)} \right) - 1 JGRPO(θ)=E[qP(Q),{oi}i=1Gπθold(Oq)]G1i=1G(min(πθold(oiq)πθ(oiq)Ai,clip(πθold(oiq)πθ(oiq),1ϵ,1+ϵ)Ai)βDKL(πθ∣∣πref)),DKL(πoldπref)=πold(oiq)πref(oiq)log(πold(oiq)πref(oiq))1
各符号的含义如下:

  • q q q:查询(query),模型需要回答的问题。
  • o i o_i oi:模型生成的第 i i i个输出。
  • G G G:每次训练中生成的输出数量。
  • π θ ( o i ∣ q ) \pi_\theta(o_i|q) πθ(oiq):当前策略下,给定查询 q q q时生成输出 o i o_i oi的概率。
  • π θ old ( o i ∣ q ) \pi_{\theta_{\text{old}}}(o_i|q) πθold(oiq):旧策略下,给定查询 q q q时生成输出 o i o_i oi的概率。
  • A i A_i Ai:第 i i i个输出的优势函数值,衡量该输出相对于其他输出的优劣。
  • ϵ \epsilon ϵ:用于裁剪的阈值,防止策略更新过大。
  • β \beta β:KL散度的权重系数,控制策略与参考策略之间的差异。
  • D KL ( π θ ∣ ∣ π ref ) D_{\text{KL}} (\pi_\theta || \pi_{\text{ref}}) DKL(πθ∣∣πref):当前策略与参考策略之间的KL散度,衡量两者的差异。

该目标函数的核心思想是:

  1. 最大化高奖励输出的概率:通过优势函数 A i A_i Ai和策略比率 π θ ( o i ∣ q ) π θ old ( o i ∣ q ) \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)} πθold(oiq)πθ(oiq),鼓励模型生成高奖励的输出。
  2. 限制策略更新幅度:使用裁剪函数(clip)限制策略比率的范围,防止策略更新过大导致训练不稳定。
  3. 控制策略与参考策略的差异:通过KL散度项,限制当前策略与参考策略之间的差异,避免策略偏离过远。

优势函数 A i A_i Ai的计算公式为: A i = r i − mean ( { r 1 , r 2 , ⋯   , r G } ) std ( { r 1 , r 2 , ⋯   , r G } ) A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \cdots, r_G\})}{\text{std}(\{r_1, r_2, \cdots, r_G\})} Ai=std({r1,r2,,rG})rimean({r1,r2,,rG})

其中:

  • r i r_i ri:第 i i i个输出的奖励值。
  • mean ( { r 1 , r 2 , ⋯   , r G } ) \text{mean}(\{r_1, r_2, \cdots, r_G\}) mean({r1,r2,,rG}):所有输出奖励值的均值。
  • std ( { r 1 , r 2 , ⋯   , r G } ) \text{std}(\{r_1, r_2, \cdots, r_G\}) std({r1,r2,,rG}):所有输出奖励值的标准差。

3、比喻

组相对策略优化(GRPO) 是一种让智能体(比如机器人或游戏AI)通过不断学习和改进,变得更好的方法。

它的核心思路是:

  1. 分组比较:把不同的策略(可以理解为不同的“做事方法”)分成小组,组内的策略互相比较,看看谁的表现更好。
  2. 优化改进:根据比较结果,改进那些表现不太好的策略,让它们向表现好的策略学习。
  3. 反复迭代:不断重复这个过程,直到策略变得足够好。

举个例子:

假设你在教一群学生踢足球,你可以:

  • 把学生分成几个小组,组内互相比赛。
  • 观察每个学生的表现,找出谁踢得好,谁需要改进。
  • 让踢得不好的学生向踢得好的学生学习,改进自己的技术。
  • 重复这个过程,直到所有学生都踢得不错。

优点:

  • 效率高:不需要每个人都去试错,通过组内比较就能快速找到好方法。
  • 稳定性强:组内互相学习,不容易走偏。
  • 适应性强:无论是踢足球、玩游戏,还是控制机器人,这种方法都能用。

总结来说,GRPO就是一种通过分组比较和互相学习,让智能体(或学生)不断进步的方法。

4、流程总结

GRPO目标函数的工作流程如下:

  • 为一个查询生成一组响应。
  • 根据预定义的标准(如准确性、格式)计算每个响应的奖励。
  • 在群体内比较响应,计算它们的相对优势( A i A_i Ai)。
  • 更新策略,偏向具有较高优势的响应,并通过裁剪确保稳定性。
  • 规范化更新,防止模型偏离其基线太远。

为什么GRPO有效

  • 无需批评模型:GRPO通过依赖群体比较避免了对独立评估者的需求,从而降低了计算成本。
  • 稳定学习:裁剪和KL正则化确保模型平稳改进,避免剧烈波动。
  • 高效训练:通过关注相对表现,GRPO非常适合像推理这样的任务,其中绝对评分很难实现。

现实生活类比:

想象一组学生在解决问题。

与其由老师单独批改每个学生的答案,不如让学生们自己相互比较答案。

那些答得更好的学生会得到鼓励,而其他学生则从错误中学习。

随着时间的推移,整个小组会集体进步,变得更加准确和一致。

GRPO将这一原理应用于训练AI模型,使它们能够高效且有效地学习。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐