强化学习(Reinforcement Learning, RL)已成为提升大型语言模型(Large Language Models, LLMs)推理能力的重要技术手段,特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math 和 DeepSeek-R1 模型中的突破性成果,充分展示了强化学习在增强语言模型数学推理和问题解决能力方面的巨大潜力。

这些成果的取得源于一种创新性的强化学习方法——群组相对策略优化(Group Relative Policy Optimization, GRPO)。该方法有效解决了将强化学习应用于语言模型时面临的特殊挑战。本文将深入分析 GRPO 的工作机制及其在语言模型训练领域的重要技术突破,并探讨其在实际应用中的优势与局限性。

Image

1、PPO 与 GRPO 的对比分析

Image

近邻策略优化(Proximal Policy Optimization, PPO)一直是语言模型强化学习微调的主流算法。PPO 的核心是一种策略梯度方法,通过裁剪(clipping)机制来限制策略更新的幅度,从而防止策略发生过大的破坏性变化。PPO 的目标函数可表示为:

Image

GRPO 首次在文献中提出,它在 PPO 的基础上引入了多项关键创新,使其在语言模型训练中具有更高的效率和适用性:

  1. 无需价值网络,显著降低了内存占用和计算开销;

  2. 采用群组采样方法,实现更高效且稳定的优势估计;

  3. 通过强化目标函数和奖励的惩罚机制,实现更保守的策略更新。

更详细的对比:

Image

2、GRPO 技术深析

Image

2.1、语言模型作为策略网络

在 GRPO 框架中,语言模型充当策略网络(actor),将问题 q 作为输入观察 s,输出一系列词元(tokens)作为动作。策略分布在词元序列上进行分解:

Image

注: 原始论文 [2] 使用 o_t 表示时间步 t 的输出词元,而本文采用 a_t 以符合强化学习中动作的标准记号。

2.2、序列化词元生成

基于 Transformer 架构和语言模型的自回归特性,生成过程具有严格的序列性:

  1. 每个词元的生成都依赖于之前生成的词元序列;

  2. 策略网络(语言模型)维护持续更新的上下文信息;

  3. 每个词元生成步骤都可视为强化学习框架中的一个动作 a_t。

Image

2.3、奖励计算与优势估计

GRPO 对每个生成序列中的词元奖励计算如下:

Image

GRPO 摒弃了传统的价值网络,转而通过对参考策略产生的多个输出样本进行群组奖励归一化来估计基线优势值 A。这些输出样本都是针对同一输入问题生成的:

Image

优势估计的详细步骤:

  1. 群组采样: 对于每个问题,使用旧策略生成多个不同的输出序列。

  2. 奖励计算: 计算每个输出序列的累积奖励。

  3. 奖励归一化: 对群组内的奖励进行归一化处理,例如减去均值并除以标准差。

  4. 优势估计: 使用归一化后的奖励作为优势函数的估计值。

2.4、GRPO 目标函数

对于每个问题 𝑞,GRPO 从旧策略 𝜋𝜃𝑜𝑙𝑑 中采样一组输出 {𝑜1, 𝑜2, · · · , 𝑜𝐺},然后通过最大化 GRPO 目标函数来优化策略模型。完整的 GRPO 目标函数综合了以下要素:

Image

该目标函数的特点:

  1. 同时在群组和序列长度维度上进行平均;

  2. 使用裁剪机制确保策略更新的保守性;

  3. 引入 KL 散度估计作为惩罚项,防止策略与参考模型产生过大偏离。

目标函数的详细解释:

  • 第一项: 策略梯度项,鼓励模型生成更高奖励的动作序列。

  • 第二项: 裁剪项,限制策略更新的幅度,防止策略崩溃。

  • 第三项: KL 散度惩罚项,防止新策略与旧策略偏离过大,保证训练的稳定性。

Image

2.5、GRPO 的优势与局限性

优势:

  • 高效性: 无需价值网络,降低了计算和内存开销。

  • 稳定性: 群组采样和 KL 散度惩罚提高了训练的稳定性。

  • 适用性: 特别适用于大规模语言模型的微调。

局限性:

  • 对参考策略的依赖: GRPO 的性能受到参考策略质量的影响。

  • 超参数敏感: 目标函数中的超参数(如裁剪范围和 KL 散度系数)需要仔细调整。

  • 理论分析的缺乏: 相比于 PPO,GRPO 的理论分析还不够完善。

3、实际应用案例

DeepSeek-Math 和 DeepSeek-R1 是 GRPO 在实际应用中的成功案例。这些模型在数学推理和问题解决能力方面取得了显著的提升,证明了 GRPO 在增强语言模型推理能力方面的有效性。

DeepSeek-Math: 通过 GRPO 训练,DeepSeek-Math 在数学问题解决能力上超越了许多其他大型语言模型。

DeepSeek-R1: DeepSeek-R1 利用 GRPO 提高了在复杂推理任务中的表现,例如阅读理解和逻辑推理。

4、总结

GRPO 在将强化学习应用于语言模型方面取得了重要突破。通过取消价值网络依赖并引入群组相对优势估计,该方法实现了更高效和稳定的训练过程。DeepSeek-Math 和 DeepSeek-R1 的成功实践充分验证了这种方法的实际效果。

GRPO 的核心创新——群组采样、相对优势估计以及价值网络的简化——为语言模型训练的未来发展提供了重要的技术参考。随着语言模型能力边界的不断拓展,GRPO 等创新技术将在充分发挥语言模型潜力方面发挥关键作用。未来的研究方向包括:

  • 改进优势估计方法: 探索更精确和高效的优势估计方法。

  • 自适应超参数调整: 开发自动调整 GRPO 超参数的算法。

  • 理论分析: 加强对 GRPO 算法的理论分析,理解其收敛性和泛化能力。

我的DeepSeek部署资料已打包好(自取↓)
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!

❗️为什么你必须了解大模型?

1️⃣ 薪资爆炸:应届大模型工程师年薪40万起步,懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构:金融、医疗、教育正在被AI重塑,不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车:90%的进阶技巧不需写代码!会说话就能指挥AI

(附深度求索BOSS招聘信息)
在这里插入图片描述

⚠️警惕:当同事用DeepSeek 3小时干完你3天的工作时,淘汰倒计时就开始了。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?老师啊,我自学没有方向怎么办?老师,这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!当然这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐