一文读懂啥是GRPO

Group Relative Policy Optimization（GRPO）是一种新型的强化学习算法，由DeepSeek提出，旨在提升大语言模型（LLMs）在推理任务中的表现。它基于近端策略优化（PPO）框架进行改进，通过独特的奖励机制和策略更新方式，使模型在训练过程中能够更有效地学习和优化策略，从而增强模型的推理能力和性能。与传统的强化学习算法不同，GRPO在训练过程中摒弃了价值网络，采用组

Barok

2771人浏览 · 2025-03-17 09:49:54

Barok · 2025-03-17 09:49:54 发布

概念解释

数学原理

策略网络：在GRPO中，语言模型被视为策略网络（actor），以问题 $q$ 作为输入观测 $s$ ，生成一系列的token作为动作。策略分布通过对每个token的概率进行乘积得到： $\pi_{\theta}(a|q)=\prod_{t = 1}^{n}\pi_{\theta}(a_t|q,a_{<t})$ 。这意味着模型依据当前问题状态以及已生成的部分序列，逐步确定下一个token的生成概率，体现了模型决策的动态过程，就如同在一场对话中，根据前文语境决定下一句要说的字词。
奖励计算：对于每个生成的序列，GRPO计算每个token的奖励 $r_t$ ，公式为： $r_t = r_{\phi}(q,a_{\leq t}) - \beta \log\frac{\pi_{\theta}(a_t|q,a_{<t})}{\pi_{ref}(a_t|q,a_{<t})}$ ，其中 $r_{\phi}(q,a_{\leq t})$ 是基于奖励模型 $\phi$ 对问题 $q$ 和生成序列 $a_{\leq t}$ 的奖励，它反映了从整体任务完成角度该序列的质量好坏； $\beta$ 是一个超参数，用于平衡奖励和策略熵，若 $\beta$ 较大，模型会更倾向于探索不同的策略以避免陷入局部最优，反之则更注重当前高奖励路径； $\pi_{ref}(a_t|q,a_{<t})$ 是参考策略在相同状态下生成token $a_t$ 的概率，引入参考策略可使模型对比自身决策与已有经验或基准的差异，从而引导策略优化。
优势估计：GRPO通过对同一问题的多个不同输出的奖励进行归一化，来估计基线优势 $\hat{a}$ ，公式为： $\hat{a}_{i,t}=\tilde{r}_i=\frac{r_i - \text{mean}(r)}{\text{std}(r)}$ ，其中 $r_i$ 是第i个输出的奖励， $\text{mean}(r)和\text{std}(r)$ 分别是奖励集合的均值和标准差。这种归一化处理使得不同问题实例下的奖励具有可比性，能突出各输出在群体中的相对优劣，让模型聚焦于学习那些相较于平均表现更优的决策动作，类似于在班级成绩排名中，了解自己相对其他同学的优势科目。
目标函数：GRPO的目标是最大化以下目标函数：
$J_{GRPO}(\theta)=\frac{1}{G}\sum_{i = 1}^{G}\frac{1}{|a_i|}\sum_{t = 1}^{|a_i|}\left\{\min\left(\frac{\pi_{\theta}(a_{i,t}|s,a_{i,<t})}{\pi_{\theta_{old}}(a_{i,t}|s,a_{i,<t})}\hat{a}_{i,t},\text{clip}\left(\frac{\pi_{\theta}(a_{i,t}|s,a_{i,<t})}{\pi_{\theta_{old}}(a_{i,t}|s,a_{i,<t})},1 - \epsilon,1+\epsilon\right)\hat{a}_{i,t}\right)-\beta D_{KL}(\pi_{\theta}||\pi_{ref})\right\}$
其中G是采样的输出组数量，决定了模型从多样化解空间中学习的广度； $\epsilon$ 是裁剪参数，用于限制策略更新的幅度，防止单次更新使策略变化过大而偏离合理区间，保证策略学习的稳定性； $D_{KL}(\pi_{\theta}||\pi_{ref})$ 是当前策略 $\pi_{\theta}$ 和参考策略 $\pi_{ref}$ 之间的KL散度，用于惩罚策略的过度偏离，确保模型在探索新策略时不会与已有经验或期望的行为模式相差甚远，维持策略优化的合理性与可控性。整个目标函数综合考虑了策略改进、优势利用以及策略偏离控制，引导模型在复杂的决策空间中稳健地向最优策略逼近。

代码示例

以下是一个简化的GRPO代码示例，基于Python和PyTorch实现：

import torch
import torch.nn as nn
import torch.optim as optim

# 假设这是一个简单的语言模型策略网络
class PolicyNetwork(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(PolicyNetwork, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.fc2 = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

奖励模型（简单示例，实际中需要更复杂的设计）

class RewardModel(nn.Module):
    def __init__(self, input_size, output_size):
        super(RewardModel, self).__init__()
        self.fc = nn.Linear(input_size, output_size)

    def forward(self, x):
        return self.fc(x)

生成多个输出（简化示例）

def generate_outputs(policy, input_data, num_outputs):
    outputs = []
    for _ in range(num_outputs):
        output = policy(input_data)
        outputs.append(output)
    return outputs

计算奖励（简化示例）

def calculate_rewards(reward_model, outputs):
    rewards = []
    for output in outputs:
        reward = reward_model(output)
        rewards.append(reward)
    return rewards

计算优势

def calculate_advantages(rewards):
    rewards_tensor = torch.stack(rewards)
    mean_reward = torch.mean(rewards_tensor)
    std_reward = torch.std(rewards_tensor)
    advantages = (rewards_tensor - mean_reward) / std_reward
    return advantages

更新策略网络

def update_policy(policy, optimizer, advantages, old_outputs, new_outputs, clip_epsilon, beta, reference_policy):
    policy_loss = 0
    for old_output, new_output, advantage in zip(old_outputs, new_outputs, advantages):
        ratio = torch.exp(torch.log_softmax(new_output, dim=-1) - torch.log_softmax(old_output, dim=-1))
        surr1 = ratio * advantage
        surr2 = torch.clamp(ratio, 1 - clip_epsilon, 1 + clip_epsilon) * advantage
        policy_loss -= torch.min(surr1, surr2).mean()

        # 添加KL散度惩罚项
        kl_divergence = torch.distributions.kl.kl_divergence(
    	torch.distributions.Categorical(logits=torch.log_softmax(new_outputs,dim=-1)),
    	torch.distributions.Categorical(logits=torch.log_softmax(reference_policy(new_outputs), dim=-1)))
        policy_loss -= beta * kl_divergence.mean()

        optimizer.zero_grad()
        policy_loss.backward()
        optimizer.step()

参数设置

input_size = 100
hidden_size = 200
output_size = 50
num_outputs = 10
clip_epsilon = 0.2
beta = 0.01

初始化网络和优化器

policy = PolicyNetwork(input_size, hidden_size, output_size)
reward_model = RewardModel(output_size, 1)
optimizer = optim.Adam(policy.parameters(), lr=0.001)

示例输入数据

input_data = torch.randn(1, input_size)

训练过程

for _ in range(100):
    old_outputs = generate_outputs(policy, input_data, num_outputs)
    new_outputs = generate_outputs(policy, input_data, num_outputs)
    rewards = calculate_rewards(reward_model, new_outputs)
    advantages = calculate_advantages(rewards)
    update_policy(policy, optimizer, advantages, old_outputs, new_outputs, clip_epsilon, beta, policy)

作为强化学习方法的特点

高效性：GRPO去除了对价值网络的依赖，通过组采样方式进行优势估计，减少了模型训练所需的内存和计算资源，在大规模模型训练中具有更高的效率，使得训练过程更加快速和经济。
稳定性：在目标函数中引入KL散度惩罚项，限制了新策略相对于参考策略的偏离程度，防止策略更新时出现剧烈变化，保证了训练过程的稳定性，使模型在优化过程中能够保持相对稳定的学习状态，避免因过度探索而导致的性能下降。
适应性：适用于多种复杂任务，尤其是需要长链推理和复杂问题解决的任务，如数学推理、编程等。通过不断优化策略，模型能够更好地理解任务要求，生成高质量的输出。

使用时需注意的问题

超参数调整：GRPO涉及多个超参数，如 $\beta$ 、 $\epsilon$ 等，这些超参数对模型的性能和训练稳定性有显著影响。不同的任务和数据集可能需要不同的超参数设置，需要进行大量的实验和调优才能找到最佳配置。例如， $\beta$ 过大可能导致模型过于保守，难以探索新的策略； $\epsilon$ 过大则可能使策略更新过于激进，影响训练稳定性。
奖励模型设计：奖励模型的质量直接影响GRPO的训练效果。一个不准确或不合理的奖励模型可能会引导模型学习到错误的策略。在设计奖励模型时，需要充分考虑任务的目标和评价标准，确保奖励能够准确反映模型输出的质量和价值。
参考策略选择：参考策略的选择对模型的优化方向至关重要。不合适的参考策略可能导致模型无法学习到有效的策略，或者陷入局部最优解。通常可以选择预训练的模型或经过监督微调的模型作为参考策略，但需要根据具体任务进行评估和调整。

目前存在的瓶颈

样本效率：尽管GRPO在计算效率上有优势，但在样本利用效率方面仍有提升空间。在某些复杂任务中，可能需要大量的样本才能使模型学习到最优策略，这增加了数据收集和处理的成本。
通用性与特定任务优化：虽然GRPO在一些特定任务（如数学推理）上表现出色，但在通用性方面可能不如一些传统算法。将GRPO扩展到更多不同类型的任务，并在保持特定任务优化效果的同时提高通用性，是目前面临的挑战之一。
理论分析不足：相较于一些经典的强化学习算法，GRPO的理论基础还不够完善。对其收敛性、最优性等理论性质的研究还相对较少，这在一定程度上限制了对算法的深入理解和进一步改进。

GRPO与其他SOTA强化学习算法对比
根据您的要求，我已将提供的内容整理成一个清晰的表格。以下是包含四种算法（GRPO、PPO、DDPG 和 A3C）的优点、缺点、在大型模型训练上的优点和缺点的表格：

算法	优点	缺点	在大模型训练上的优点	在大模型训练上的缺点
GRPO	减少内存与计算消耗; 训练稳定; 组采样优势估计更贴合奖励模型比较本质	样本利用效率有待提高; 通用性需加强; 理论分析不够完善	高效利用资源，减少训练成本; 提升模型推理能力，在数学推理等任务表现出色	通用性不足，在非特定任务上表现弱于部分算法; 样本需求大，数据处理成本高
PPO	算法成熟; 广泛应用; 训练相对稳定	需价值网络，内存与计算开销大; 策略更新不当易不稳定	在多种任务上有较好表现，算法成熟易实现	内存需求大，不适用于资源受限场景; 价值网络误差影响训练效果
DDPG	连续动作空间表现好; 结合深度神经网络可处理复杂状态	训练过程不稳定; 对超参数敏感; 易过拟合	适合处理连续动作相关的大模型任务，如机器人控制相关模型训练	训练难度大，超参数调整复杂; 容易过拟合，泛化能力弱
A3C	异步优势actor-critic; 可分布式训练; 样本效率高	收敛性依赖于网络结构和超参数; 难以处理高维离散动作空间	可利用分布式计算加速大模型训练; 样本利用高效	超参数敏感; 在高维离散动作空间表现不佳，如文本生成任务处理困难