同一个问题看看Grok3是怎么回答的-Deepseek的GDPO是怎么实现的？

Deepseek 的 GDPO 似乎是 Group Relative Policy Optimization (GRPO) 的误写，这是一种强化学习算法，旨在通过评估一组响应来优化模型，而无需单独的价值函数。GRPO 的核心思想是比较一组响应的相对奖励，而不是依赖外部评估者（批评者模型）。这使得训练更高效，特别适合需要复杂推理的任务。

释迦呼呼

956人浏览 · 2025-03-03 19:10:56

释迦呼呼 · 2025-03-03 19:10:56 发布

关键要点

研究表明，Deepseek 的 GDPO 可能是指 Group Relative Policy Optimization (GRPO)，一种用于增强大型语言模型推理能力的强化学习算法。
证据倾向于认为，Deepseek 通过生成多组响应、计算奖励、评估相对优势并更新策略来实现 GRPO。
实施细节可能包括使用 KL 散度术语以确保训练稳定性，这一点尚未完全确认。

什么是 GDPO 及其实现

如何实现

Deepseek 可能通过以下步骤实现 GRPO：

生成多组响应：为每个输入查询生成多个响应。
计算奖励：使用奖励函数评估每个响应的质量，例如正确性、一致性和相关性。
计算相对优势：为每个查询的一组响应计算平均奖励，然后将每个响应的奖励与组平均奖励的差值作为相对优势。
更新策略：基于这些相对优势更新策略，鼓励模型生成优于组平均水平的响应。
稳定性保障：通过引入 KL 散度术语，防止策略发生太大变化，从而保持训练的稳定性。

这一过程帮助 Deepseek 的模型在数学、代码和推理任务上表现出色，达到与 OpenAI-o1 相当的水平。

一个意想不到的细节

有趣的是，GRPO 不依赖于传统的价值函数，这降低了计算成本并简化了训练过程，这在当前的高成本 AI 训练环境中尤为重要。

调查笔记：Deepseek 的 GDPO 实现详解

Deepseek 是一家中国人工智能公司，专注于开发大型语言模型（LLMs），如 Deepseek-R1 和 Deepseek-V3。这些模型以其高效性和与 OpenAI 等领先模型的竞争性能而闻名。用户查询中提到的“GDPO”似乎是 Group Relative Policy Optimization (GRPO) 的误写，这是一种强化学习算法，旨在通过评估一组响应来优化模型，而无需单独的价值函数。以下是详细的调查和分析。

背景与上下文

Deepseek 于 2023 年 7 月在杭州成立，由中国对冲基金 High-Flyer 拥有和资助。其目标是通过开放源代码和开放科学推进人工智能，特别是在推理能力方面。最近的模型如 Deepseek-R1 和 Deepseek-V3 在全球 AI 圈引起了关注，特别是在成本效益和性能上。例如，Deepseek-V3 的训练成本仅为 600 万美元，而 OpenAI 的 GPT-4 在 2023 年的训练成本约为 1 亿美元。

调查开始时，GDPO 的具体含义并不明确。通过搜索“Deepseek GDPO”，未找到直接相关结果，但搜索“Deepseek GRPO”揭示了 GRPO 是 Deepseek 模型训练中的关键组件，特别是用于强化学习（RL）阶段。GRPO 被描述为一种不依赖批评者模型的 RL 算法，特别适合推理任务，如数学和逻辑问题。

GRPO 的定义与优势

GRPO，全称 Group Relative Policy Optimization，是一种强化学习算法，旨在通过评估一组响应来优化策略，而不依赖于传统的价值函数（critic model）。与传统的 Proximal Policy Optimization (PPO) 不同，GRPO 通过比较一组输出的相对奖励来计算优势，这降低了计算开销并简化了训练过程。其主要优势包括：

无批评者优化：消除了对单独价值函数的依赖，减少了内存和计算需求。
相对评估：评估一组响应，而不是孤立地评估每个响应，更符合奖励模型训练的本质。
高效训练：特别适合需要复杂推理的任务，如数学问题解决和长链推理。

以下是 GRPO 关键过程的详细描述：

方面	细节
定义	GRPO 是一种强化学习算法，通过评估一组响应的相对奖励来优化策略，无需批评者模型。
优势	- 批评者免费优化，降低计算开销。 <br> - 相对评估，更适合奖励模型训练。 <br> - 高效训练，适合推理任务。
解决的挑战	- 依赖批评者模型：移除批评者，减少内存和计算需求。 <br> - 高计算成本：避免迭代评估，降低成本。 <br> - 扩展性问题：提高在不同推理领域的泛化能力。
关键过程	1. 为查询生成一组响应。 <br> 2. 计算奖励（如准确性、格式、一致性）。 <br> 3. 比较响应计算相对优势。 <br> 4. 使用裁剪更新策略以确保稳定性。 <br> 5. 使用 KL 散度惩罚偏差。
性能指标	- Deepseek-R1-Zero 在 AIME 2024 上 Pass@1 得分从 15.6% 提高到 71.0%，多数投票后达 86.7%，与 OpenAI-o1-0912 相当。
新兴能力	发展了自我验证、反思和长链推理能力，特别适合复杂任务。
扩展性与蒸馏	- 移除批评者模型需求，支持大规模训练。 <br> - 从 GRPO 训练的检查点蒸馏较小模型，保留高推理能力。

Deepseek 如何实现 GRPO

Deepseek 在其模型训练中使用了 GRPO，特别是在 Deepseek-R1 和 Deepseek-R1-Zero 的强化学习阶段。以下是实现 GRPO 的详细步骤：

生成多组响应：为每个输入查询，模型使用当前策略生成多个响应。这一步确保有足够的数据点来比较和评估。
计算奖励：每个响应根据预定义的奖励函数进行评估。奖励函数可能基于任务的具体需求，例如对于数学问题，奖励可能是 1（正确）或 0（错误）；对于更复杂的任务，可能涉及一致性或相关性的评分。
计算相对优势：对于每个查询的一组响应，计算组内平均奖励。然后，每个响应的相对优势定义为该响应的奖励减去组平均奖励。这一步消除了对全局价值函数的依赖，简化了计算。
更新策略：基于这些相对优势更新策略，通常使用策略梯度方法。更新可能包括一些稳定机制，如裁剪，以防止策略变化过大。
稳定性保障：引入 KL 散度术语，惩罚新策略与旧策略之间的偏差。这确保训练过程稳定，避免模型发散。

这一实现特别适用于 Deepseek-R1-Zero，这是一个通过纯 RL 训练的模型，无需监督微调（SFT）作为初步步骤。Deepseek-R1-Zero 在推理基准测试上表现出色，例如在 AIME 2024 上 Pass@1 得分从 15.6% 提高到 71.0%，多数投票后达 86.7%，与 OpenAI-o1-0912 相当。

意想不到的细节

一个意想不到的细节是，GRPO 的实施消除了对传统价值函数的依赖，这不仅降低了计算成本，还简化了训练流程。在当前高成本 AI 训练的环境中，这是一个显著的优势，特别是在资源有限的场景下。

争议与不确定性

虽然 GRPO 被认为是一种高效的 RL 算法，但其实现细节（如奖励函数的具体设计、组大小的选择）尚未完全公开。一些分析（如 DeepSeek’s Lies: A Closer Look at GRPO Implementation）质疑 Deepseek 是否完全依赖 GRPO，还是在背后使用了其他模型来评估输出。这表明可能存在争议，特别是在奖励函数的可行性和实际实施方面。

结论

综合来看，Deepseek 的 GDPO 很可能指的是 GRPO，这是一种通过组相对奖励优化策略的强化学习算法。Deepseek 通过生成多组响应、计算奖励、评估相对优势并更新策略来实现 GRPO，并使用 KL 散度术语确保稳定性。这一实施帮助其模型在推理任务上达到与领先闭源模型相当的性能，同时降低了训练成本。然而，具体细节（如奖励函数设计）可能仍有争议，未来可能需要更多官方文档或研究论文来澄清