关键要点

  • 研究表明,Deepseek 的 GDPO 可能是指 Group Relative Policy Optimization (GRPO),一种用于增强大型语言模型推理能力的强化学习算法。

  • 证据倾向于认为,Deepseek 通过生成多组响应、计算奖励、评估相对优势并更新策略来实现 GRPO。

  • 实施细节可能包括使用 KL 散度术语以确保训练稳定性,这一点尚未完全确认。


  •  

什么是 GDPO 及其实现

Deepseek 的 GDPO 似乎是 Group Relative Policy Optimization (GRPO) 的误写,这是一种强化学习算法,旨在通过评估一组响应来优化模型,而无需单独的价值函数。GRPO 的核心思想是比较一组响应的相对奖励,而不是依赖外部评估者(批评者模型)。这使得训练更高效,特别适合需要复杂推理的任务。

如何实现

Deepseek 可能通过以下步骤实现 GRPO:

  • 生成多组响应:为每个输入查询生成多个响应。

  • 计算奖励:使用奖励函数评估每个响应的质量,例如正确性、一致性和相关性。

  • 计算相对优势:为每个查询的一组响应计算平均奖励,然后将每个响应的奖励与组平均奖励的差值作为相对优势。

  • 更新策略:基于这些相对优势更新策略,鼓励模型生成优于组平均水平的响应。

  • 稳定性保障:通过引入 KL 散度术语,防止策略发生太大变化,从而保持训练的稳定性。


  •  

这一过程帮助 Deepseek 的模型在数学、代码和推理任务上表现出色,达到与 OpenAI-o1 相当的水平。

一个意想不到的细节

有趣的是,GRPO 不依赖于传统的价值函数,这降低了计算成本并简化了训练过程,这在当前的高成本 AI 训练环境中尤为重要。


调查笔记:Deepseek 的 GDPO 实现详解

Deepseek 是一家中国人工智能公司,专注于开发大型语言模型(LLMs),如 Deepseek-R1 和 Deepseek-V3。这些模型以其高效性和与 OpenAI 等领先模型的竞争性能而闻名。用户查询中提到的“GDPO”似乎是 Group Relative Policy Optimization (GRPO) 的误写,这是一种强化学习算法,旨在通过评估一组响应来优化模型,而无需单独的价值函数。以下是详细的调查和分析。

背景与上下文

Deepseek 于 2023 年 7 月在杭州成立,由中国对冲基金 High-Flyer 拥有和资助。其目标是通过开放源代码和开放科学推进人工智能,特别是在推理能力方面。最近的模型如 Deepseek-R1 和 Deepseek-V3 在全球 AI 圈引起了关注,特别是在成本效益和性能上。例如,Deepseek-V3 的训练成本仅为 600 万美元,而 OpenAI 的 GPT-4 在 2023 年的训练成本约为 1 亿美元。

调查开始时,GDPO 的具体含义并不明确。通过搜索“Deepseek GDPO”,未找到直接相关结果,但搜索“Deepseek GRPO”揭示了 GRPO 是 Deepseek 模型训练中的关键组件,特别是用于强化学习(RL)阶段。GRPO 被描述为一种不依赖批评者模型的 RL 算法,特别适合推理任务,如数学和逻辑问题。

GRPO 的定义与优势

GRPO,全称 Group Relative Policy Optimization,是一种强化学习算法,旨在通过评估一组响应来优化策略,而不依赖于传统的价值函数(critic model)。与传统的 Proximal Policy Optimization (PPO) 不同,GRPO 通过比较一组输出的相对奖励来计算优势,这降低了计算开销并简化了训练过程。其主要优势包括:

  • 无批评者优化:消除了对单独价值函数的依赖,减少了内存和计算需求。

  • 相对评估:评估一组响应,而不是孤立地评估每个响应,更符合奖励模型训练的本质。

  • 高效训练:特别适合需要复杂推理的任务,如数学问题解决和长链推理。


  •  

以下是 GRPO 关键过程的详细描述:

方面细节
定义GRPO 是一种强化学习算法,通过评估一组响应的相对奖励来优化策略,无需批评者模型。
优势- 批评者免费优化,降低计算开销。
<br>
- 相对评估,更适合奖励模型训练。
<br>
- 高效训练,适合推理任务。
解决的挑战- 依赖批评者模型:移除批评者,减少内存和计算需求。
<br>
- 高计算成本:避免迭代评估,降低成本。
<br>
- 扩展性问题:提高在不同推理领域的泛化能力。
关键过程1. 为查询生成一组响应。
<br>
2. 计算奖励(如准确性、格式、一致性)。
<br>
3. 比较响应计算相对优势。
<br>
4. 使用裁剪更新策略以确保稳定性。
<br>
5. 使用 KL 散度惩罚偏差。
性能指标- Deepseek-R1-Zero 在 AIME 2024 上 Pass@1 得分从 15.6% 提高到 71.0%,多数投票后达 86.7%,与 OpenAI-o1-0912 相当。
新兴能力发展了自我验证、反思和长链推理能力,特别适合复杂任务。
扩展性与蒸馏- 移除批评者模型需求,支持大规模训练。
<br>
- 从 GRPO 训练的检查点蒸馏较小模型,保留高推理能力。
Deepseek 如何实现 GRPO

Deepseek 在其模型训练中使用了 GRPO,特别是在 Deepseek-R1 和 Deepseek-R1-Zero 的强化学习阶段。以下是实现 GRPO 的详细步骤:

  1. 生成多组响应:为每个输入查询,模型使用当前策略生成多个响应。这一步确保有足够的数据点来比较和评估。

  2. 计算奖励:每个响应根据预定义的奖励函数进行评估。奖励函数可能基于任务的具体需求,例如对于数学问题,奖励可能是 1(正确)或 0(错误);对于更复杂的任务,可能涉及一致性或相关性的评分。

  3. 计算相对优势:对于每个查询的一组响应,计算组内平均奖励。然后,每个响应的相对优势定义为该响应的奖励减去组平均奖励。这一步消除了对全局价值函数的依赖,简化了计算。

  4. 更新策略:基于这些相对优势更新策略,通常使用策略梯度方法。更新可能包括一些稳定机制,如裁剪,以防止策略变化过大。

  5. 稳定性保障:引入 KL 散度术语,惩罚新策略与旧策略之间的偏差。这确保训练过程稳定,避免模型发散。


  6.  

这一实现特别适用于 Deepseek-R1-Zero,这是一个通过纯 RL 训练的模型,无需监督微调(SFT)作为初步步骤。Deepseek-R1-Zero 在推理基准测试上表现出色,例如在 AIME 2024 上 Pass@1 得分从 15.6% 提高到 71.0%,多数投票后达 86.7%,与 OpenAI-o1-0912 相当。

意想不到的细节

一个意想不到的细节是,GRPO 的实施消除了对传统价值函数的依赖,这不仅降低了计算成本,还简化了训练流程。在当前高成本 AI 训练的环境中,这是一个显著的优势,特别是在资源有限的场景下。

争议与不确定性

虽然 GRPO 被认为是一种高效的 RL 算法,但其实现细节(如奖励函数的具体设计、组大小的选择)尚未完全公开。一些分析(如 DeepSeek’s Lies: A Closer Look at GRPO Implementation)质疑 Deepseek 是否完全依赖 GRPO,还是在背后使用了其他模型来评估输出。这表明可能存在争议,特别是在奖励函数的可行性和实际实施方面。

相关模型与扩展

Deepseek 还发布了其他模型,如 Deepseek-V3,这是一个混合专家(MoE)语言模型,总参数为 671B,其中每个标记激活 37B 参数。Deepseek-V3 采用了多头潜在注意力(MLA)和 DeepseekMoE 架构,这些架构在 Deepseek-V2 中得到了验证。虽然 Deepseek-V3 没有明确提到 GRPO,但其训练过程可能也受益于类似的 RL 优化技术。

此外,Deepseek 还开源了从 Deepseek-R1 蒸馏的六个密集模型(1.5B、7B、8B、14B、32B、70B),基于 Qwen 和 Llama。这些模型保留了高推理能力,表明 GRPO 的实施具有良好的扩展性和实用性。

结论

综合来看,Deepseek 的 GDPO 很可能指的是 GRPO,这是一种通过组相对奖励优化策略的强化学习算法。Deepseek 通过生成多组响应、计算奖励、评估相对优势并更新策略来实现 GRPO,并使用 KL 散度术语确保稳定性。这一实施帮助其模型在推理任务上达到与领先闭源模型相当的性能,同时降低了训练成本。然而,具体细节(如奖励函数设计)可能仍有争议,未来可能需要更多官方文档或研究论文来澄清

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐