
同一个问题看看Grok3是怎么回答的-Deepseek的GDPO是怎么实现的?
Deepseek 的 GDPO 似乎是 Group Relative Policy Optimization (GRPO) 的误写,这是一种强化学习算法,旨在通过评估一组响应来优化模型,而无需单独的价值函数。GRPO 的核心思想是比较一组响应的相对奖励,而不是依赖外部评估者(批评者模型)。这使得训练更高效,特别适合需要复杂推理的任务。
关键要点
- 研究表明,Deepseek 的 GDPO 可能是指 Group Relative Policy Optimization (GRPO),一种用于增强大型语言模型推理能力的强化学习算法。
- 证据倾向于认为,Deepseek 通过生成多组响应、计算奖励、评估相对优势并更新策略来实现 GRPO。
- 实施细节可能包括使用 KL 散度术语以确保训练稳定性,这一点尚未完全确认。
什么是 GDPO 及其实现
Deepseek 的 GDPO 似乎是 Group Relative Policy Optimization (GRPO) 的误写,这是一种强化学习算法,旨在通过评估一组响应来优化模型,而无需单独的价值函数。GRPO 的核心思想是比较一组响应的相对奖励,而不是依赖外部评估者(批评者模型)。这使得训练更高效,特别适合需要复杂推理的任务。
如何实现
Deepseek 可能通过以下步骤实现 GRPO:
- 生成多组响应:为每个输入查询生成多个响应。
- 计算奖励:使用奖励函数评估每个响应的质量,例如正确性、一致性和相关性。
- 计算相对优势:为每个查询的一组响应计算平均奖励,然后将每个响应的奖励与组平均奖励的差值作为相对优势。
- 更新策略:基于这些相对优势更新策略,鼓励模型生成优于组平均水平的响应。
- 稳定性保障:通过引入 KL 散度术语,防止策略发生太大变化,从而保持训练的稳定性。
这一过程帮助 Deepseek 的模型在数学、代码和推理任务上表现出色,达到与 OpenAI-o1 相当的水平。
一个意想不到的细节
有趣的是,GRPO 不依赖于传统的价值函数,这降低了计算成本并简化了训练过程,这在当前的高成本 AI 训练环境中尤为重要。
调查笔记:Deepseek 的 GDPO 实现详解
Deepseek 是一家中国人工智能公司,专注于开发大型语言模型(LLMs),如 Deepseek-R1 和 Deepseek-V3。这些模型以其高效性和与 OpenAI 等领先模型的竞争性能而闻名。用户查询中提到的“GDPO”似乎是 Group Relative Policy Optimization (GRPO) 的误写,这是一种强化学习算法,旨在通过评估一组响应来优化模型,而无需单独的价值函数。以下是详细的调查和分析。
背景与上下文
Deepseek 于 2023 年 7 月在杭州成立,由中国对冲基金 High-Flyer 拥有和资助。其目标是通过开放源代码和开放科学推进人工智能,特别是在推理能力方面。最近的模型如 Deepseek-R1 和 Deepseek-V3 在全球 AI 圈引起了关注,特别是在成本效益和性能上。例如,Deepseek-V3 的训练成本仅为 600 万美元,而 OpenAI 的 GPT-4 在 2023 年的训练成本约为 1 亿美元。
调查开始时,GDPO 的具体含义并不明确。通过搜索“Deepseek GDPO”,未找到直接相关结果,但搜索“Deepseek GRPO”揭示了 GRPO 是 Deepseek 模型训练中的关键组件,特别是用于强化学习(RL)阶段。GRPO 被描述为一种不依赖批评者模型的 RL 算法,特别适合推理任务,如数学和逻辑问题。
GRPO 的定义与优势
GRPO,全称 Group Relative Policy Optimization,是一种强化学习算法,旨在通过评估一组响应来优化策略,而不依赖于传统的价值函数(critic model)。与传统的 Proximal Policy Optimization (PPO) 不同,GRPO 通过比较一组输出的相对奖励来计算优势,这降低了计算开销并简化了训练过程。其主要优势包括:
- 无批评者优化:消除了对单独价值函数的依赖,减少了内存和计算需求。
- 相对评估:评估一组响应,而不是孤立地评估每个响应,更符合奖励模型训练的本质。
- 高效训练:特别适合需要复杂推理的任务,如数学问题解决和长链推理。
以下是 GRPO 关键过程的详细描述:
方面 | 细节 |
---|---|
定义 | GRPO 是一种强化学习算法,通过评估一组响应的相对奖励来优化策略,无需批评者模型。 |
优势 | - 批评者免费优化,降低计算开销。 <br> - 相对评估,更适合奖励模型训练。 <br> - 高效训练,适合推理任务。 |
解决的挑战 | - 依赖批评者模型:移除批评者,减少内存和计算需求。 <br> - 高计算成本:避免迭代评估,降低成本。 <br> - 扩展性问题:提高在不同推理领域的泛化能力。 |
关键过程 | 1. 为查询生成一组响应。 <br> 2. 计算奖励(如准确性、格式、一致性)。 <br> 3. 比较响应计算相对优势。 <br> 4. 使用裁剪更新策略以确保稳定性。 <br> 5. 使用 KL 散度惩罚偏差。 |
性能指标 | - Deepseek-R1-Zero 在 AIME 2024 上 Pass@1 得分从 15.6% 提高到 71.0%,多数投票后达 86.7%,与 OpenAI-o1-0912 相当。 |
新兴能力 | 发展了自我验证、反思和长链推理能力,特别适合复杂任务。 |
扩展性与蒸馏 | - 移除批评者模型需求,支持大规模训练。 <br> - 从 GRPO 训练的检查点蒸馏较小模型,保留高推理能力。 |
Deepseek 如何实现 GRPO
Deepseek 在其模型训练中使用了 GRPO,特别是在 Deepseek-R1 和 Deepseek-R1-Zero 的强化学习阶段。以下是实现 GRPO 的详细步骤:
- 生成多组响应:为每个输入查询,模型使用当前策略生成多个响应。这一步确保有足够的数据点来比较和评估。
- 计算奖励:每个响应根据预定义的奖励函数进行评估。奖励函数可能基于任务的具体需求,例如对于数学问题,奖励可能是 1(正确)或 0(错误);对于更复杂的任务,可能涉及一致性或相关性的评分。
- 计算相对优势:对于每个查询的一组响应,计算组内平均奖励。然后,每个响应的相对优势定义为该响应的奖励减去组平均奖励。这一步消除了对全局价值函数的依赖,简化了计算。
- 更新策略:基于这些相对优势更新策略,通常使用策略梯度方法。更新可能包括一些稳定机制,如裁剪,以防止策略变化过大。
- 稳定性保障:引入 KL 散度术语,惩罚新策略与旧策略之间的偏差。这确保训练过程稳定,避免模型发散。
这一实现特别适用于 Deepseek-R1-Zero,这是一个通过纯 RL 训练的模型,无需监督微调(SFT)作为初步步骤。Deepseek-R1-Zero 在推理基准测试上表现出色,例如在 AIME 2024 上 Pass@1 得分从 15.6% 提高到 71.0%,多数投票后达 86.7%,与 OpenAI-o1-0912 相当。
意想不到的细节
一个意想不到的细节是,GRPO 的实施消除了对传统价值函数的依赖,这不仅降低了计算成本,还简化了训练流程。在当前高成本 AI 训练的环境中,这是一个显著的优势,特别是在资源有限的场景下。
争议与不确定性
虽然 GRPO 被认为是一种高效的 RL 算法,但其实现细节(如奖励函数的具体设计、组大小的选择)尚未完全公开。一些分析(如 DeepSeek’s Lies: A Closer Look at GRPO Implementation)质疑 Deepseek 是否完全依赖 GRPO,还是在背后使用了其他模型来评估输出。这表明可能存在争议,特别是在奖励函数的可行性和实际实施方面。
相关模型与扩展
Deepseek 还发布了其他模型,如 Deepseek-V3,这是一个混合专家(MoE)语言模型,总参数为 671B,其中每个标记激活 37B 参数。Deepseek-V3 采用了多头潜在注意力(MLA)和 DeepseekMoE 架构,这些架构在 Deepseek-V2 中得到了验证。虽然 Deepseek-V3 没有明确提到 GRPO,但其训练过程可能也受益于类似的 RL 优化技术。
此外,Deepseek 还开源了从 Deepseek-R1 蒸馏的六个密集模型(1.5B、7B、8B、14B、32B、70B),基于 Qwen 和 Llama。这些模型保留了高推理能力,表明 GRPO 的实施具有良好的扩展性和实用性。
结论
综合来看,Deepseek 的 GDPO 很可能指的是 GRPO,这是一种通过组相对奖励优化策略的强化学习算法。Deepseek 通过生成多组响应、计算奖励、评估相对优势并更新策略来实现 GRPO,并使用 KL 散度术语确保稳定性。这一实施帮助其模型在推理任务上达到与领先闭源模型相当的性能,同时降低了训练成本。然而,具体细节(如奖励函数设计)可能仍有争议,未来可能需要更多官方文档或研究论文来澄清
更多推荐
所有评论(0)