以批判性视角审视 R1-Zero-Like 训练

爱编程的小辞

948人浏览 · 2025-03-25 09:25:51

爱编程的小辞 · 2025-03-25 09:25:51 发布

DeepSeek-R1-Zero 已经证明，大规模强化学习（RL）可以在不依赖监督微调的情况下直接增强大语言模型（LLM）的推理能力。Sea AI Lab 的研究人员对 R1-Zero 训练方法进行了深入分析，重点探讨其两个核心组成部分：基础模型和强化学习。研究人员研究了多种基础模型，包括 DeepSeek-V3-Base，以理解预训练特性如何影响强化学习的表现。分析发现，DeepSeek-V3-Base 已经展现出“顿悟时刻”（Aha moment），而 Qwen2.5 基础模型即使不使用提示模板（prompt templates），也表现出较强的推理能力，这表明其预训练可能存在一定的偏向性。此外，研究人员发现 Group Relative Policy Optimization（GRPO）过程中存在一种优化偏差，该偏差会在训练过程中人为增加输出长度（尤其是在错误输出中更为明显）。为了解决这一问题，研究人员提出了一种无偏优化方法 Dr. GRPO，它在保持推理能力的同时，提高了 token 生成的效率。基于这些研究洞见，研究人员提出了一种简约的 R1-Zero 训练方法，在 AIME 2024 任务上取得了 43.3% 的准确率（使用 7B 规模的基础模型），创下最新的 SOTA。

如左图所示，Dr. GRPO 通过去除长度和标准差归一化项，对 GRPO 进行了简单但重要的修改，以消除其偏差。右图则展示研究人员提出的无偏优化器有效防止模型生成越来越长的错误回复，从而提高 token 生成效率。

总结来说，本研究主要结论如下：

模板至关重要，它能够引导基础模型回答问题，而不是仅仅补全句子。此外，所有基础模型在 RL 之前就已经具备一定的数学解题能力。
Qwen-2.5 基础模型在不使用模板时，推理能力立即提升约 60%。这可能是在模型训练过程中预训练过拼接的“问题-答案”文本。
绝大多数基础模型已经具备 “顿悟时刻”（Aha moment），包括 DeepSeek-V3-Base。
Dr. GRPO 有效修正了 GRPO 训练中的优化偏差，显著提高了 token 生成效率。
模型与模板不匹配会破坏推理能力，而 RL 训练可以重建该能力。
对 Llama-3.2-3B 进行数学预训练能够提升其 RL 训练上限。

基础模型分析

分析样本：从 MATH 训练集中采样 500 个问题询问基础模型，并分析模型的响应。

研究人员首先探讨一个关键问题：那些广泛使用的开源基础模型（通常是为句子补全任务训练的），是否可以通过合适的模板充分激发其问答能力，从而使其能够作为问答的基础策略。为此，研究人员研究了 R1 模板、Qwen-Math 模板，以及无模板设置，如下所示：

下图中，左图给出在有和没有模版时，基础模型回答给定问题的质量。这里，回答质量通过回答率评估，表示的是通过 GPT-4o-mini 评估为回答格式（而不是补全模式）的回答的比率。可以看到，通过使用合适的模版（R1 模版） Llama 和 DeepSeek 模型都提升了回答能力。然而，当不使用模版时，Qwen2.5 模型表现最好，回答率为 100%。同时，观察到在没有模版时 DeepSeek-V3-Base 的回答率最低，表明其近乎是一个纯粹的基础模型。

上面的分析表明：即使不使用任何模板，所有 Qwen2.5 基础模型也能直接作为问答模型。研究人员进一步评估了 Qwen2.5-Math 模型在五个标准数学基准测试上的推理能力。结果表明：不使用任何模板显著提升了平均性能，相比于传统的 4-shot 提示（prompting），性能提升约 60%。这可能是因为 Qwen2.5-Math 在预训练阶段使用了聊天模型的数据（即问答对）。如果该假设成立，那么在复现 DeepSeek-R1-Zero 时，需要更加谨慎地使用 Qwen2.5 模型，因为这些基础模型本身已经类似于 SFT（监督微调）模型，即便不使用模板也是如此。

中间的曲线图展示了不同基础模型（使用模板）在不同采样温度下的 pass@8 准确率。该指标可以用来衡量基础策略的探索能力。例如，如果一个基础策略连一条能够得到正确最终答案的轨迹都无法采样出来，那么强化学习（RL）就无法提升该策略，因为它根本无法获得奖励信号。实验结果表明，所有测试模型都具备探索能力（因此适用于 RL 训练），其中 Qwen2.5 系列表现最佳（甚至超过了 DeepSeek-V3-Base）。这一结果可能部分解释了为什么大多数 R1-Zero 项目都基于 Qwen2.5 模型。

此前的一些研究提出，在开源 R1 复现项目中可能不存在真正的 Aha moment，因为这些项目使用的基础模型本身已经具备自我反思的关键词。然而，他们并未测试 DeepSeek-V3-Base，而真实的 R1-Zero 训练正是基于该模型进行 RL 微调的。为补全这一缺失部分，研究人员自行部署了 DeepSeek-V3-Base-685B，并使用 R1 模板评估其在 500 道 MATH 题目上的推理表现。从右侧的曲线图可以观察到，DeepSeek-V3-Base 也会生成大量的自我反思内容。此外，在一些典型示例中 DeepSeek-V3-Base 生成了诸如 “Aha”、 “wait”、 “verify the problem” 等关键字，表明其已经具备一定的 Aha moment，即便未经过 RL 调优。

强化学习分析

在 DeepSeek-R1-Zero 训练过程中，一个显著的趋势是模型的输出长度持续增长。这一现象常被解释为高级推理能力（如自我反思）的涌现。然而，研究人员认为输出长度的增加也可能是由于 GRPO 目标函数自身的偏差所导致的：

其中，代表DeepSeek-R1-Zero 训练中给定问题 q 及其回答所得到的奖励。

GRPO 目标函数存在两个主要偏差：

响应级别的长度偏差（Response-level length bias）：该偏差来自于公式中的归一化项。当（即正确回答时），短回答的梯度更新更大，导致策略更倾向于生成简洁的正确答案。当（即错误回答时），长回答受到的惩罚较小，因此策略更倾向于生成较长的错误回答。
问题级别的难度偏差（Question-level difficulty bias）: 该偏差来自于归一化项。在策略更新过程中，标准差较低的问题被赋予了更高的权重，这与传统 RL 训练中对整个 batch 进行优势归一化的方式不同。由于不同问题的标准差不同，这种问题级别的归一化会导致不同问题在目标函数中的权重不均衡。

开源 PPO 实现中同样存在长度偏差. 研究人员还分析了多种开源的标准 PPO 算法（用于大语言模型的 RL 后训练），发现所有这些实现都在损失函数中引入了响应长度偏差。这种基于每个 token 归一化的方式可能源于 LLM 预训练阶段的自回归目标，其目的是让每个 token 对损失贡献均等。然而，在 RL 训练中，按归一化会引入意想不到的偏差，导致模型在错误回答时倾向于生成更长的响应。

为了避免 GRPO 目标函数中的优化偏差，研究人员提出了一个简单的改进方法：直接去除归一化项和。与此同时，为了严格实现无偏优化目标，可以在 masked mean 函数中，将 mask.sum(axis=dim) 替换为一个固定值（如生成预算），这部分修改在代码中以绿色高亮标示。

值得注意的是，这些简单的修改使得目标函数恢复为 PPO 目标函数，其中优势估计采用蒙特卡洛回报（Monte Carlo return），并使用无偏基线。这个新的优化算法称为 Dr. GRPO。接下来，通过实验验证 Dr. GRPO 的有效性。

首先，GRPO 和 Dr. GRPO 都呈现出类似 DeepSeek-R1-Zero 的趋势，即响应长度随着训练奖励的增加而增长。然而，GRPO 即使在奖励提升放缓时，仍然会不断生成更长的响应。尽管这种现象通常被描述为 RL 训练中长推理链（Long-CoT）的“涌现”，但研究人员认为这实际上受到优化中的“响应长度偏差”的影响。相比之下，Dr. GRPO 通过计算无偏梯度，成功抑制了训练过程中响应长度的无限增长。此外，在基准测试上，Dr. GRPO 生成的错误响应明显更短，这表明无偏优化器能够有效缓解过度思考（overthinking）。

前文提到，Qwen2.5-Math 基础模型即使不使用任何提示模板（No template），也能以较高的准确率回答问题。基于这一有趣的观察研究了不同模板如何影响 RL 训练。此外，通常认为更广泛的问题集覆盖有助于提升模型性能。因此，进一步探讨不同模板与不同问题集覆盖范围之间的交互关系。

上图展示了不同实验的 RL 训练曲线，可以得到以下有趣的观察：

模板决定了初始策略的性能，但 RL 训练可以将所有策略提升到相当水平（约 40%）（前提是使用合适的问题集）。
当使用 R1 模板时，问题集的覆盖范围显著影响 RL 训练的动态，过窄的覆盖范围会导致较低的性能上限。
当使用 Qwen-Math 模板时，在 GSM-8K 上进行 RL 训练可获得最佳最终性能。这表明在更简单（甚至是分布外 o.o.d.）的问题集上训练，可以显著提升模型在更难问题上的测试精度（几乎翻倍）。

Qwen2.5-Math-1.5B 基础模型本身已具备很强的数学解题能力。应用模板反而会破坏这一能力，RL 训练需要重新构建。这意味着在声称 RL 训练带来的巨大收益时应更加谨慎。当基础模型与模板不匹配（例如 R1 模板与 Qwen2.5-Math-1.5B 不匹配）时，策略的提升主要来自 RL 调优。在这种情况下，问题集的覆盖范围至关重要。即使使用一个较小且完全分布外（o.o.d.）的问题集，RL 仍然可以通过强化正确的推理行为来提升模型的推理能力，而非单纯注入新知识。

目前，大多数成功复现 R1-Zero 训练方式的数学推理模型都采用 Qwen2.5 基础模型作为初始策略。这些模型本身已具备较强的数学推理能力，并且表现出自我反思模式。研究人员希望探索另一个问题：R1-Zero 类似的训练方法，是否可以在原本数学推理能力较弱的基础模型上取得成功？

本研究给出了肯定的答案，并观察到：数学预训练可以提升 RL 训练的性能上限。

研究人员选择 Llama-3.2-3B 作为初始基础模型，并采用无偏的 Dr. GRPO 算法进行 RL 训练，使用 R1 模板。假设特定领域的预训练会增强 RL 训练效果，因此使用 Llama-3.2-3B-FineMath4，即在 FineMath 数据集上进行持续预训练的版本。此外，鉴于 Qwen2.5 可能在预训练阶段使用了拼接的问答数据，采用 NuminaMath-1.5 数据集构建了类似的拼接数据集，并在 Llama-3.2-3B-FineMath 的基础上继续训练 2 轮，学习率设为 1e-5。这一拼接持续预训练后的模型，称之为 Llama-3.2-3B-NuminaQA。

左图展示了不同基础模型在 RL 训练中的表现：RL 训练可以改善原始 Llama 基础模型的性能，但提升幅度极小。经过持续预训练（FineMath）以及拼接持续预训练（NuminaQA）后，Llama 模型的 RL 训练效果显著增强，验证了假设：数学领域的预训练有助于 RL 训练。

右图对比了 GRPO 和 Dr. GRPO 训练的 Llama 模型的性能及生成长度。结果显示，GRPO 训练的模型会出现“双重增长”现象，即奖励分数与生成长度同时增长。这可能导致误以为数学预训练可以在 Llama 模型上直接诱导长链思维（long-CoT）。然而，生成长度的增长可能主要来源于 GRPO 的优化偏差，并非真正的推理能力提升。Dr. GRPO 能有效消除这一优化偏差，避免生成长度的异常增加，使训练更稳定可靠。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

HAproxy服务器带日志

我现在有两台WindowsAD域控 10.10.10.1 和10.10.10.2，我现在有一个准入系统10.10.11.100需要提供ldap认证，我现在想搭建一个haproxy服务器IP 10.10.10.200做ldap业务的负载均衡，这样在准入系统上只要填haproxy服务器地址即可，所有通过haproxy服务器获取ladp的信息在haproxy需要有日志，haproxy服务已经安装，配置

DeepSeek技术社区

AI驱动的VOC如何助力企业洞察市场需求，促进业务增长？

例如，随着汽车行业竞争加剧，客户到底在反馈什么、关注什么至关重要，因此，某头部车企将VOC（客户之声，Voice of Customer）定义为客户情报中心，希望通过VOC系统了解客户在说我们什么、在说竞品什么，客户反馈的问题是否解决了、谁在解决、解决得好不好。目前，售后宝深度融合DeepSeek、通义、豆包等主流模型学习推理能力，构建了智能VOC Agent，能够从繁多的声音中洞察业务关键信息，