DeepSeek-R1-Zero 最令人振奋的成果之一,是通过纯强化学习(RL)实现了“顿悟时刻”(Aha moment)。在顿悟时刻,模型学会了诸如自我反思等新兴技能,这有助于其在上下文中进行搜索,以解决复杂的推理问题

在 R1-Zero 发布后的短短几天内,多个项目在较小规模(例如 1B 到 7B)的模型上独立“复现”了类似 R1-Zero 的训练,并且都观察到了顿悟时刻,通常伴随着响应长度的增加。

然而,There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study 这篇博客文章通过 oat-zero 研究项目,对 R1-Zero-like 模型的训练进行了动态深入分析,并有以下发现:

  • 在类似 R1-Zero 的训练中,可能并不存在顿悟时刻。相反,顿悟时刻(如自我反思模式)出现在第 0 轮训练中,即基础模型。

  • 从基础模型的响应中发现了表面自我反思(SSR),在这种情况下,自我反思并不一定导致正确的最终答案。

  • 通过 RL 更深入地研究了类似 R1-Zero 的训练,发现响应长度增加的现象并非源于自我反思的出现,而是 RL 优化基于规则的奖励函数的结果。

基础模型也存在自我反思模式

实验设置

基础模型:Qwen-2.5, Qwen-2.5-Math, DeepSeek-Math, Rho-Math, and Llama-3.x.

提示词模板:作者直接使用 R1-Zero 和 SimpleRL-Zero 中应用的模板来提示基础模型。

  • 模板一(R1-Zero):

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>. User: {Question} Assistant:
  • 模板二(SimpleRL-Zero):

<|im_start|>system\nPlease reason step by step, and put your final answer within \boxed{}.<|im_end|>\n<|im_start|>user\n{Question}<|im_end|>\n<|im_start|>assistant

数据集:从 MATH 训练数据集中收集了 500 个问题,这些问题均匀覆盖了所有五个难度级别和所有主题,用于填充上述模板中的 {Question}

生成参数:对 temperature (温度)进行了从 0.1 到 1.0 的网格搜索,以在选定的问题上进行模型推理。所有实验中的 Top P 均设置为 0.9。我们为每个问题生成了 8 个响应。

实验结果

作者首先尝试了所有模型与提示模板的组合,然后根据每个模型的指令跟随能力选择最佳模板,并在所有实验中固定使用该模板。同时在下表中列出了所有观察到的表明自我反思模式的关键词(可能并不全面):

Model

Best template

self-reflection keywords

Qwen2.5-Math-1.5B, 

Qwen2.5-Math-8B, 

Qwen2.5-7B

Template 2

rethink, 

recheck, 

try again, 

let's correct it, 

verify the steps again.

Microsoft-Rho-Math-7B

Template 2

recheck, 

re-evaluate, 

check again, 

try again.

DeepSeek-Math-7B-Base

Template 1

let's try again, 

let's think again.

Llama-3.1-8B

Template 1

None

发现:顿悟时刻出现在第 0 个周期。所有模型(除了 Llama-3.x 系列)在没有任何后训练的情况下,已经表现出自我反思的模式

在下图中,展示了不同基础模型中引发自我反思行为的问题数量。结果表明,自我反思行为可以在不同温度下观察到,且趋势显示,在较高温度下,第 0 个 epoch 的“顿悟时刻”更频繁地出现。

图1a. 不同基础模型在500道数学题中引发自我反思行为的问题数量。

图1a. 不同基础模型在500道数学题中引发自我反思行为的问题数量。

下图展示了不同自我反思关键词的出现次数。我们可以观察到,来自 Qwen2.5 家族的基础模型在产生自我反思行为方面最为活跃,这在一定程度上解释了为什么大多数开源的 R1-Zero 复现模型都基于 Qwen2.5 模型

图1b. 在40,000条回复中关键词出现的次数(500个问题 × 每个问题8条回复 × 10种温度)。y轴采用对数刻度。

图1b. 在40,000条回复中关键词出现的次数(500个问题 × 每个问题8条回复 × 10种温度)。y轴采用对数刻度。

在确认“顿悟时刻”确实出现在基础模型上之后,它是否真的如我们所期望的那样——通过自我反思来纠正错误的推理? 为此,作者直接在 Qwen2.5-Math-7B 基础模型上测试了 SimpleRL-Zero 博客中使用的示例问题,发现基础模型已经展现出了合理的自我纠正行为,如下图所示。

图2. 直接在Qwen2.5-Math-7B基础模型上测试了SimpleRL-Zero博客中报告的相同问题,发现“Aha”时刻已经出现。

图2. 直接在Qwen2.5-Math-7B基础模型上测试了SimpleRL-Zero博客中报告的相同问题,发现“Aha”时刻已经出现。

表面上的自我反思

尽管前面的示例展示了基础模型通过自我纠正的 CoT 直接解决复杂推理问题的巨大潜力,但并非所有来自基础模型的自我反思都是有效的、能够带来改进的解决方案。为了便于讨论,我们将其称为表面上的自我反思(Superficial Self-Reflection)

表面自我反思(Superficial Self-Reflection, SSR)指的是模型响应中缺乏建设性修订或改进的重新评估模式。与没有自我反思的响应相比,SSR 并不一定会带来更好的答案

案例研究

为了识别 SSRs(自我反思行为),作者进行了案例研究,并在 Qwen-2.5-Math-7B 基础模型的响应中观察到了四种自我反思模式:

  • 行为1:自我反思以复核并确认正确答案(图3a)。

图3a. 自我反思通过双重检查答案来确保其正确性。

图3a. 自我反思通过双重检查答案来确保其正确性。

  • 行为2:自我反思以纠正最初错误的思路(图3b和图2)。

图3b. 自我反思纠正了最初错误的答案。

图3b. 自我反思纠正了最初错误的答案。

  • 行为3:自我反思将错误引入原本正确的答案中(图3c)。

图3c. 自我反思在原本正确的答案(x=12)中引入了一个错误(x=4)。

图3c. 自我反思在原本正确的答案(x=12)中引入了一个错误(x=4)。

  • 行为4:重复的自我反思未能生成有效答案(图3d)。

图3d. 重复的自我反思未能提供有效答案(无论是正确还是错误)。

图3d. 重复的自我反思未能提供有效答案(无论是正确还是错误)。

其中,行为3行为4属于表面化的自我反思,最终导致错误的答案

基础模型容易产生 SSR

接下来,分析了 Qwen2.5-Math-1.5B 在正确和错误回答中自我反思关键词的出现情况。如图 4 所示,在不同采样温度下,大多数自我反思(通过其频率衡量)并未带来正确答案,这表明基础模型容易产生表面的自我反思。

图4. 正确与错误回答中的自我反思次数。蓝色柱状图表示正确回答中自我反思关键词的总出现次数,红色柱状图表示错误回答中的总出现次数。

图4. 正确与错误回答中的自我反思次数。蓝色柱状图表示正确回答中自我反思关键词的总出现次数,红色柱状图表示错误回答中的总出现次数。

深入分析 R1-Zero 式训练

虽然模型响应长度的突然增加通常被视为类似 R1-Zero 训练中的“顿悟时刻”,但在第 1 节中的发现表明,即使没有强化学习训练,这种时刻也可能发生。这引发了一个自然的问题:为什么模型响应长度会遵循一种独特的模式——在训练早期阶段先减少,然后在某个时刻突然增加?

为了探究这一问题,作者通过两种方法研究了类似 R1-Zero 的训练:(1)在 Countdown 任务上对 R1-Zero 进行简化复现,以分析输出长度的动态变化;(2)使用 MATH 训练数据集中的数据,在数学问题上复现 R1-Zero,以研究输出长度与自我反思之间的关系。

长度变化是强化学习动态的一部分

作者使用支持类似 R1-Zero 训练的 oat,在 Countdown 任务上通过 GRPO 对 Qwen-2.5-3B 基础模型进行 RL 调优。在此任务中,模型会接收到三到四个数字,并被要求使用算法操作(+、-、×、÷)构建一个等于目标值的等式。这不可避免地要求模型尝试不同的提议,因此需要具备自我反思的行为。

图  5 的右侧图表展示了 RL 训练过程中奖励和响应长度的动态变化。与 TinyZero 和 SimpleRL-Zero 类似,我们观察到奖励持续增加,而长度先减少后激增,这被现有研究归因于“顿悟时刻”。然而,我们注意到基础模型的响应中已经存在自我反思模式(见第1节),但其中许多是表面的(见第2节),因此奖励较低。

图5. (左)对不同响应组的分布和平均长度进行详细分析。(右)测试奖励和模型响应长度的RL曲线。

图5. (左)对不同响应组的分布和平均长度进行详细分析。(右)测试奖励和模型响应长度的RL曲线。

放大初始学习阶段,作者分析了基于规则的奖励塑造如何影响 RL 动态并导致长度变化。在图 5 的左图中,根据奖励将模型响应分为三个不同的组:

这种简单的分解揭示了强化学习(RL)动态中的一些见解:

  • 在第 88 步之前,训练主要由格式奖励(r=0.1)主导,通过调整模型使其在生成 token 预算内停止并将答案格式化为块内,更容易优化格式奖励。在此期间,冗长的不正确响应被抑制,因此平均回答长度急剧下降

  • 在第 88 步时,模型开始通过输出更多 retry(自我反思关键词) 来攀登奖励山,以追求更高的奖励(正确性奖励 r=1)。因此,我们观察到正确响应的长度增加。作为副作用,模型也输出了更多冗长但肤浅的自我反思(SSR),导致平均回答长度激增

  • 整个强化学习过程旨在将原本肤浅的自我反思(superficial self-reflection)转变为有效的自我反思(effective self-reflection),以最大化预期奖励,从而提升推理能力。

长度与自我反思可能并不相关

按照 SimpleRL-Zero 的设置,作者使用 8K MATH 提示对 Qwen2.5-Math-1.5B 进行训练。在训练初期,观察到输出长度有所下降,直到大约1,700个梯度步数后,长度才开始增加(见图6)。

图6. 基于Qwen2.5-Math-1.5B模型,使用8K MATH提示的训练动态。MATH500测试集上的准确率和平均响应长度。

图6. 基于Qwen2.5-Math-1.5B模型,使用8K MATH提示的训练动态。MATH500测试集上的准确率和平均响应长度。

然而,自我反思关键词的总数与输出长度之间并未呈现出单调关系,如图7所示。这表明,仅凭输出长度可能无法可靠地反映模型的自反思能力

图7. 训练期间自我反思关键词的总数。

图7. 训练期间自我反思关键词的总数。


内容来源:IF 实验室

引用 & 图源:Liu, Z., Chen, C., Li, W., Pang, T., Du, C., & Lin, M. (2025). There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study. Notion Blog. Retrieved from https://oatllm.notion.site/oat-zero.

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐