在Deepseek-R1-ZERO出现前，为何无人尝试放弃微调对齐，通过强化学习生成思考链推理模型？

ORM（结果奖励模型）定义：对模型生成的最终结果进行整体评估，仅分配一个稀疏奖励值（如正确/错误）。特点：训练数据需求低（仅需最终结果标注）适用于答案明确、无需中间过程验证的任务（如选择题）PRM（过程奖励模型）定义：对推理过程中的每个中间步骤进行细粒度评估，提供步骤级别的奖励信号。特点：需要步骤级人工标注（如PRM800K数据集含80万条步骤标签）更适合复杂推理任务（如数学证明、多步逻辑推导）

凳子花❀

598人浏览 · 2025-02-18 17:19:02

凳子花❀ · 2025-02-18 17:19:02 发布

文章目录

在Deepseek-R1-ZERO出现前，为何无人尝试放弃微调对齐，通过强化学习生成思考链推理模型？

这是系列博客，记录了我学习DeepSeek V3/R1时的学习笔记。其他博客：

在Deepseek-R1-ZERO出现前，为何无人尝试放弃微调对齐，通过强化学习生成思考链推理模型？

原文解析

参考链接：在Deepseek-R1-ZERO出现前，为何无人尝试放弃微调对齐，通过强化学习生成思考链推理模型？

实际上在R1出现之前，推特上有几个研究员表示曾经尝试过，但是失败了。近期也有一些人在R1出现之后，或者与R1的研究平行的去做一些直接通过基于ORM的RL来生成O1类的推理模型。

结合之前的一些认知，我认为大家在这方面探索较少的主要原因有两个：

Let’s verify step by step以及相关工作带来的思维定式
在此之前的基础模型的性能不足

首先，在Let’s verify step by step这篇文章里，OpenAI的人在多个数据集上做了一大堆实验来比较到底使用PRM和ORM哪个更好。

这篇文章有两个强结论：

PRM显著优于ORM
PRM的分布外泛化能力更强

这篇文章的影响力很大，后续有大量的工作都是以这两条假设为基础展开的，但是我们现在知道，如果要使用RL的话，ORM反而因为更难被reward hacking而更加有效。个人感觉这篇文章以及其相关的工作实际上把大家对O1的复现思路都带偏到PRM上了。

其次，基础模型的质量不足。

今天看到推特上有研究员感慨，他们早就产生了将RL用在LLM中的想法，也早早就去做了这方面的实验，但最终没能成功。当时他们用GPT2、LLama2这些模型做基础模型，尝试了各种RL算法，效果都不好。

他们总结，这其实不是因为他们方法不对，而是当时作为基础模型的LLM实在是太烂了！现在成功复现R1的那些小模型，用的都是Qwen2.5-MATH这类的推理能力经过强化的“小钢炮”。这些模型在各类reasoning-benchmark上的分数相较于他们当时实验的那些模型强好几倍。俗话说：朽木不可雕也。过去很长一段时间内大伙都在一节烂木头上做研究，根本雕不出花来。只能说这就是时代的局限性。

PPO算法

PPO（Proximal Policy Optimization，近端策略优化）是一种用于强化学习的算法，旨在通过优化策略来最大化智能体在给定环境中的累积奖励。作为一种基于策略梯度的方法，PPO直接对策略进行优化，试图找到能够使期望回报最大化的策略。与传统的策略梯度方法相比，PPO通过限制新旧策略之间的差异，确保了训练过程的稳定性，同时提高了样本效率。

PPO的核心思想是通过两种方式来约束策略更新：一种是PPO-Clip，它通过在目标函数中加入一个裁剪项来限制新策略和旧策略之间的差异；另一种是PPO-Penalty，它通过在目标函数中添加惩罚项来实现类似的效果。这两种方法都旨在防止策略更新过于剧烈，从而避免训练过程中可能出现的不稳定现象。例如，在机器人控制任务中，如果策略更新幅度过大，可能导致机器人动作变得不可预测，而PPO则可以有效缓解这一问题。

PPO属于按策略（on-policy）算法，这意味着它使用当前策略生成的经验来进行更新。尽管如此，PPO可以通过微批抽样与多轮迭代的方式，以近似离策略的方式利用最新策略迭代收集的经验，从而提高数据效率。此外，PPO还采用了广义优势估计（GAE, Generalized Advantage Estimation）来计算优势函数，这有助于在偏差和方差之间取得平衡，进一步提升学习效率。

在实际应用中，PPO已被广泛应用于多种场景，如机器人控制、游戏AI等。例如，在自动驾驶领域，PPO可以帮助车辆学习如何根据周围交通状况选择合适的加速或减速时机，确保安全高效地到达目的地。尽管PPO具有诸多优点，但在设计奖励函数时仍需谨慎，以确保其能正确引导智能体的行为。

"Let’s Verify Step by Step"及相关研究工作解析

核心论文解读

OpenAI团队在2024年发表的论文《Let’s Verify Step by Step》开创了过程监督奖励模型(PRM)的系统性研究，其核心贡献体现在三个层面：

方法论突破

实验设计：在MATH数学数据集上构建了包含12,500道题目的验证集，通过蒙特卡洛树搜索生成超过200万条推理路径
性能对比：PRM在复杂数学问题上正确率78.2%，比ORM提升23.6个百分点
错误定位：建立错误步骤定位机制，可将85%的错误追溯至具体推导步骤

数据集创新
推出的PRM800K数据集包含：

80万个人工标注的步骤级正确性标签
覆盖代数、几何、数论等6大数学分支
每个问题平均包含6.4个验证步骤

训练范式革新

主动学习策略：通过不确定性采样使数据效率提升2.6倍
混合监督框架：将ORM用于初筛，PRM用于精调，降低40%标注成本

关键技术对比

维度	过程监督(PRM)	结果监督(ORM)
反馈粒度	步骤级二元分类	结果级0/1判断
数据需求	需专业标注(数学博士参与)	仅需答案标注
计算开销	单次推理耗时增加58%	基准耗时(100%)
错误诊断	可定位到具体步骤	仅整体判断
适用场景	多步逻辑推理	端到端分类任务

前沿研究方向

自动化标注

合成数据生成：Math-Shepherd项目通过LLM生成带步骤解释的数学问题，准确率达92%
半监督学习：使用ORM筛选高置信度样本，PRM进行精细标注

多模态验证

视觉推理：在几何证明中结合图表解析与代数推导
代码验证：对程序生成的中间变量进行类型检查

可解释性增强

注意力可视化：展示模型在关键推理步骤的关注区域
反事实分析：构造近似错误案例解释决策逻辑

挑战与局限：当前PRM仍面临标注成本高（数学问题标注耗时约15分钟/题）、领域迁移弱（数学到物理场景性能下降38%）、长程依赖处理不足（超过20步的推理准确率骤降至42%）等瓶颈，需进一步突破。

PRM与ORM解析

核心概念定义

在深度学习的奖励模型领域，PRM（过程奖励模型，Process Reward Model）和ORM（结果奖励模型，Outcome Reward Model）是两种关键机制，分别对应不同粒度的反馈模式：

ORM（结果奖励模型）

定义：对模型生成的最终结果进行整体评估，仅分配一个稀疏奖励值（如正确/错误）。
特点：
- 训练数据需求低（仅需最终结果标注）
- 适用于答案明确、无需中间过程验证的任务（如选择题）

PRM（过程奖励模型）

定义：对推理过程中的每个中间步骤进行细粒度评估，提供步骤级别的奖励信号。
特点：
- 需要步骤级人工标注（如PRM800K数据集含80万条步骤标签）
- 更适合复杂推理任务（如数学证明、多步逻辑推导）

技术原理对比

维度	ORM	PRM
奖励粒度	单值（最终结果）	多值（每个步骤评分）
训练数据成本	低（仅需结果标签）	高（需人工标注中间步骤）
反馈精度	无法定位错误步骤	可精确识别错误发生位置
典型应用场景	简单分类、短文本生成	数学推理（MATH数据集78.2%）、复杂逻辑任务

训练方式差异

ORM目标函数：交叉熵损失优化最终结果判别
PRM训练流程：
1. 使用MCTS生成多步推理轨迹
2. 人工标注每个步骤的正确性
3. 构建二元分类模型预测步骤得分

应用场景与局限性

ORM的优势场景

快速原型开发：在标注资源有限时快速搭建基线模型
结果导向任务：如情感分类（只需判断整体情感倾向）

PRM的核心价值

错误定位：在数学解题中，能识别具体错误步骤（如公式推导错误）
模型对齐：通过奖励符合人类思维链的推理过程，减少"正确结果错误路径"现象
泛化能力：OpenAI实验显示PRM在分布外数据表现优于ORM

实践挑战

数据标注成本：PRM800K数据集需专业标注人员处理数学解题步骤
计算复杂度：MCTS生成轨迹导致训练耗时增加60%以上
噪声干扰：自动生成的推理路径可能包含无效分支

前沿发展方向

混合训练策略

ORM引导PRM：使用ORM筛选高质量轨迹，降低PRM标注工作量
课程学习：从简单任务的ORM逐步过渡到复杂任务的PRM

自动化数据生成

合成数据增强：利用LLM生成伪标注步骤（如Math-Shepherd数据集）
主动学习：OpenAI证明可使PRM数据效率提升2.6倍

跨领域应用拓展

医疗诊断：对医学影像分析的多步推理进行过程监督
代码生成：验证程序编写过程中的逻辑正确性

Chain of Thought（CoT）

Chain of Thought（CoT）是一种旨在提升大语言模型推理能力的方法，其核心思想是通过模拟人类的思维过程，将复杂问题分解为一系列逐步推导的子问题。这种逐步推理的方式能够帮助模型更清晰地表达中间逻辑步骤，从而提高最终答案的准确性和可解释性。本质上，CoT并不是一种全新的模型架构或算法，而是一种提示策略（Prompting Strategy），即通过设计特定的输入格式引导模型生成分步推理的结果。例如，在解决数学问题时，模型可以先列出已知条件，再逐步推导出未知变量的值，最后得出最终答案。

CoT的核心在于设计适当的输入格式（Prompt），以激发模型逐步推导的能力。例如，在解决数学问题时，可以通过构造包含“首先……然后……最后……”结构的提示模板，引导模型按照逻辑顺序生成答案。这种提示策略不仅适用于数学问题，还可以扩展到其他领域，如逻辑推理、科学问答等。具体来说，模型会根据输入的上下文信息，利用多头注意力机制（Multi-Head Attention, MHA）计算查询向量（Query）、键向量（Key）和值向量（Value）之间的相关性，从而生成中间推理步骤。

CoT的实现形式可以分为Zero-Shot CoT和Few-Shot CoT两种。Zero-Shot CoT仅通过简单的提示（如“让我们一步步思考”）唤醒模型的推理能力，而Few-Shot CoT则提供少量示例以帮助模型学习推理模式。这两种方式各有优劣，具体选择取决于任务需求和模型规模。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐