DeepSeek与清华系论文：大规模强化学习通用奖励模型新方法SPCT

强化学习已被广泛用于大型语言模型LLMs 的大规模训练后。最近，RL中LLMs推理能力的激励表明，适当的学习方法可以实现有效的推理时间可扩展性。RL 的一个关键挑战是获得各个领域的准确奖励信号LLMs，而不是可验证的问题或人为规则。在这项工作中，我们研究了如何通过对一般查询进行更多的推理计算来改进。

拥抱AGI

1259人浏览 · 2025-04-13 19:16:24

拥抱AGI · 2025-04-13 19:16:24 发布

每逢假期，必有大事发生。最近DeepSeek联合清华大学发布了一篇关于大规模强化学习的新论文在AI圈子很火爆，《Inference-Time Scaling for Generalist Reward Modeling》，跟着小编一起深入研究下，以下是论文译文，Enjoy。

摘要

强化学习已被广泛用于大型语言模型LLMs 的大规模训练后。最近，RL中LLMs推理能力的激励表明，适当的学习方法可以实现有效的推理时间可扩展性。RL 的一个关键挑战是获得各个领域的准确奖励信号LLMs，而不是可验证的问题或人为规则。在这项工作中，我们研究了如何通过对一般查询进行更多的推理计算来改进奖励建模 （RM），即通才 RM 的推理时间可扩展性，以及进一步了解如何通过适当的学习方法提高性能计算扩展的有效性。对于 RM 方法，我们采用逐点生成奖励模型（GRM），以便为不同的输入类型提供灵活性，并有可能进行推理时间扩展。对于学习方法，我们提出了自我原则的批判调整（SPCT），通过在线 RL 在 GRM 中培养可扩展的奖励生成行为，以自适应地生成原则并准确生成批判，从而产生 DeepSeek-GRM 模型。

此外，为了实现有效的推理时扩展，我们使用并行采样来扩展计算使用，并引入元 RM 来指导投票过程以获得更好的扩展性能。实证上，我们表明 SPCT 显著提高了 GRM 的质量和可扩展性，在各种 RM 基准中优于现有方法和模型，没有严重的偏差，并且与训练时缩放相比可以获得更好的性能。DeepSeek-GRM 在某些任务中仍然会遇到挑战，我们相信这些挑战可以通过未来在通才奖励系统方面的努力来解决。这些模型将发布并开源。

1、介绍

大型语言模型的显著进步催化了人工智能研究的重大转变，使模型能够执行需要理解、生成和细致决策能力的任务。最近，强化学习作为一种训练后方法LLMs已被广泛大规模采用，并在人类价值对齐方面取得了显著改善、长期推理和环境适应。LLMs奖励建模作为 RL 的关键组成部分，对于为LLM响应生成准确的奖励信号至关重要。当前研究还表明，凭借在训练或推理时间方面的高质量和稳健的奖励，LLMs可以在特定领域取得强劲的性能。

图 1：在所有测试的 RM 基准测试中，不同 RM 的推理时间扩展性能。每种方法最多显示 8 个样品的结果，我们的结果进一步放大到 32 个样品。非斜体字体表示基于 Gemma-2-27B 的模型。

然而，这种特定领域的高质量奖励主要来自条件明确的人工设计环境或来自可验证问题的手工规则，例如，数学问题的一部分和编码任务。一般来说，奖励生成更具挑战性，因为奖励的标准更加多样化和复杂，而且通常没有明确的参考或基本事实。因此，通才奖励建模对于提高更广泛的应用程序的性能LLMs至关重要，无论是从训练后的角度（例如，大规模的 RL），还是从推理的角度（例如 RM 引导的搜索）。此外，应该通过增加训练计算和推理计算来提高 RM 性能。

在实践中，使 RM 既通用又在推理时间内有效可扩展方面存在挑战。通才 RM 需要（1）不同输入类型的灵活性，以及（2）在各个领域中准确生成奖励。此外，有效的推理时间可扩展性要求 RM（3）通过增加推理计算生成更高质量的奖励信号，以及（4）学习可扩展行为以实现更好的性能计算扩展。关于奖励建模的现有研究表明了奖励生成的几种范式，包括标量、半标量和生成方法和各种评分模式，如逐点和成对。这些方法本质上决定了 RM （（1）&（3））的输入灵活性和推理时间可扩展性，如图 2 所示。例如，成对 RM 只考虑成对响应的相对偏好，缺乏接受单个或多个响应作为输入的灵活性;标量 RM 几乎无法为相同的响应生成不同的奖励信号，这阻碍了通过基于采样的推理时间缩放方法获得更好的奖励。此外，不同的学习方法被认为可以提高奖励的质量，但很少有人关注推理时间可扩展性，并研究学习到的奖励生成行为与 RM 推理时间缩放的有效性之间的相互联系，从而导致边际性能改进（（2）&（4））。目前的研究表明，适当的学习方法可以实现有效的推理时间可扩展性，这就提出了一个问题：我们能否设计一种学习方法，旨在为通才奖励建模实现有效的推理时间扩展？

在这项工作中，我们研究了 RM 的不同方法，发现逐点生成奖励模型（GRM）可以在纯语言表示中统一单个、成对和多个响应的评分，从而克服挑战（1）。我们探索了某些原则可以在 GRM 的适当标准内指导奖励生成，从而提高奖励的质量，这激发了我们，RM 的推理时间可扩展性可以通过扩展高质量原则和准确批评的生成来实现。基于这个初步结论，我们提出了一种新的学习方法，即自我原则的批判调整（SPCT），以在 GRM 中培养有效的推理时间可扩展行为。通过利用基于规则的在线 RL，SPCT 使 GRM 能够学习根据输入的查询和响应自适应地提出原则和批评，从而在一般领域获得更好的结果奖励（挑战（2））。然后，我们提出了 DeepSeek-GRM-27B，它基于基于 Gemma-2-27B用 SPCT 进行了后训练。对于推理时间扩展，我们通过多次采样来扩展计算使用量。通过并行抽样，DeepSeek-GRM 可以生成不同的原则集和相应的批评，然后投票选出最终奖励。通过更大规模的抽样，DeepSeek-GRM 可以更准确地判断具有更高多样性的原则，并输出更细粒度的奖励，从而解决了挑战（3）和（4）。

此外，除了投票之外，我们还训练了一个 meta RM 以获得更好的扩展性能。实证表明，SPCT 显著提高了 GRM 的质量和可扩展性，在多个全面的 RM 基准测试中优于现有方法和模型，没有严重的领域偏差。我们还将 DeepSeek-GRM-27B 的推理时间扩展性能与高达 671B 参数的较大模型进行了比较，发现与模型大小的训练时间扩展相比，它可以实现更好的性能。尽管目前的方法在效率和特定任务方面遇到了挑战，但随着 SPCT 之外的努力，我们相信具有增强可扩展性和效率的 GRM 可以作为通才奖励系统的多功能接口，推进后训练和推理的LLM前沿。

图 2：奖励生成的不同范式，包括（a）标量、（b）半标量和（c）生成方法，以及不同的评分模式，包括（i）逐点和（ii）成对方法。我们列出了每种方法的代表性方法，以及相应的推理时间可扩展性（多次采样是否可以获得更好的奖励）和输入灵活性（是否支持对单次和多次响应进行评分）。

总的来说，我们的主要贡献如下。

我们提出了一种新颖的方法，即自我原则的批评调整（SPCT），以促进通才奖励建模的有效推理时间可扩展性，从而产生 DeepSeek-GRM 模型。并且我们进一步引入了 meta RM，以有效提高 DeepSeek-GRM 在投票之外的推理-时间扩展性能。
我们实证表明，与现有方法和几个强大的公共模型相比，SPCT 显著提高了 GRM 的质量和推理时间可扩展性。
我们还将 SPCT 训练计划LLMs应用于更大的规模，发现推理时间缩放在训练时间内可能优于模型规模缩放。

2、准备工作

2.1不同 RM 方法的比较

如图 2 所示，RM 方法主要由奖励生成范式和评分模式决定，这必然会影响 RM 的推理时间、可扩展性和输入灵活性。对于奖励生成范式，我们区分了三种主要方法：标量、半标量和生成。标量方法将标量值分配给给定的查询和响应，而半标量方法生成文本判断（称为“批评”）以及标量奖励值。生成方法仅生成批评作为文本奖励，可以从中提取奖励值。

对于评分模式，我们区分了两种主要方法：逐点和成对。逐点方法为每个响应分配单独的分数，而成对方法从所有候选中选择一个最佳响应。

为了扩展推理时间的计算使用量，我们专注于基于采样的方法，该方法为相同的查询和响应生成多组奖励，然后汇总最终奖励。因此，RM 的推理时间可扩展性取决于是否可以从多次采样中获得不同的奖励，其中标量 RM 在大多数情况下会由于奖励的不变生成而失败；输入灵活性由 RM 是否支持对单个、成对和多个响应进行评级来定义，其中成对 RM 几乎无法对单个响应进行评级，并且通常需要额外的技术处理多个响应。逐点 GRM 的公式为：

其中 x 是查询，y 是第 i 个响应，ri 是由 θ 参数化的奖励函数，R 是奖励，C 是批评，Si 是 y 的单个分数，f（·）从生成结果中提取奖励。通常，奖励是离散的，在这个工作中，我们默认分配 S∈ N、1 ≤ S≤ 10。

2.2用原则提高奖励质量

通才 RM 需要在特定领域之外产生高质量的奖励，其中奖励的标准更加多样化和复杂，而且通常没有明确的参考或基本事实。为此，对于一般领域，我们采用原则来指导奖励生成，而不是人为的规则。原则LLMs首次在宪法人工智能中引入，这是指导LLMs或策划分类器构建安全数据管道的手工标准。根据原则，GRM 的奖励生成更改为：

其中 {p} 表示原则。我们进行了一项初步实验，以检查适当原则对奖励质量的影响，使用 Reward Bench 的 Chat Hard 子集和 PPE 基准的 IFEval 子集。

表 1：原则对奖励质量影响的初步实验。DeepSeek-GRM-27B 的默认设置包括自生成原则。

3、Self-Principled Critique Tuning （SPCT）（自原则批判调优）

受到初步结果的启发，我们开发了一种新颖的逐点 GRM 方法来学习生成可以有效指导批评生成的自适应和高质量原则，称为自原则批评调整（SPCT）。如图 3 所示，SPCT 由两个阶段组成：拒绝性微调(rejective fine-tuning )，作为冷启动；以及基于规则的在线 RL ，通过推进生成的原则和批评来加强通才奖励的生成。SPCT 也在 GRM 中培养这些行为，以实现推理时间扩展。

3.1从理解到生成的 Unpinning Principles

从第 2.2 节的初步实验中，我们发现适当的原则可以在特定标准内指导奖励的产生，这对于高质量的奖励至关重要。然而，大规模为通才 RM 生成有效的原则仍然具有挑战性。为了应对这一挑战，我们建议从理解到生成都解开原则，即将原则视为奖励生成的一部分，而不是预处理步骤。

图 3：SPCT 图示，包括拒绝微调、基于规则的 RL 和推理过程中相应的可扩展行为。推理时间扩展是通过朴素投票或元 RM 引导投票实现的，其原则是大规模生成的，从而在扩展的价值空间内产生更精细的结果奖励。

从形式上讲，当原则是预定义的时，原则会按照等式 2 指导奖励的生成。GRM 可以自己生成原则，然后根据这些原则生成批评，正式化为：

其中 pi 是由 θ 参数化的原理生成函数，它与奖励生成 r 共享相同的模型。这种转变使得原则能够基于输入查询和响应生成，自适应地调整奖励生成过程，并且原则和相应批评的质量和粒度可以通过 GRM 的后训练进一步提高。通过大规模生成的原则，GRM 有可能在更合理的标准和更精细的粒度内输出奖励，这对于推理时间扩展也至关重要。

3.2基于规则的强化学习

为了同时优化 GRM 中的原则和批判生成，我们提出了 SPCT，它集成了拒绝性微调和基于规则的 RL。前者是一个冷启动。

拒绝微调拒绝式微调（冷启动）。拒绝式微调阶段的核心思想是让 GRM 能够针对各种输入类型生成具有正确格式的原则和批评。与以前的研究不同，这些研究将 RM 数据混合为不同格式的单个、成对和多个响应，我们采用第 2.1 节中介绍的逐点 GRM，灵活地为相同格式的任意数量的响应生成奖励。对于数据构建，除了一般指令数据外，我们还根据查询和对查询的响应从具有各种响应计数的 RM 数据中对具有预训练 GRM 的轨迹进行采样。对于每个查询和相应的响应，采样执行 NRFT 次。拒绝策略也是统一的，即拒绝预测奖励与基本事实不一致的轨迹（不正确），并拒绝所有 NRFT 轨迹正确的查询和响应（太简单）。

形式化定义为：令

表示查询 x 第 i 个响应

的真实奖励，当预测逐点奖励

满足以下条件时视为正确：

这里需确保真实奖励Ground Truth仅包含一个最大值 。然而，与以前的工作类似，我们发现预训练的 GRM 几乎无法在有限的采样配额内为部分查询和相应的响应生成正确的奖励。因此，我们可以选择将 arg max{r} 附加到 GRM 的提示符中，称为提示采样，期望预测的奖励与基本事实一致，除了非提示采样之外。对于提示采样，每个查询和相应的响应都会采样一次，并且只有在不正确时才会拒绝轨迹。超越以前的研究，我们观察到暗示的采样轨迹有时会使生成的批评捷径，尤其是对于推理任务，这表明在线 RL 对 GRM 的必要性和潜在好处。

基于规则的 RL。GRM 通过基于规则的在线 RL 进一步微调。具体来说，我们使用 GRPO 的原始设置和基于规则的结果奖励。在推出期间，GRM 根据输入查询和响应生成原则和批评，然后提取预测的奖励，并与具有准确性规则的真实值进行比较。与 DeepSeek-AI不同，不使用格式奖励(format rewards)。相反，应用更大的 KL 惩罚系数来确保格式并避免严重的偏差。从形式上看，对给定查询 x 和响应

的第 i 次输出 o_i 的奖励为：

逐点奖励是

从 o_i 中提取的。

奖励函数鼓励GRM 通过在线优化原则和批判来区分最佳响应，从而实现有效的推理时间扩展。奖励信号可以从任何偏好数据集和标注的 LLM 响应中无缝获取。

4、使用 SPCT 进行推理时间扩展

为了进一步提高 DeepSeek-GRM 的性能，使用更多的推理计算生成通才奖励，我们探索了基于采样的策略，以实现有效的推理时间可扩展性。以前工作的推理时间缩放方法及其潜在局限性在下面附录 C.1 中进行了分析。

使用生成的奖励进行投票。回顾第 2.1 节中的方法，逐点 GRM 的投票过程定义为对奖励求和：

其中，

是第 i 个响应（i = 1, ..., n）的最终奖励。由于 S_i,j 通常设置在一个较小的离散范围内，例如 {1，...，10}，因此投票过程实际上将奖励空间扩大了 k 倍，并使 GRM 能够生成大量原则，从而有利于提高最终奖励的质量和粒度。

一个直观的解释是，如果每个原则都可以被视为判断视角的代理，那么更多的原则可能会更准确地反映实际分布，从而导致扩展有效性。值得注意的是，为了避免位置偏差和多样性，响应在采样前会进行随机排序。

元奖励建模。引导投票 DeepSeek-GRM 的投票过程需要多次抽样和一些生成的原则，由于随机性或模型限制，批评可能会有偏见或低质量。因此，我们训练一个 meta RM 来指导投票过程。元 RM 是一个逐点标量 RM，经过训练以识别 DeepSeek-GRM 生成的原理和批评的正确性，并带有二进制交叉熵损失。

表 2：不同方法和模型在 RM 基准测试中的总体结果。带下划线的数字表示最佳性能，粗体数字表示基线和我们的方法中的最佳性能，斜体字体表示标量或半标量 RM。对于 meta RM 引导投票（MetaRM），k= k。

其中，标签根据上述公式（4）标识。该数据集包括 RFT 阶段非暗示采样的轨迹，以及从 DeepSeekGRM 中采样的要引导的轨迹，以提供足够的正负奖励，并减轻所建议的训练和推理策略之间的差距。引导式投票很简单：meta RM 输出 k 个采样奖励的 meta 奖励，最终结果由排名前 kmeta ≤ k 的元奖励进行投票，从而过滤掉低质量的样本。

5、奖励建模基准的结果

5.1实验设置

基准和评估指标。我们评估了不同方法在不同领域的各种 RM 基准上的性能：Reward Bench、PPE、RMB、ReaLMistak。我们对每个基准使用标准评估指标：从 Reward Bench、PPE 和 RMB 中的一组响应中挑选最佳响应的准确性，以及 ReaLMistake 的 ROC-AUC。为了处理多个响应的预测奖励的平局，我们对响应进行随机排序并通过 arg maxS 确定最佳响应，其中 Si 是随机排序后第 i 个响应的预测奖励。下图是测试评估数据。

方法实施。对于基线方法，我们重新实施了LLM-as-aJudge、DeepSeek-BTRM-27B、CLoud-Gemma2-27BDeepSeek-PairRM-27B，基于Gemma-2-27B，并将所有兼容的训练数据和设置作为 DeepSeekGRM。对于我们的方法，我们基于 Gemma-227B 实施了 DeepSeek-GRM-27B-RFT，并在不同大小的 DeepSeek-GRM 上实施了 LLMsDeepSeek-GRM，包括 DeepSeek-V2-Lite （16B MoE）、Gemma-2-27B、DeepSeek-V2.5 （236B MoE）和 DeepSeek-V3 （671B MoE）（DeepSeek-AI， 2024b）。元 RM 在 Gemma-2-27B 上进行训练。默认结果通过贪婪解码报告，推理时间缩放使用 temperature = 0.5。

5.2结果和分析

RM 基准测试的性能。表 2 显示了不同方法和模型在 RM 基准测试中的总体结果。我们将 DeepSeekGRM-27B 的性能与公共模型的报告结果和基线方法的再现结果进行了比较。我们发现 DeepSeek-GRM-27B 在整体性能上优于基线方法，并在强大的公共 RM （如 Nemotron-4-340B-Reward 和 GPT-4o）中实现有竞争力的性能;通过推理时间缩放，DeepSeek-GRM-27B 可以进一步改进并实现最佳的整体结果。对于详细比较，标量（DeepSeek-BTRM-27B、DeepSeek-PairRM-27B）和半标量（CLoud-Gemma2-27B） RM 在不同基准测试中表现出有偏差的结果，在可验证任务（PPE 正确性）上的性能明显优于所有生成 RM，但在不同的其他基准测试中分别失败。尽管如此，大多数公共标量 RM 也表现出严重的域偏差。LLM-as-a-Judge 显示出与 DeepSeek-GRM-27B 类似的趋势，但性能较低，这可能是由于缺乏原则指导。总之，SPCT 提高了 GRM 的通才奖励生成能力，与标量和半标量 RM 相比，偏差明显减少。

推理时间可扩展性。上表11、12、13显示了不同方法的推理时间扩展结果，整个趋势如文章开头图 1 所示。在多达 8 个样本的情况下，我们发现 DeepSeek-GRM-27B 对贪婪解码（greedy decoding）和采样结果的性能提升最高。DeepSeek-GRM-27B 进一步展示了通过更大的推理计算（最多 32 个样本）提高性能的巨大潜力。元 RM 还揭示了它在每个基准测试中为 DeepSeek-GRM 过滤低质量轨迹的有效性。使用代币概率投票，LLM-as-a-Judge 也显示出显著的性能提升，这表明代币概率作为定量权重有助于提高纯粹多数投票的可靠性。对于 CLoud-Gemma2-27B，性能提升是有限的，主要是由于标量奖励生成缺乏方差，尽管批评已经发生了很大变化。综上所述， SPCT 提高了 GRM 的推理时间可扩展性，而 meta RM 总体上进一步提高了扩展性能。

消融研究（Ablation Study）。下表4 显示了拟议的 SPCT 不同组成部分的消融研究结果。令人惊讶的是，在没有拒绝性采样批评数据的冷启动的情况下，一般指令调整的 GRM 在经历在线 RL （66.1 → 68.7）后仍然显著提高。此外，非 hinted 采样似乎比 hinted 采样更重要，这可能是因为 Prompted 采样轨迹中出现的快捷方式。这些都表明了在线训练的重要性。

图 4：Reward Bench 基准测试中的推理时间扩展性能与训练时间扩展性能。

对于Grms。与之前的研究一致，我们确认通用指令数据对于 GRM 的性能至关重要。我们发现原理生成对于 DeepSeek-GRM-27B 的贪婪解码和推理时间缩放的性能都至关重要。对于推理时间缩放，元 RM 引导投票表现出对不同 kmeta 的稳健性。下表中讨论了通用 RM 性能的进一步分析，包括输入灵活性、训练数据的领域泛化等。

扩展推理和训练成本。我们通过对不同大小的训练LLMs后，进一步研究了 DeepSeek-GRM-27B 的推理时间和训练时间扩展性能。这些模型在 Reward Bench 上进行了测试，结果如上图 4 所示。我们发现，使用 32 个 DeepSeek-GRM-27B 样本进行直接投票可以达到与 671B MoE 模型相当的性能，而元 RM 引导投票可以用 8 个样本获得最佳结果，证明了 DeepSeek-GRM-27B 的推理时间缩放与缩放模型大小相比的有效性。此外，我们用包含 300 个样本的下采样测试集对 DeepSeek-R1 进行了测试，发现其性能甚至比 236B MoE RFT 模型差，这表明扩展推理任务的长链思维并不能显著提高通才 RM 的性能。

6、相关工作

Gnerative Reward Models GRM 代表了标量 RM 的范式转变，将奖励建模为文本反馈或分数。实现了更丰富的奖励表示，并更灵活地判断单个和多个响应。以前，LLM-as-a-judge 方法采用基于参考或无参考的成对判断来评估LLMs。最近的研究使用离线 RL，例如 DPO来训练GRM，将工具和外部知识与 GRM 相结合，甚至将 GRM 训练为调整环境奖励的接口。尽管这些方法在效率方面面临挑战，但它们展示了大规模提高奖励的潜力，朝着更通用的奖励系统迈进。

推理时间扩展 LLMs。推理时间扩展LLMs一直是与训练时间扩展LLMs平行的关键研究方向。研究侧重于采样和 RM 引导的聚合。最近，激励的长期LLMs思维链提高模型的推理能力方面显示出可喜的结果，作为另一种推理时缩放格式。还有一些研究使用可扩展的奖励或验证器来提高策略模型的性能，涉及编码、推理等领域。

因此，在这项工作中开发推理时可扩展的通才 RM 也可能通过推理时共缩放来促进策略模型的一般性能。

7、结论和未来工作

我们引入了 Self-Principled Critique Tuning （SPCT），这是一种增强通才奖励建模推理时间可扩展性的方法。通过基于规则的在线 RL，SPCT 支持自适应生成原则和批评，显著提高不同领域中 GRM 的奖励质量和推理时间可扩展性。实证结果表明，DeepSeek-GRM 超越了基线方法和一些强大的公共 RM，并通过推理时间扩展显示出显著的改进，尤其是在元 RM 的指导下。未来的方向可能包括将 GRM 集成到在线 RL 管道中，作为奖励系统的多功能接口，探索与策略模型的推理时间协同扩展，或作为基础模型的强大离线评估器。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。