DeepSeek新论文：让AI评判变得更智能、更通用，效率提升不靠堆硬件！

你有没有想过，当AI评价其他AI的回答时，需要什么样的能力？DeepSeek最新研究告诉我们，不必再一味堆模型参数，一种全新的推理时扩展技术正在改变游戏规则。当我们谈论大语言模型（LLM）训练时，强化学习（RL）已成为必不可少的环节。而在强化学习过程中，**奖励建模（Reward Modeling，简称RM）**是核心组件，它决定了AI模型如何评判响应的好坏。

程序猿李巡天

903人浏览 · 2025-04-17 20:16:44

程序猿李巡天 · 2025-04-17 20:16:44 发布

你有没有想过，当AI评价其他AI的回答时，需要什么样的能力？DeepSeek最新研究告诉我们，不必再一味堆模型参数，一种全新的推理时扩展技术正在改变游戏规则。

1、AI如何做出"高质量"的评判？新思路解锁推理时扩展

当我们谈论大语言模型（LLM）训练时，强化学习（RL）已成为必不可少的环节。而在强化学习过程中，**奖励建模（Reward Modeling，简称RM）**是核心组件，它决定了AI模型如何评判响应的好坏。

问题是，现有的奖励模型往往存在局限性：要么只擅长特定领域（如数学或编程），要么无法随着计算资源增加而提升效果，还有的仅适用于特定输入格式…这些都限制了AI模型的进步。

DeepSeek团队最新发表的研究《Inference-Time Scaling for Generalist Reward Modeling》提出了解决方案 - 自原则评论调优（Self-Principled Critique Tuning，简称SPCT），这是一种专为通用奖励模型设计的推理时扩展技术。

最令人惊喜的是，研究表明，采用SPCT后的27B参数模型在扩展推理计算后，能达到甚至超过671B参数模型的性能！这意味着我们可能不再需要盲目增加模型参数量，而是通过更聪明的方法实现性能提升。

2、三大核心创新：原则先行的评判机制

DeepSeek的研究团队从本质上重新思考了AI如何进行评判。他们的方法有三个关键创新点：

（1）点式生成式奖励建模（Pointwise GRM）

传统奖励模型通常采用标量评分或成对比较，但DeepSeek采用点式生成式奖励模型。这意味着模型可以：

1）灵活接受不同数量的回答作为输入（单个、成对或多个）

2）通过纯语言表示统一评分方式

3）为同一回答生成多样化的奖励信号

这种设计为后续的推理时扩展奠定了基础。

（2）自原则评论调优（SPCT）

SPCT是这项研究的核心创新，它包含两个阶段：

第一阶段：拒绝式微调（冷启动）

1）让模型适应生成正确格式的原则和评论

2）对各种输入类型采用统一的处理方式

3）拒绝与标准答案不一致的轨迹

第二阶段：基于规则的在线强化学习

1）训练模型自适应地提出评判原则

2）让模型学会基于原则进行准确评论

3）引导模型生成高质量的奖励信号

最关键的突破是将"原则"从理解步骤转变为生成步骤，并将其视为奖励生成的一部分。这一简单而深刻的转变使模型能够根据具体查询和回答自适应地提出评判原则，而不是依赖预设标准。

（3）元奖励模型引导的投票机制

为了进一步提升推理时扩展效果，研究团队开发了：

1）并行采样：生成多组原则和评论，扩大计算使用

2）元奖励模型：识别生成的原则和评论的质量

3）引导投票：根据元奖励筛选高质量样本，提高扩展性能

这种方法使得模型能够随着推理计算增加而提高性能，实现真正的推理时扩展能力。

3、惊人的实验结果：小模型也能有大表现

DeepSeek团队在多个奖励建模基准上进行了全面评估，结果令人振奋：

1）DeepSeek-GRM-27B在整体表现上优于基线方法，与强大的公共奖励模型（如Nemotron-4-340B-Reward和GPT-4o）相比具有竞争力

2）通过推理时扩展，DeepSeek-GRM-27B进一步提升并取得最佳整体结果

3）与其他方法相比，SPCT显著改善了生成式奖励模型的通用奖励生成能力，且偏差明显减少

4）在扩展性方面，DeepSeek-GRM-27B展示出随着推理计算增加而显著提升性能的潜力

最令人惊讶的是，27B参数模型通过推理时扩展能达到甚至超过671B参数模型的性能！这一发现颠覆了传统观念，证明通过设计更好的学习方法和推理策略，可以在不增加模型规模的情况下显著提升性能。

DeepSeek的这项研究不仅提供了一种提升奖励模型性能的新方法，更开启了通用奖励系统研究的新篇章。

未来的发展方向可能包括：

1）将生成式奖励模型集成到在线强化学习流程中，作为奖励系统的多功能接口

2）探索与策略模型的推理时协同扩展

3）作为基础模型的稳健离线评估器

虽然当前方法在效率和特定任务上仍面临挑战，但研究团队相信，随着SPCT的进一步发展，具有增强扩展性和效率的生成式奖励模型将推动大语言模型后训练和推理的前沿发展。

DeepSeek团队的这项研究给我们带来了几点重要启示：

1）不只是靠堆硬件：AI性能提升不应只依赖于增加参数量和算力，优化算法和推理策略同样重要

2）"原则"思维的价值：让AI学会自我生成评判原则，比固定评判标准更灵活有效

3）推理时扩展的巨大潜力：相比训练时扩展（增加模型规模），推理时扩展可能是一条更经济高效的路径

对于AI研究者和开发者来说，这意味着我们可以通过更聪明的方法，而不仅仅是更大的投入，来实现AI能力的突破。

这也许正是未来AI发展的一个重要方向：不是简单地做更大的模型，而是做更聪明的模型。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述