DeepSeek R1 使用的 GRPO 科普

所以，你看明白了吗？用GRPO来做强化学习微调，走的就是个“少烧钱，多产出规则驱动打分，直接评判对错；一群回答内部做对比，不用庞大的价值网络；用 PPO 风格的策略更新，却把麻烦留给那些需要更多精细估计的场合。对于大部分只需要“简单判断对错、给点小奖励”就能搞定的任务，这个方法堪称完美。AI 训练成本差不多打了个对折，还能在复杂多变的任务里稳步提升。如果你还在为“做 AI 微调像在烧钱”而头疼，那

程序汪小陈

851人浏览 · 2025-03-25 09:34:38

程序汪小陈 · 2025-03-25 09:34:38 发布

大家好，今天我们要来聊点儿“让人脑洞大开”的 AI 黑科技。别怕，我保证这篇科普不需要你背任何深奥公式，更不需要智商 180。只要你认识几个汉字，就能秒懂它。

话说现在 AI 这么火，大家都对各种“人机大战”“AI 写诗”“智能聊天”有点见怪不怪了，是不是？可是，你有没有想过：做个新 AI 需要多大资源？一个动辄几百亿参数的模型，拉出去训练就跟在大草原上跑坦克一样：既费钱，还不见得跑得好。很多小伙伴们跟我抱怨，“用 PPO（Proximal Policy Optimization）之类的强化学习方法去微调大语言模型，那 GPU 烧得能煎鸡蛋，都快供不起电费了！”

结果呢？有那么一群“不安分”的研究员琢磨出个新方法，号称“GRPO（Group Relative Policy Optimization）”。还整合进了一个叫做DeepSeek R1的系统里，说是能让模型在不多花钱的情况下，“更快更好”地学会规则？听起来是不是有点颠覆？那我们就来聊聊，这个让 AI“一秒开挂”的秘诀到底是什么？

1、先来看看老办法有多费劲儿

之前常见的做法叫 PPO，具体也不用死记，反正核心就是“我有一个特大号的价值评估模型”，你一边训练策略生成答案，一边训练价值模型去评估这个答案是不是好。但是呢？

一份策略模型就够大了，再加一个价值模型，简直像是在家里同时养了两只食量极大的熊猫宝宝。GPU/显存消耗“噌噌”往上涨，烧钱！
而且，你还得搭配一个“奖励模型”去给回答打分，好家伙，感觉都快成为“模型套模型”的俄罗斯套娃。

你以为烧钱就能换来好结果？呵呵，有时候还不见得——有些场景下，奖励很直接，比如回答对就行，还要这么折腾吗？

2、 DeepSeek R1 玩出了新套路

DeepSeek 的人就想：既然很多情况下，我们的奖励逻辑挺简单的嘛，比如对就给分，不对就扣分，还可以要求回答写成某种格式，然后再给点儿额外奖励。与其费力造个“奖励模型”出来，不如直接写“规则”管它。

数学题，答对就有分；
LeetCode，测试用例全过就行；
还可以要求写出思路，没写就扣分……

都清清楚楚明明白白，脑瓜子灵光就能写出来，何必训练个黑盒模型？

这么一来，那“价值模型”是不是也可以别搞那么大？人家就整出了“GRPO”。它厉害在哪儿呢？让我们继续往下看。

3、 GRPO：所谓“一群人里见高低”

GRPO 最精彩的一点就是，它不需要一个庞大的“价值模型”来评估“哪个回答好”，它直接让一群回答互相 PK！

想象一下，我们给 AI 同一个问题，然后让它一次性生成好几版答案，这就是一个“回答群”。每个回答都用我们事先定义好的规则打个分，接着呢，就把“同一群”回答的分数做个对比：

要是你比别人高，你就能获得“优势”；
低分同学就意味着“劣势”。

这么一平均、一对比，谁能有多大优势一目了然，然后再来做一次类似 PPO 的更新：

得高分的回答概率要提高；
得低分的那就别往那个方向走了；
同时还会有个 KL 惩罚，防止你跑得太离谱（别把前面学的好东西都忘光了）。

看懂了没？传统 PPO 会说：“我得训练一个价值模型来告诉我，这个回答值不值 10 分、还是值 8 分。”现在 GRPO 直接说：“不用价值模型，我把这一堆回答的分数做对比不就完了？”省事儿吧！

4、怎么就“省了大钱”？

（1）少了大模型的负担

传统 PPO 你得另外训练价值模型，这可不是闹着玩的小模型，也是一只“超能吃的熊猫宝宝”级别的大块头。GRPO 一刀砍掉它，直接跟你说“我用 group 内部相对比较解决问题”。省下来的计算量，那可不是一点半点！

（2）多样回答，更好选优

一次性生成多个回答，你可能会得到各种花式答案，有的长篇大论，有的简洁明了，有的沙雕又好笑……然后让它们互相 PK，你马上知道哪种风格更得高分，模型更新也就更精准。这是动态的“优胜劣汰”，好过自说自话的价值模型。

（3）奖励规则可以自行调

DeepSeek R1 用的还是 “规则打分”的系统，改个规则就能新鲜出炉，不用再去训练一个新的奖励模型，灵活度“拉满”！

5、大众问：会不会不准确？

你要说“这个回答比那个回答好”，当然，如果所有回答都差不多，分数同质化，那它可能分不出高下。但大多数情况下，基于一套合理的打分逻辑（对就加分、错就扣分，格式好不好也有计分），还是能看出明显差异的。
只要奖励定义得够靠谱，组内分数自然有差距，模型就能学到真正好的回答，何乐而不为？

6、结语：越简单，越强大

所以，你看明白了吗？DeepSeek R1用GRPO来做强化学习微调，走的就是个“少烧钱，多产出”的高效路线：

规则驱动打分，直接评判对错；
一群回答内部做对比，不用庞大的价值网络；
用 PPO 风格的策略更新，却把麻烦留给那些需要更多精细估计的场合。

对于大部分只需要“简单判断对错、给点小奖励”就能搞定的任务，这个方法堪称完美。用一句话形容：AI 训练成本差不多打了个对折，还能在复杂多变的任务里稳步提升。

如果你还在为“做 AI 微调像在烧钱”而头疼，那不如看看DeepSeek R1如何利用GRPO这把“神助攻”！说不定，下一个 AI 界的发明大咖，就是你哟！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

DeepSeek算法研发闭环解析：如何打造持续进化的AI生产线？

DeepSeek技术社区

DeepSeek集成：如何将DeepSeek修炼成‘国殇剑舞‘

DeepSeek技术社区

DeepSeek 从热潮到应用，腾讯云携手行业专家共探 AI 下一步

在精彩的观点 PK 讨论下，本次「DeepSeek从热潮到应用」TVP AI 创变研讨会圆满落幕。通过今天的交流与探讨，各位专家帮助我们梳理 DeepSeek 技术发展脉络，分析热潮背后的逻辑与创新，更重要的是探索 AI 落地实践，为我们带来许多启发与思考。TVP AI 创变研讨会，是为 TVP 等技术管理者、AI 创业者打造的专属交流活动，旨在聚焦 AI 前沿，通过系列专题研讨，共同探索 AI