三个关键词，深度剖析DeepSeek-R1的实现原理

DeepSeek火爆出圈了！在去年12月，DeepSeek-V3就以极低的训练成本，实现了与GPT-4O相媲美的性能。今年1月，deepseek再次带来惊喜，甩出了王炸级别的DeepSeek-R1，这款新的开源模型仅用不到十分之一的成本，就实现了GPT-O1的水平。朋友圈里都是讨论DeepSeek的声音，今天风叔也来跟跟风，用三个关键词对DeepSeek-R1做一个深度剖析。关键词一，直接强化学习

小天才学习机打游戏

6771人浏览 · 2025-01-30 20:37:08

小天才学习机打游戏 · 2025-01-30 20:37:08 发布

前言

DeepSeek火爆出圈了！

在去年12月，DeepSeek-V3就以极低的训练成本，实现了与GPT-4O相媲美的性能。今年1月，deepseek再次带来惊喜，甩出了王炸级别的DeepSeek-R1，这款新的开源模型仅用不到十分之一的成本，就实现了GPT-O1的水平。

朋友圈里都是讨论DeepSeek的声音，今天风叔也来跟跟风，用三个关键词对DeepSeek-R1做一个深度剖析。

Deep seek into DeepSeek-R1！

关键词一，直接强化学习

强化学习的概念，是AI通过与环境进行交互，并根据环境反馈的奖励信号来学习最优行为策略，以最大化长期累积奖励。

强化学习有三个关键的概念，策略模型、价值模型和奖励模型。

策略模型：策略模型是指AI在不同环境状态下应该采取的行动，或采取各个行动的概率分布。比如在游戏AI中，环境是整个游戏地图，策略模型就是游戏AI在地图的每个点上应该采取的行动，比如前进、后退、左转、右转等等。

价值模型：价值模型用于评估AI在某个状态下的价值，表示AI从某个状态开始，遵循某种策略所能获得的长期累积奖励的估计值。比如在游戏AI中，游戏AI在某个点前进可能会遇到怪物，而右转可能会遇到宝箱。

奖励模型：一种用于量化AI在环境中执行某个动作时所获得奖励的函数，简单来说，就是告诉AI什么样的行为可以获得更高奖励，而什么样的行为会得到惩罚。

AI在和环境交互的过程中，根据奖励模型输出的奖励信号，通过策略梯度等算法更新策略模型的参数，使得策略模型逐渐学习到能最大化长期累积奖励的最优策略。

传统训练AI推理能力的方法，通常是先通过监督微调SFT，让初始模型在大量的思维链（COT）训练数据集上，通过多个SFT周期进行训练，学习如何从问题（x）和推理链（e）生成正确的答案（y）。再用奖励模型让模型更新自己的策略网络和价值网络，以最大化预期奖励，如下图所示。

而DeepSeek-R1完全抛开了利用大量思维链COT模板进行监督微调的范式，直接进行强化学习，依靠简单的奖惩信号对模型进行优化。

DeepSeek-R1只用了一套最简单的奖励系统，来激发AI的推理能力。

第一，是准确性奖励。评估方法非常简单，正确就加分，错误就扣分。比如在具有确定性结果的数学问题中，模型需要以特定格式（）提供最终答案。

第二，是格式奖励。该奖励模型强制要求模型将思考过程输出在之间，符合格式要求就加分，不符合要求就扣分。

然后，让AI在GRPO（Group Relative Policy Optimization）的规则下自我采样、比较和优化。

GRPO是一种强化学习下的策略模型更新算法，也是接下来要介绍的第二个关键词。

关键词二，GRPO

GRPO，全称是Group Relative Policy Optimization，是一种针对群体智能进行策略优化的算法。顾名思义，该算法只考虑AI群体之间的相对关系和影响，使得整个群体在和环境交互过程中实现某种整体目标或优势。

举一个通俗易懂的例子来解释Group Relative Policy Optimization。

以足球比赛为例，把每个球员作为群体AI中的一员，外部环境就是足球场，每个球员的状态包括位置、速度、身高、控球等状况，传球、跑位、射门等动作构成了策略网络，球队进球得分就是奖励。

刚开始，每个球员会按照各自的习惯和基本战术踢球，这就是初始策略。比赛过程中，教练会观察每个球员的表现和球员之间的配合情况，相当于收集数据和分析相对关系，比如发现某个前锋太独，不和中场球员配合而导致浪费进攻机会，教练就会调整他的策略，这就是策略优化。通过在比赛中不断观察和调整，优化每个球员的策略和球队的整体战术，从而提升球队赢得比赛的概率。

下图展示了GRPO算法和常见的强化学习策略优化算法PPO的区别。

GRPO的实现流程包括以下几步：

环境定义：定义群体中各个智能体，每个智能体都有自己的状态空间、策略空间和奖励函数，环境也会根据智能体的动作给出反馈
分配初始策略：为每个智能体分配一个初始策略，比如某个后卫的活动范围主要集中在己方半场
群体交互与数据收集：让每个智能体和环境交互，并根据自己的策略选择动作，然后更新环境状态
相对关系分析：分析智能体之间的相对关系，比如哪些智能体协作更紧密，哪些智能体的动作对环境影响更大
策略优化：根据相对关系分析的结果，使用梯度下降算法更新策略网络的参数，使得群体目标实现概率最大化
重复迭代：重复步骤3~5，直到满足一定的终止条件。

那么DeepSeek-R1是如何使用GRPO算法的呢？其核心流程是这样的

对于一个问题，模型生成5个不同的解答步骤；
检查每个解答的准确性，包括输出结果和格式，并给出奖励分数，比如正确得1分，错误得0分
计算相对优势，包括群体的平均奖励（比如5个回答对了3个，平均奖励为0.6），计算每个回答的优势（优势 = 回答奖励 - 0.6）
更新策略模型，增加优势为正的回答生成概率，减少优势为负的回答生成概率

DeepSeek为什么会选择GRPO算法，而不是大家更熟悉的PPO算法呢？

首先，PPO算法依赖价值模型估计状态价值，从而帮助计算优势函数。但是因为语言的状态空间巨大且复杂，很难为语言构建合理的价值模型。而GPRO算法只对输出的语言内容进行相对优势计算，不需要设计价值模型。

其次，PPO算法需要训练奖励模型进行评估，而GRPO算法使用基于规则的奖励，通过规则直接评估回答的准确性，不需要训练奖励模型。

由于不需要SFT，也不需要价值模型和奖励模型，这个做法带来了训练效率的大幅提升，和训练资源的大幅减少。这也是DeepSeek-R1训练成本如此低的核心原因。

关键词三，冷启动数据和多阶段训练

由于DeepSeek-R1完全通过奖惩信号进行模型优化，没有任何经过人类指示的标准答案作为参考，因此导致了“可读性差”的问题，即模型的思维过程可能难以被人理解。为了解决这个问题，DeepSeek-R1引入了冷启动数据和多阶段训练流程。

下面是DeepSeek-R1的四个训练阶段。

阶段一，冷启动

训练目标：提升模型的初始推理能力和回答格式，为后续的强化学习提供良好的初始状态。

训练方法：监督微调SFT。

使用数据：使用推理任务数据，收集了数千条高质量的思维链COT数据，包含详细的推理过程和答案。写作、翻译等非推理类任务不在此阶段。

训练实现：基于推理任务的数据，对策略模型进行微调。

阶段二，以推理为导向的强化学习

训练目标：增强模型在推理任务上的准确性。

训练方法：强化学习算法GRPO。

使用数据：仅使用推理任务数据，包括数学、编程等有明确标准答案的任务。非推理任务数据仍不在此阶段。

训练实现：使用基于规则的奖励系统，对模型回答的正确性和格式进行评估。

阶段三，拒绝采样与再监督微调

训练目标：继续提升模型的推理能力，并且扩展模型在非推理任务上的能力。

训练方法：监督微调SFT。

使用数据：对于推理任务的数据，使用“拒绝采样”方法，收集高质量的推理数据；对于非推理任务的数据，使用现有公开数据集。

训练实现：将推理任务数据和非推理任务数据混合，构建新的训练数据集，使用混合数据对策略模型进行再微调。

阶段四，全面场景的强化学习

训练目标：继续提升模型推理能力；同时对齐人类偏好，提升非推理任务的安全性。

训练方法：强化学习GRPO，奖励模型（对非推理任务）。

使用数据：在阶段三的基础上，使用阶段三的模型生成的非推理任务数据。

训练实现：对于推理任务，继续使用基于规则的奖励系统；对于非推理任务，构建奖励模型，评估模型输出的有用性和安全性。

经过这四个阶段的训练，DeepSeek-R1在Math基准测试上，达到了77.5%的准确率；在AIME 2024上，达到了71.3%的准确率。而OpenAI-O1在这两个领域的准确率分别是77.3%和71.0%。

而且DeepSeek-R1表现出了更大的潜力，因为同样在AIME 2024的测试中，如果使用多数投票机制（即多次尝试后选出最准确的答案），DeepSeek-R1的准确率高达86.7%。

总结

DeepSeek-R1的成功让大家的目光再次投向了强化学习，这个曾经让AlphaGO风靡全球的训练范式。除了少量的监督微调SFT之外，DeepSeek-R1几乎是完全通过强化学习训练出来的，而且展现出了强大的推理能力。

在传统的监督微调SFT中，模型很有可能只是学会了触发奖励的特定模式，从而故意投机取巧地生成和奖励模型对味的内容，而不是真正理解和推理。但DeepSeek-R1用极度简单的奖励规则，避免了模型为了获得奖励而进行欺骗的可能性。

“真正的理解来自于主动建构，而不是被动接受”。通过纯粹的强化学习，而不是一味让AI模仿人类的思维方式，AI似乎发展出了更直接更底层的推理能力。让我们保持乐观，期待在纯强化学习这条路径上，看到更多的突破。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述