DeepSeek-R1：深度分析，国产 AGI 的第一步

DeepSeek R1 Zero 代表了一种纯强化学习方法，不依赖冷启动数据，在各种任务中都取得了出色的性能。而 DeepSeek R1 是前者升级版本，功能更强大，它利用冷启动数据和迭代强化学习微调。最终，DeepSeekR1 在一系列任务上实现了与 OpenAI o1 1217 相当的性能。另外进一步探索将推理能力提炼到小型密集模型。

m0_48891301

896人浏览 · 2025-02-06 10:54:24

m0_48891301 · 2025-02-06 10:54:24 发布

一、DeepSeek R1 Zero：基础模型上的加固学习

在推理任务中强化学习是非常有效的，尤其是针对特定场景，举个例子，写合同、审查之类的大模型，他们的数据集专门针对这个方面做微调，或者如天朝体制内红头文件，这些是特定数据，需要针对性的 RL，这些很大程度上取决于是否有监督的数据。而 DeepSeek 不愧国产之光，探索了 AGI 的边界了（现在招人需要 ACM 金牌，确实牛逼，也证明了 ACM 的含金量还在上升）探索 LLMS 在没有任何监督数据的情况下开发推理功能的潜力，通过纯粹的加强学习过程专注于他们的自我进化

强化学习算法（RL）

团队采用了梯度优化的奖励惩罚方法 GRPO，也是核心点。该批判模型是一个全新的，并且与通常评判模型大小相同，能并从一组分数中估算基线最后用于优化模型。具体而言，对于每个问题 q，GRPO 从旧的策略 𝜋(𝜃𝑜𝑙𝑑) 中，通过最大化以下目标来优化模型。

下图公式很复杂，先说上面优势函数，然后再去拆解下面。上面主要说优势函数的作用，其中 mean 表示计算一组奖励的平均值，而 std 是 r(i) 的标准差，然后计算比较每个输出 o(i) 的奖励 r(i) 与其他输出的平均奖励之间的差异，并将其标准化，用来更好地衡量每个输出的相对优劣。

接上面，上图有 7 个参数，E 即期望值，对其所有可能的输入 q 和输出 o(i) 的期望。q ~ P(Q) 表示问题分布，随机采取一个问题 q。{ o(i) ~ π(𝜃𝑜𝑙𝑑) } 表示从旧的策略提取一个对输入 q 的回答 O。而 π(𝜃) 就是新的策略。

好了再解释整体公式，π(𝜃) / π(𝜃𝑜𝑙𝑑) 这部分表示新策略与旧策略在生成输出 o(i) 时的概率比值。如果新策略生成某个输出的概率比旧策略高，说明新策略更倾向于生成这个输出。clip 这是一个裁剪函数，用于限制新策略与旧策略之间的变化幅度，防止策略更新过快导致不稳定。最后 Dkl 是 KL 散度，用于衡量新策略 π(𝜃) 与参考策略 π(ref) 之间的差异。β 是控制 KL 散度影响的超参数。最终通过新策略侧重结果来输出新的结果来达到优化模型的效果。有点难理解是吧，下面举个 case 白话版本来辅助理解团队对这个公式下了多少功夫

GRPO

Gradient-based Reward Penalty Optimization 核心思想是通过对奖励函数施加惩罚项，引导智能体学习更安全、更稳定或更高效的策略。GRPO 的实现通常包括以下步骤：定义奖励函数 R(s,a)，引入惩罚项 P(s,a)，形成新的奖励函数 R′(s,a) = R(s,a) − λP(s,a)，其中 λ 是惩罚系数。使用梯度下降方法优化策略，最大化累积奖励 ∑R′(s,a)。

如上图通俗解释：假设有两个用户群体 G1（多数群体）和 G2（少数群体）。传统方法（如普通 RLHF 或 DPO）会直接对所有用户的偏好取平均，结果模型会倾向于满足 G1 的偏好（类似你和马云平分1个亿，你是被平均，没有话语权），但 G2 的偏好可能是个高价值却被忽视。这种一刀切的优化导致少数群体的需求被牺牲。而 GRPO 算法，上图右侧则采用了一种动态加权策略，它会自动关注当前表现最差的群体 G2，并优先优化这些群体的损失（右边中间 adaptive 适配权重）。通过不断调整优化重心，最终模型在所有群体中实现了更均衡的性能，避免了对某一群体的过度偏袒，最终产出右边顶部和底部是截然不同的结果。

R1 自我进化过程和顿悟时刻

如下图展示了团队在训练中利用前面所述的算法调整策略，DeepSeek R1 Zero 的思考时间在整个训练过程中是逐步改进的。这种改进不是外部调整的结果，而是模型内部的内在发展。DeepSeek R1 Zero 通过利用延长计算时间，获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记，允许模型更深入地探索和改进其思维过程。

这种自我进化最显著的方面之一是随着测试时间计算的增加，出现了复杂的行为。诸如反思、模型重新审视、重新评估其先前的步骤、探索解决问题的替代方法等行为。这些行为不是明确编程的，而是模型与强化学习环境交互的结果。这种自发发展显著增强了 DeepSeek R1 Zero 的推理能力，使其能够以更高的效率和准确性应对更具挑战性的任务。

而顿悟时刻出现团队发现自我推理过程中，尤其在回溯检索结果的时候，如下图所示，文献以解决数据方程 demo 来展示理解这个过程，数学题的解决往往需要代入和推导，并不是简单推理下一步就能得出正确结果，通过下图发现，大模型在思考代入反推理的时候自己顿悟（也就是红色字体，发现公式置换的原理），然后利用代入置换概念解决当前公式问题。

DeepSeek R1 Zero 通过重新评估其初始方法学会为问题分配更多的思考时间。这种行为不仅证明了模型不断增强的推理能力，而且是一个引人入胜的例子，展示了强化学习产生意想不到的复杂结果。这一刻不仅是模型的顿悟时刻，也是观察其行为的研究人员的顿悟时刻。它强调了强化学习的力量和魅力，团队不是明确地教模型如何解决问题，而是简单地为它提供正确的激励，它就会自主地开发出先进的解决问题的策略。

最终如下图所示，拿 O1 开刀做对比 DeepSeekR1 Zero 在整个 RL 训练过程中在 AIME 2024 基准上的性能轨迹。随着 RL 训练的进展，DeepSeek R1 Zero 的性能稳步提升。pass@1 分数（一种评估方法）从最初的 15.6% 跃升至令人印象深刻的 71.0% 然后并且以多数投票，得分进一步提高到 86.7％，与表现相匹配 O1。凸显了团队的 RL 算法在随着时间的推移优化模型性能方面的有效性（又来个不一样的哈， MiniMax 搞长文 token 训练算法改进，而团队搞 RL 算法创新）。

那么总结下，团队使用 DeepSeek V3 作为基础模型并采用 GRPO 作为 RL 框架，以提高推理中的模型性能。在训练期间，DeepSeek R1 Zero 自然而然地出现了许多强大而有趣的推理行为。经过成千上万的 RL 步骤，DeepSeek R1 Zero 表现出超级性能对标 O1。但是，有没有问题呢，那肯定有，没得，直接退出 R1 Zero 就行了。Zero 存在对不良的可读性和语言混合。为了解决这些问题并进一步提高推理，DeepSeek R1 出世，其中包含少量的冷启动数据和多阶段蒸馏管道。具体而言，首先收集数千个冷启动数据以微调 DeepSeek V3 基本模型。之后执行以推理为导向的 RL，在接近 RL 过程中收敛后，获得了一个参考的检查点作为 DeepSeek R1。

DeepSeek R1：冷启动强化学习

关于冷启动，与 DeepSeek R1 Zero 不同，R1 为了防止基础模型出现 RL 训练早期不稳定的冷启动阶段，团队构建并收集少量长 CoT（Chain-of-Thought 思维链是一种用于提升模型复杂推理能力的技术）数据，以作为初始 RL 参与者对模型进行微调。为了收集此类数据，探索了几种方法，以长 CoT 的少样本提示为例，直接提示模型通过反射和验证生成详细答案，以可读格式收集 DeepSeek R1 Zero 输出，并通过人工注释者的后处理细化结果。（其实可以看看其他家方案，就分阶段逐步放长 CoT 的数据量，虽然都是QA，但是这个 MiniMax 使用场景是长文本优化推理，这里可能要照顾自我顿悟吧

在这项工作中，收集了数千个冷启动数据来微调 DeepSeek V3 Base 作为 RL 的起点与 DeepSeek R1 Zero 相比，冷启动数据的优势在于推理性能更加好，质量更加高，另外就是可读性，DeepSeek R1 Zero 的一个关键限制是其内容通常不适合阅读。响应可能混合多种语言或缺乏 markdown 格式来为用户突出显示答案。相比之下，在为 DeepSeek R1 创建冷启动数据时，团队设计了一个可读模式，其中包括每个响应末尾的摘要，并过滤掉不适合阅读的响应。在这里，将输出格式定义为 |special_token|<reasoning_process>|special_token|（在前面 V3 文献中已经介绍过了，大家可以去回顾前文链接），其中 reasoning_process 是查询的 CoT，summary 用于总结推理结果。

关于推理导向的强化学习，在冷启动数据对 DeepSeek V3 Base 进行微调后，后续采用与 DeepSeek R1 Zero 相同的大规模强化学习训练流程（上述 RL 算法重新出山）。此阶段专注于增强模型的推理能力，特别是在编码、数学、科学和逻辑推理等推理密集型任务中，这些任务涉及定义明确且解决方案明确的问题。在训练过程中，团队观察到 CoT 经常表现出语言混乱，特别是当 RL 提示涉及多种语言时。为了缓解语言混合的问题，在 RL 训练期间引入了语言一致性奖励，其计算为 CoT 中目标语言单词的比例。虽然消融实验（ Ablation Study 是一种用于评估和分析深度学习模型中各个组件或特征重要性的方法。通过逐步移除或修改模型的某些部分，研究人员可以观察这些变化对模型整体性能的影响，说白了就是节约成本提升性能然后突破自我）表明这种对齐会导致模型性能略有下降，但这种奖励符合人类的偏好，使其更具可读性。接着将推理任务的准确性和语言一致性的奖励直接相加，形成最终奖励。最终将 RL 训练应用于微调后的模型，直到它在推理任务上实现收敛。

另外 R1 独特之处是当面向推理的 RL 收敛时，利用生成的检查点为后续轮次收集 SFT（监督微调）数据。与主要关注推理的初始冷启动数据不同，此阶段结合了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务方面的能力。具体来说，通过合并其他数据来扩展数据集，其中一些数据使用生成奖励模型，将基本事实和模型预测输入 DeepSeek V3 进行判断。对于某些非推理任务，调用 DeepSeek V3 来生成潜在的思路链，然后再通过提示回答问题。但是，对于更简单的查询，例如你好，团队不提供 CoT 作为响应。最后，总共收集了大约 20 万个与推理无关的训练样本。使用上述约 80 万个样本的精选数据集对 DeepSeek V3 Base 进行了两个时期的微调。

实施了两级微调强化学习，是为了提高模型的有用性和无害性，同时完善其推理能力。使用奖励信号和各种提示分布的组合来训练模型。对于推理数据遵循 DeepSeek R1 Zero 中概述的方法，该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据，采用奖励模型来捕捉复杂和细微场景中的人类偏好。以 DeepSeek V3 管道为基础，采用类似的偏好对和训练提示分布。为了提高有用性，只关注最终总结，确保评估强调响应对用户的实用性和相关性，同时最大限度地减少对底层推理过程的干扰。对于无害性，评估模型的整个响应，包括推理过程和摘要，以识别和减轻生成过程中可能出现的任何潜在风险、偏见或有害内容。最终奖励信号和多样化数据分布的整合使团队能够训练出一个在推理方面表现出色的模型。

蒸馏：为小型模型赋予推理能力

又来干老本行了，量化走起，又要把海外大模型干破产。为了使更高效的小型模型具备像 DeepSeek R1 这样的推理能力，团队直接使用 DeepSeek R1 策划的 800k 个样本对 Qwen 和 Llama 等开源模型进行了微调，结果表明，这种简单的蒸馏方法显著增强了小型模型的推理能力。对于蒸馏模型，团队仅应用 SFT 并且不包括 RL 阶段，尽管加入 RL 可以大大提高模型性能。但这个主要目标是展示蒸馏技术的有效性。（没意思，核心技术不带入，等下一个模型推出再来卷是吧）

二、效果对比

仅仅只需蒸馏提炼 DeepSeek R1 的输出，高效的 DeepSeek-R1-7B（DeepSeek-R1-Distill-Qwen-7B）就能全面超越 GPT-4o-0513 等非推理模型。DeepSeek-R1-14B 在所有评估指标上都超过了 QwQ-32BPreview，而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中都显著超过了 o1-mini。这些结果证明了蒸馏提炼的强大潜力。此外发现将 RL 应用于这些提炼模型可以获得显著的进一步收益。团队认为这值得进一步探索，因此这里仅展示简单的 SFT 提炼模型的结果。（特么你倒是给啊）

为了回答上述 RL 阶段对蒸馏后模型是否有促进作用。对于这个问题团队使用数学、代码和 STEM 数据对 Qwen-32B-Base 进行大规模 RL 训练，训练超过 10K 步，最终得到了 DeepSeek-R1-Zero-Qwen-32B。实验结果如下所示。

32B 基础模型经过大规模 RL 训练后，性能与 QwQ-32B-Preview 相当。然而从 DeepSeek-R1 提炼而来的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中的表现都明显优于 DeepSeek-R1-Zero-Qwen-32B。（再解释下，前者是基于 DeepSeek-R1，有 RL 和冷启动数据、推理增强，而后者只有填充冷启动数据、推理增强）因此，可以得出两个结论。首先，将更强大的模型提炼成更小的模型可以产生出色的结果，而依赖于大规模 RL 产出的小模型需要巨大的计算能力，甚至可能无法达到提炼的性能。其次，虽然提炼完策略既经济又有效，但要超越智能的界限可能仍需要更强大的基础模型和更大规模的强化学习。

三、定价

DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元（缓存命中）/ 4 元（缓存未命中），每百万输出 tokens 16 元。

看文字可能没有什么感觉，但是通过这个官网放的这个对比图，这个价格亲人啊，简直吊打 O1，难怪 OpenAI 干不下去了

四、总结

DeepSeek R1 Zero 代表了一种纯强化学习方法，不依赖冷启动数据，在各种任务中都取得了出色的性能。而 DeepSeek R1 是前者升级版本，功能更强大，它利用冷启动数据和迭代强化学习微调。最终，DeepSeek R1 在一系列任务上实现了与 OpenAI o1 1217 相当的性能。另外进一步探索将推理能力提炼到小型密集模型。从结果来看 DeepSeek-R1-Distill-Qwen-1.5B 在数学基准测试中的表现优于 GPT-4o 和 Claude-3.5-Sonnet，在 AIME 上为 28.9%，在 MATH 上为 83.9%。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】