一文搞懂Deepseek R1强大的推理能力是如何练成的

在大模型领域，推理能力一直是衡量模型智能水平的重要标准。DeepSeek R1 作为一款在推理任务中表现出色的模型，其能力已逼近 OpenAI O1 的顶尖水平。那么，DeepSeek R1 究竟是如何实现这一突破的？答案就隐藏在它独特的训练方式中。与传统的训练方式不同，DeepSeek R1 的训练路径分为三个阶段：其中从 DeepSeek V3 到 DeepSeek R1 Zero 的过渡阶段

和老莫一起学AI

2175人浏览 · 2025-03-03 13:43:20

和老莫一起学AI · 2025-03-03 13:43:20 发布

一、前言

在大模型领域，推理能力一直是衡量模型智能水平的重要标准。DeepSeek R1 作为一款在推理任务中表现出色的模型，其能力已逼近 OpenAI O1 的顶尖水平。那么，DeepSeek R1 究竟是如何实现这一突破的？答案就隐藏在它独特的训练方式中。

与传统的训练方式不同，DeepSeek R1 的训练路径分为三个阶段：

DeepSeek V3 --> DeepSeek R1 Zero --> DeepSeek R1。

其中从 DeepSeek V3 到 DeepSeek R1 Zero 的过渡阶段——这一阶段完全跳过了传统的监督微调（SFT），直接采用强化学习（RL）进行训练。这种创新的训练方式不仅大幅提升了模型的推理能力，还为人工智能的训练范式提供了新的思路。

本文将深入剖析 DeepSeek R1 Zero 模型训练中的核心创新点，讨论如何通过强化学习实现推理能力的大幅提升

二、Deepseek R1 zero 训练方式特点

Deepseek 从 V3 到 R1 zero 的训练过程，有以下几点跟传统大模型训练方式不一样

1、跳过监督微调（SFT）

与传统的 RLHF（基于人类反馈的强化学习）不同，R1 Zero 完全跳过了监督微调阶段，直接通过强化学习进行训练，这种方法被称为“冷启动”训练。

2、改进强化学习，使用了新的算法和机制

GRPO 算法

R1 Zero 采用了 Group Relative Policy Optimization（GRPO）算法进行强化学习。GRPO 通过比较一组样本的奖励来估计优势函数，降低了训练复杂度和计算资源需求

奖励机制

准确性奖励：判断答案是否正确。例如，如果模型回答 1 + 1 = 2，则加 1 分；如果答案错误，则不加分。

格式激励：模型必须按照要求的格式作答。例如，若问题是「1+1 等于几？」，模型直接回答「answer 2」将得 0 分，但如果它在 think 标签中先写出推理过程，再在 answer 标签中给出答案，则会获得更高的分数。

接下来我们详细展开说明上述机制的作用。

三、为什么要跳过监督微调 SFT？

传统大模型训练步骤是什么？监督式微调（SFT)在其中的作用是什么？

传统的大模型训练方式通常分为三个阶段：

预训练->监督微调（SFT）->强化学习

其中，监督式微调（SFT）是关键步骤之一。SFT 通过使用人工标注的训练数据来调整和优化模型的行为。在 SFT 过程中，模型会接受一批已知答案的数据，并根据这些数据来学习和调整自己的权重。模型的目标是尽可能准确地预测训练数据中的正确标签。SFT 的作用在于通过监督学习的方式，让模型在有明确标签的任务中快速学习并优化其行为，从而提高模型在特定任务上的表现。这种方法在文本生成、机器翻译、情感分析等任务中尤为有效，因为它依赖于高质量的标注数据，能够为模型提供明确的学习目标。

Deepseek R1 Zero 跳过 SFT 的训练方式是一种实验性模型

R1 Zero 是一种实验性模型，是 V3 到 R1 的中间产物，其核心目标是探索纯强化学习在推理任务中的潜力。与传统的训练方式不同，R1 Zero 跳过了监督微调（SFT）阶段，完全依赖于强化学习进行训练。这种实验的目的是验证模型在仅依靠基本的奖励机制（如答案准确、格式正确）下，能否自主学习和发展出强大的推理能力。通过这种方式，R1 Zero 目的在突破传统依赖 SFT 的范式，探索在无监督微调的情况下，是否能够通过自我验证和反思机制，自主优化推理策略。这一实验不仅验证了纯强化学习在复杂任务中的可行性，还为未来大模型的训练提供了新的思路和方向。

跳过 SFT 训练好处多

跳过监督微调（SFT）训练带来了多方面的好处。

1、它减少了对大量标注数据的依赖，节省了数据准备和标注的成本。传统的大模型训练需要大量的人工标注数据来进行监督微调，而跳过 SFT 后，模型可以通过强化学习与环境的交互来自主学习，减少了对人工标签的需求。注意：只是减少不是不需要 SFT，实际上 R1 Zero 还不能直接使用，例如可能会出现无尽的重复内容，导致输出的可读性欠佳等，从 R1 Zero 到 R1 还是需要经过 SFT。

2、跳过 SFT 提升了模型的自主学习和泛化能力。在没有明确标签的情况下，模型能够通过强化学习逐步优化其决策过程，使其在复杂和动态的任务中更具适应性和灵活性。

3、跳过 SFT 强化了模型的推理能力。强化学习专注于优化决策过程，使模型能够在具体任务中做出最优决策，特别是在面对用户反馈和环境变化等实时问题时，模型能够通过不断的反馈调整行为，表现出更强的适应性和推理能力。

四、Deepseek R1 Zero使用的强化学习方式有什么不同？

我们来看看常用强化学习的整体过程和核心目标

强化学习的核心目标是让模型通过与环境的交互，自主学习最优策略。在这种情况下，模型通过奖励信号来不断调整自己的行为。简单来说，就是模型在与环境交互时，通过尝试不同的动作，获取环境的反馈（奖励或惩罚），逐渐学会做出更好的决策

举个例子

训练小狗捡球的过程可以很好地解释强化学习的核心思想。在这个场景中，小狗相当于强化学习中的“模型”，而你则扮演“环境”的角色，负责提供反馈（奖励或惩罚）。球则是任务目标。

一开始，小狗可能会尝试各种动作，比如闻一闻球、用爪子扒拉球，或者直接叼起球。如果小狗成功叼起球并带回给你，你会奖励它一块零食；如果它只是闻了闻球或把球弄丢了，它不会得到奖励；如果它把球咬坏了，可能会受到轻微的惩罚。

通过多次尝试，小狗逐渐发现“叼起球并带回给你”是获得奖励的最佳策略，于是它学会了每次都选择这个动作。最终，经过反复训练，小狗掌握了捡球并带回的技能，因为它知道这是最有效的获得奖励的方式。这个过程其实就是强化学习中模型通过与环境的交互，不断优化行为以达成目标的核心机制。

Deepseek 强化学习过程整体与上述类似，但是也有差异，具体如下图所示

有两个技术优化点

GRPO 算法加持：高效 RL 训练的关键

R1 Zero 采用了 Group Relative Policy Optimization（GRPO）算法进行强化学习，是一种创新的强化学习算法，其核心在于通过组内相对竞争来优化模型性能。如上图所示，每次输入一个问题，然后模型生成多条答案（例如 5 种解法或响应），这是其实现“组内相对竞争”的前提。通过生成多个候选答案，GRPO 能够在组内对这些答案进行对比和评估，计算它们的相对优势值，从而确定哪些策略更优。这种设计使得模型能够从相对优劣中学习，而不是依赖单一的绝对评估标准—俗称组内内卷，同行 PK。

这样做的好处：

1、多样性：模型需要输出多样化的解决方案，以覆盖不同的可能性。

2、对比学习：通过组内对比，模型能够更高效地识别出哪些策略在当前任务中表现更好。

3、资源优化：虽然生成多条答案会增加一定的计算开销，但相比于传统方法在绝对评估上的资源消耗，GRPO 通过相对评估大幅减少了训练过程中的计算负担。

4、创造性：GRPO 的组机制模仿了人类同行评审过程–最优解不再是绝对正确，而是在当前候选集中相对更优，这种设计突破了“标准答案”的局限，为 AI 的创造性思维开辟了新的可能性

简单高效的奖励机制

奖励机制结合了准确度激励和格式激励，笔者认为有三个好处：

提升准确性：通过奖励正确答案，确保模型输出的内容在事实和逻辑上可靠；

增强可解释性：格式激励要求模型按照结构化方式（如先展示推理过程，再给出答案）输出，使结果更清晰易懂

促进结构化思维：强制模型展示思考步骤，减少“偷懒”行为，提升复杂任务的解决能力。

这种机制不仅平衡了内容与形式，还使模型在多样化任务中表现更加出色。

五、具体是如何训练的？

R1 Zero 完全跳过了监督微调阶段，直接通过强化学习进行训练，这个时候可以理解是“冷启动”，即这个时候输入推理任务后，大模型输出可能是随机的，随着学习次数增加逐步学会移项和计算，最后才完整掌握解题步骤。因此为了能够提高训练效果，Deepseek 优化了训练策略

1、课程学习（Curriculum Learning）

从简单任务逐步过渡到复杂任务，帮助模型逐步掌握推理能力。（类似人类学习过程从小学、初中、高中）

2、过程奖励（Process Reward）

不仅奖励最终结果，还对中间推理步骤进行奖励，引导模型学习正确的推理路径。（老师在教学时，在讲解习题的时候肯定不是只给一个答案，而是会讲整个解题过程）

具体训练模式比较简单，在 R1 白皮书中已经说明

如上图所述，训练方式就跟平时我们跟大模型交互类似，将推理问题按照指定格式输入给大模型，大模型推理然后根据指定格式输出，举个示例：

输入问题 User: 计算 2 + 3 × 4 的结果

Assistant 返回：

根据运算顺序，先计算乘法部分：3 × 4 = 12。然后计算加法部分：2 + 12 = 14。

从上述结果可以看到，模型返回会包含推理过程，那这个过程也是有好有坏，又是如何识别和反馈的？ --过程奖励（Process Reward）

下面详细展开一下这个过程：

例如输入推理训练任务：让模型求解方程 3x + 7 = 16

奖励机制会根据模型输出的推理步骤分步给与打分激励

正确移项（如 3x=16−7） → +0.5 分。
正确计算（9 ÷ 3 = 3） → +0.5 分。
代入验证（检查 3(3)+7=16 是否成立） → +0.5 分。
最终得出 x=3 → +1 分。

如果某个步骤出错，奖励会降低。例如：

如果移项错误（如 ( 3x = 16 + 7 ）） → -0.5 分。
如果计算错误（如 x=10/3） → -0.5 分。

这种方式不仅保证了答案正确，还确保模型遵循合适的推理过程，不是单纯地“记住答案”

从上述过程可以看到，过程激励能帮助模型逐步形成更严谨的逻辑链条，减少错误推理的发生；同时，它有效避免了传统结果奖励可能导致的“奖励欺骗”问题，防止模型通过“投机取巧”的方式获得高分；此外，过程奖励还促使模型在推理过程中自发调整策略，甚至在出现错误时重新思考，展现出类似人类的“顿悟”能力。

Deepseek R1 Zero 强化学习数据量是多少？

目前没有公开的确切资料显示 DeepSeek R1 zero 在强化学习阶段具体使用了多少条任务数据，但可从相关模型训练流程等信息做一些合理推测和分析：

从类似训练任务推测：在 TinyZero 复现 DeepSeek-R1-Zero 的代码中，用于训练的数字游戏数据集原始数据有 490k 条。DeepSeek R1 zero 的训练数据量可能与之有一定的量级相似性，但不能完全等同，因为实际训练场景更复杂，涉及更多类型任务和数据。
从相关模型训练流程关联分析：DeepSeek R1 在冷启动阶段使用了数千条高质量数据。在拒绝采样和监督微调阶段，收集了 800k 数据。虽然这些数据不是 DeepSeek R1 zero 强化学习阶段直接使用的数据，但可以看出整个 DeepSeek R1 系列模型训练中数据量的大致规模和量级。

由此推测 DeepSeek R1 zero 强化学习阶段的数据量也在几十万到数百万条这个范围。

六、顿悟时刻

在训练 DeepSeek-R1-Zero 的过程中，出现了“顿悟时刻”，在这个阶段，模型学会了重新评估最初的思路，花更多时间思考问题。这种行为不仅展示了模型推理能力的提升，也体现了强化学习的独特之处：不需要直接教模型如何解决问题，只需要提供合适的激励，模型就能自己发展出更高级的解题策略。— 越来越像人类了

上图可以看到随着模型强化学习推进，在解决问题时思考时间在增加

训练成效显著

我们来看 Benchmark，R1 Zero 还不是大家每天用的 R1，但它在 AIME、MATH、GPQA 和写代码等任务上，有的超越、有的逼近。除了 CodeForces 上略有不足。

通过应用多数投票（majority voting）方法，DeepSeek-R1-Zero 的性能可以进一步提升。例如，在 AIME 基准测试中，使用多数投票后，DeepSeek-R1-Zero 的表现从 71.0% 提升至 86.7%，从而超越了 OpenAI-o1-0912 的表现。

七、总结

DeepSeek-R1-Zero 能够在不需要任何监督微调数据的情况下，获得强大的推理能力。这是一个牛逼的的成就，因为它展示了模型仅通过强化学习就能有效学习和泛化的能力。

DeepSeek-R1-Zero 在 AIME 等基准测试中的表现证明了这一方法的有效性。通过多数投票等策略，其性能进一步提升，甚至超越了部分传统方法训练的模型。这表明，跳过 SFT 直接强化学习不仅可行，而且在某些任务中具有显著优势。

未来，随着强化学习技术的不断发展，这一方法有望在更多复杂任务中得到应用。例如，在数学推理、编程问题解决等领域，跳过 SFT 直接强化学习可能会成为主流训练范式。同时，结合更高效的奖励机制和训练策略，模型的推理能力和自主性将进一步提升，推动人工智能向更智能、更自主的方向发展。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。