在本文中,我们将深入探讨 DeepSeek-R1 的数学和方法论核心,剖析其采用的强化学习(RL)技术,并分析促成这些卓越成果的创新点。

大模型的推理能力

在提升 LLM 推理能力的传统方法中,最常见的包括思维链 (CoT) prompting(Wei 等,2022),即鼓励模型明确列出其推理步骤,或是通过监督微调(Supervised Fine-Tuning, SFT)在包含推理示例的数据集上进行训练。这些方法在一定程度上提高了模型的推理能力,但往往难以赋予模型真正灵活的推理能力。换句话说,它们主要是在教模型如何“表达”推理,而非如何真正进行推理。

这正是强化学习(RL)成为更具吸引力的替代方案的原因,也是 DeepSeek-AI 在 DeepSeek-R1 研究中所采用的核心方法。正如他们的研究论文所述,RL 提供了一种直接激励推理行为的框架。可以将其类比为儿童学习的过程:与其直接告诉孩子正确答案,不如给他们一个任务,当他们取得进展时给予奖励,偏离方向时进行纠正,并鼓励他们探索不同的解题路径。

RL 为 AI 构建了类似的学习机制,使我们能够定义“良好推理”的标准——比如解数学题的准确性,或编写代码时的逻辑一致性——并设计奖励系统,鼓励模型自主探索和优化其推理策略。更重要的是,RL 允许模型通过交互和实验学习,从而发展出内在的推理机制,而不仅仅是简单模仿人类示例或依赖预设规则。因此,DeepSeek-R1 不仅仅是向前迈进了一步,而是开辟了一条新路径——将强化学习作为 LLM 设计的核心,使其不仅仅是信息的存储库,而是一个能够主动思考和解决问题的智能体。

DeepSeek-R1-Zero

要真正理解 DeepSeek-R1 的创新性,首先需要了解其前身——DeepSeek-R1-Zero。这一模型代表了一次大胆的实验,DeepSeek-AI 在训练过程中完全依赖强化学习,而刻意省略了初始的监督微调(SFT)。

GRPO 算法:推理学习的数学框架

为了实现这一目标,DeepSeek-AI 采用了一种特殊的强化学习算法——Group Relative Policy Optimization (GRPO)。在 RL 训练中,尤其是面对大规模 LLM 时,计算效率至关重要。GRPO 正是为此而设计的,它提供了一种计算更高效的策略优化方法。其核心是 GRPO 目标函数,这一数学表达式指导着整个学习过程:

img组相对策略优化公式,图片来自作者

这个公式的核心在于更新模型的“策略”,用 𝜋𝜃 表示。可以把策略理解为模型生成文本的方式,也就是它如何决定接下来的词语。𝜋𝜃𝑜𝑙𝑑 代表“旧”策略,即上一个训练步骤中的策略。我们需要这个旧策略来确保更新是渐进且稳定的,避免模型在每一步骤中发生剧烈变化,否则可能导致训练过程变得混乱和不可控。

其中,𝑞 ∼ 𝑃(𝑄) 表示我们从问题集合 𝑃(𝑄) 中抽取问题 𝑞 作为训练输入,这些问题就是我们希望模型解决的任务。对于每个问题,我们让旧策略生成一组不同的答案 {𝑜𝑖},这类似于让学生集思广益,尝试多种不同的解法。

接下来是关键部分——奖励机制。A_i 代表每个答案 o_i 的“优势值”(Advantage),它是基于该答案获得的奖励计算得出的。在 DeepSeek-R1-Zero 的训练中,奖励主要依赖于答案的准确性。如果答案正确,则获得较高的奖励;如果答案错误,则奖励较低。

img

然而,这里的优势值 A_i 并不仅仅是答案的原始奖励 r_i,而是一个相对奖励。具体来说,它衡量的是某个答案 o_i 的奖励与该组所有答案的平均奖励之间的差异,并且用标准差进行归一化。这种归一化对训练的稳定性至关重要,因为它关注的是模型在每组答案中的相对提升,而不是绝对的奖励数值。可以将其类比为课堂上的曲线评分(grading on a curve),在这种评分方式下,成绩不仅取决于个人得分的绝对高低,还取决于与同组学生相比的表现。

img

这一部分涉及一种称为“近端策略优化(Proximal Policy Optimization,PPO)”的裁剪(clipping)技术。

img

其中的比率衡量了新策略相较于旧策略生成某个答案 o_i 的概率变化程度。我们的目标是更新策略,使其更倾向于生成那些优势值较高的答案(即质量较好的答案),但同时要控制更新幅度,避免过度调整而导致训练不稳定。

img

裁剪函数的作用就是限制这一比率在单次更新中的变化范围,确保更新过程稳健,防止策略发生剧烈波动。可以将其类比为引导学生学习时的方式——不是强行灌输,而是温和地引导他们朝正确方向前进。

最后,

img

是一个正则化项。

img

是 Kullback-Leibler(KL)散度,它用于衡量新策略 𝜋𝜃 与参考策略 𝜋𝑟𝑒𝑓 之间的差异。在这个背景下,参考策略可以是模型的初始版本,也可以是某个较早的检查点。这个项的作用是在训练过程中抑制策略的剧烈变化,确保模型不会在没有充分理由的情况下偏离已有的学习成果。换句话说,它有助于维持训练的稳定性,防止模型遗忘之前学到的知识。超参数 𝛽 决定了这一正则化项的影响力,即对模型行为的约束力度。

本质上,GRPO 通过不断优化模型的策略来提升其推理能力。对于每个问题,它都会生成一组不同的答案,基于奖励机制评估答案的质量,然后在保证学习稳定性的前提下,微调策略,使模型未来生成更优答案的概率更高。

准确性奖励与格式奖励

在 DeepSeek-R1-Zero 的训练过程中,DeepSeek-AI 采用了一套基于规则的奖励系统,主要关注两个核心方面:准确性(Accuracy)格式(Format)

顾名思义,准确性奖励是在模型生成正确答案时给予的激励。不同任务的正确性判定方式有所不同。例如,在数学问题中,由于答案通常是确定性的,可以使用基于规则的系统来验证最终答案是否符合预期格式(比如论文中提到的“答案需放入指定的框内”)。类似地,对于 LeetCode 等编程挑战,编译器可以自动执行代码,并基于预定义的测试用例判定其正确性,从而提供客观的反馈。这些准确性奖励是主要的优化信号,直接驱动模型寻找能够生成正确答案的策略。

然而,仅仅追求正确答案是不够的。为了引导模型不仅能给出正确答案,还能以更清晰、更具可解释性的方式呈现其推理过程,DeepSeek-AI 进一步引入了格式奖励。这一奖励机制鼓励模型将推理过程与最终答案明确区分开来,并采用特定的结构化格式进行呈现。例如,训练过程中,模型被引导在标签内书写完整的推理过程,并将最终答案置于标签内。这种格式化要求并不会直接影响答案的正确性,但它提高了模型推理过程的透明度,使其更具可读性和可解释性。换句话说,这一机制相当于在告诉模型:“展示你的解题过程!解释你是如何得出答案的。”

这就引出了 DeepSeek-R1-Zero 训练时使用的对话模板。为了启动 RL 过程,并为模型输出提供基础结构,DeepSeek-AI 采用了一种极其简单的训练模板。如其论文所述,该模板本质上是一个对话式的提示:“User: prompt. Assistant:reasoning process here``answer here.” 其中,“prompt” 在训练过程中会被具体的推理问题所替代。这一模板的极简性十分引人注目。它既不规定特定的推理策略,也不要求模型进行反思,更不会偏向任何特定的问题求解方法。其刻意保持的简单性是关键所在。通过仅施加这一结构约束——“先思考,再作答”——DeepSeek-AI 旨在观察模型的自然学习轨迹,探索在强化学习过程中能够自主涌现的推理能力,而不受人为设定的“良好推理标准”的束缚。

自适应思考时间

最终呈现出的结果令人惊叹。DeepSeek-R1-Zero 仅通过 RL,并结合准确性奖励、格式奖励以及这一简单的训练模板,就展现出了研究人员所描述的“卓越推理能力”。其中最引人注目的现象之一是模型自发学会了调整思考时间(Adaptive Thinking Time)。随着训练的推进,DeepSeek-R1-Zero 逐渐学会在面对更复杂的问题时,分配更多的计算资源,实际上就是“思考”更长时间。这并不是一个预设的行为,而是在强化学习过程中自然涌现的能力。模型发现,在某些难度较高的推理任务中,生成更长的思维链条、探索更多内部计算路径,能够带来更好的结果,也能获得更高的奖励。这一发现至关重要:模型不仅仅是在提升模式识别能力,而是在发展出更复杂、更依赖计算资源的解题方式。

“Aha 时刻”

或许最令人惊讶的发现,是研究人员所称的**“Aha 时刻”**的自发涌现。

在 DeepSeek-R1-Zero 训练的中期版本中,模型展现出了一种自我反思的能力,能够在推理过程中重新评估自己最初的解题方法。论文中举了一个典型的例子:在解某个数学方程时,模型生成的回答中出现了这样的表述:“等等,等等。等等。这是一个值得标记的 Aha 时刻。”以及“让我们一步步重新评估这个过程……”。这就像是模型不仅仅在解题,而是在有意识地监控自己的思考过程,当它察觉到可能出现的错误时,会主动停下来,回溯并重新审视推理过程。这不仅仅是复杂的推理能力,更是一种元认知能力(Meta-Reasoning)——思考自身的思考方式。这一“Aha 时刻”不仅是模型推理能力的突破,同时也是研究人员的一个“Aha 时刻”:他们亲眼见证了强化学习如何解锁人工智能系统中前所未有的智能水平。

DeepSeek-R1 与多阶段训练

尽管 DeepSeek-R1-Zero 作为概念验证的成果极具价值,成功证明了推理能力可以通过纯强化学习自发涌现,但它并非没有局限性。DeepSeek-AI 的研究人员在论文中指出,DeepSeek-R1-Zero 存在“可读性较差”和“语言混杂”等问题。为了解决这些实际问题,DeepSeek-AIR1-Zero 的基础上,构建了一套精心设计的多阶段训练流程,最终推出了 DeepSeek-R1。

DeepSeek-R1 的开发由两个核心问题驱动:

  1. 如果引入少量高质量数据作为“冷启动”,是否可以进一步提升模型的推理能力,或加快训练过程?这类似于给一位天才数学家提供一些写得很好的数学证明示例,以帮助其调整表达方式,但不干涉其数学推理思维本身。
  2. 如何训练一个不仅推理能力强大,而且表达清晰、易于理解的模型?也就是说,让模型在保持强大推理能力的同时,具备清晰、连贯的推理过程。

围绕这两个问题,DeepSeek-AI 设计了四阶段训练流程,以同时优化模型的推理能力和表达能力。

第一阶段:冷启动数据与初始微调

DeepSeek-R1 训练的第一阶段涉及创建“冷启动”数据集,并使用该数据对 DeepSeek-V3-Base 进行微调。这一方法与 R1-Zero 直接从强化学习开始训练的方式存在显著区别。冷启动的核心目标包括:

  • 从一开始就提高可读性:通过训练模型学习书写良好的推理示例,引导其生成更易理解的输出。
  • 引入人类推理先验:数据集中包含了人类思维模式,使模型更容易学习有效的推理方法,并加速学习过程。

冷启动数据集的构建方式包括:

  • 少样本提示(Few-shot Prompting):提供带有详细推理步骤的示例,引导模型模仿清晰的推理表达。
  • 反思与验证提示(Prompting for Reflection and Verification):鼓励模型采用更审慎的推理风格,进行自我检查。
  • 优化 R1-Zero 生成的推理输出:在 R1-Zero 自主学到的推理过程中,提高可读性,使其更加清晰易懂。
  • 人工标注(Human Annotation):确保数据的质量和表述的清晰度,提高训练数据的可靠性。

该数据集包含数千个示例,并用于对 DeepSeek-V3-Base 进行微调,从而创建后续强化学习阶段的初始模型(actor)。经过这一步微调后,模型的输出具备了清晰的结构:|special_token||special_token|,极大地提升了可读性,并促进了一致的“可读模式”的形成。

第二阶段:面向推理的强化学习

在冷启动微调的基础上,DeepSeek-R1 进入了大规模 RL 训练,重点提升其在代码生成、数学推理、科学问题解决和逻辑推理等任务上的能力。这一阶段的关键挑战之一是在思维链(CoT)推理过程中,模型可能会混合使用多种语言,尤其是在处理多语言输入时。

为了解决这一问题,DeepSeek-AI 引入了**“语言一致性奖励”**(language consistency reward),计算方法是统计目标语言在生成文本中的占比。虽然这一策略可能会轻微降低基准测试的得分,但显著提升了语言的连贯性和可读性。最终的奖励信号综合了准确性和语言一致性,并持续优化训练,直到模型在目标推理任务上达到稳定收敛。

第三阶段:拒绝采样(Rejection Sampling)与监督微调(SFT)

这一阶段的重点从单纯的推理能力提升转向了更广泛的优化,包括提升用户体验。此时,来自第二阶段的 RL 训练检查点被用于生成新的监督微调(SFT)数据,以扩展模型的技能,使其涵盖创意写作、角色扮演和通用任务等更多应用场景。该过程涉及:

  • 拒绝采样(Rejection Sampling):在生成推理轨迹后,筛选出不符合质量标准的内容并予以丢弃,评判标准包括基于规则的奖励和生成式奖励模型(DeepSeek-V3)。质量标准涵盖语言混杂、段落过长、代码块混乱等问题。
  • 非推理数据的引入(Incorporation of Non-Reasoning Data):借助 DeepSeek-V3 的训练管道和数据集,确保模型保持写作、事实问答、自我认知和翻译等通用能力。此外,一部分非推理数据通过 CoT 提示被增强,使其隐式地融入推理能力。

最终,DeepSeek-AI 结合约 80 万条样本数据对 DeepSeek-V3-Base 进行微调,进一步优化推理能力,同时拓展了模型的通用性。

第四阶段:全场景强化学习

最后一个阶段的目标是让模型在推理准确性、可读性、实用性和安全性等多个维度上全面对齐人类偏好。此时,DeepSeek-AI 采用了二次强化 RL,通过多样化的 prompts 和多元化的奖励信号来优化模型表现:

  • 推理数据(Reasoning Data):继续使用基于规则的奖励,重点关注准确性。
  • 通用数据(General Data):采用神经奖励模型(Neural Reward Models),捕捉更细腻的人类偏好。
  • 实用性(Helpfulness):针对最终摘要进行奖励,引导模型生成更有价值的总结。
  • 安全性(Harmlessness):评估整个响应内容,包括推理过程和总结部分,确保输出内容安全无害。

经过这一阶段的优化,DeepSeek-R1 最终成型,成为一款在推理能力上表现卓越,同时兼顾实用性、安全性和用户体验的模型。

蒸馏:将推理能力迁移至小型模型

随着大语言模型(LLM)日益强大,计算成本和硬件需求也急剧上升,限制了其可访问性和运行效率。为了解决这一问题,DeepSeek-AI 采用知识蒸馏(Distillation)技术,将大模型(Teacher)的能力迁移至更小的学生模型(Student),以提升模型的计算效率并拓宽应用范围。

蒸馏方法论(Distillation Methodology)

DeepSeek-AI 的蒸馏策略既直接又高效,充分利用了在监督微调(SFT)阶段构建的 80 万条高质量训练样本。这些数据涵盖了推理任务和非推理任务,为小型“学生模型”的训练提供了坚实的基础。

  • 基础架构(Base Architectures):DeepSeek-AI 选择了 Qwen 和 Llama 作为基础架构,原因在于它们在开源社区中的广泛应用及其强大的性能表现。
  • 模型规模(Model Sizes):研究团队对这些基础模型的多个版本进行了微调,包括 Qwen2.5-Math-1.5B、7B、14B、32B,Qwen2.5–14B、32B,Llama-3.1–8B 以及 Llama-3.3–70B-Instruct。
  • 训练方法(Training Method):本次蒸馏训练仅使用 SFT,未对小型模型进行强化学习。这种方法有意避免了 RL 训练的影响,以单独评估蒸馏技术的有效性。
蒸馏结果(Distillation Results)

蒸馏训练的结果令人印象深刻。

  • 最小模型的表现(Smallest Model Performance):即便是最小规模的蒸馏模型 DeepSeek-R1-Distill-Qwen-1.5B,在多个基准测试中也超越了 GPT-4o-0513 等体积更大的非推理模型。
  • 较大模型的表现(Larger Model Performance):较大规模的蒸馏模型表现更加突出。例如,DeepSeek-R1–14B 在所有评测指标上均超越了 SOTA 开源模型 QwQ-32B-Preview。此外,DeepSeek-R1–32B 和 DeepSeek-R1–70B 在大多数评测基准上显著超过 OpenAI-o1-mini。

这些结果表明,蒸馏技术可以高效地将 DeepSeek-R1 的推理能力迁移到更小、更高效的模型上。

与直接强化学习训练的对比(Comparison with Direct RL Training)

为了评估蒸馏训练与直接 RL 训练的优劣,DeepSeek-AI 还采用大规模 RL 训练,让 Qwen-32B-Base 通过与 DeepSeek-R1-Zero 类似的强化学习流程,在数学、编程和 STEM 领域的数据上进行训练,最终得到 DeepSeek-R1-Zero-Qwen-32B。随后,他们将这一 RL 训练的模型与蒸馏训练得到的 DeepSeek-R1-Distill-Qwen-32B 进行了对比。

  • RL 训练模型的表现(RL-Trained Model Performance):DeepSeek-R1-Zero-Qwen-32B 经过 RL 训练后,性能可与 QwQ-32B-Preview 相媲美。
  • 蒸馏模型的优越性(Distilled Model Superiority):DeepSeek-R1-Distill-Qwen-32B 在所有推理基准上均大幅超越 RL 训练的 DeepSeek-R1-Zero-Qwen-32B。
效率分析与未来展望(Efficiency and Future Directions)

基于这一比较,DeepSeek-AI 得出了两个重要结论:

  • 蒸馏效率:蒸馏是一种极高效的方式,能够让小型模型具备强大的推理能力。相比于直接在小型模型上使用 RL 训练,让大模型先学习推理能力,再通过蒸馏迁移到小模型,效果更加显著。
  • AI 的未来:尽管蒸馏技术提升了高性能推理模型的可及性,但推动 AI 能力的进一步突破仍然依赖于基础大模型的持续扩展,以及更大规模的强化学习研究。蒸馏技术可以让现有 AI 更易用,而真正迈向更强人工智能,可能仍需要扩大模型规模,并深入探索 RL 等学习范式。

结论

DeepSeek-R1 在推理大模型的训练范式上带来了颠覆性的改变。DeepSeek-AI 将强化学习作为核心训练机制,证明了推理能力不仅可以通过数据规模的扩大来“涌现”,还可以直接通过强化学习进行学习和优化。多阶段训练流程与随后的蒸馏技术相结合,进一步验证了这一方法的有效性。DeepSeek-R1 的方法论为未来的 AI 研究提供了宝贵的参考,为打造更强大、更智能的 AI 系统指明了一条可行的路径。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

img

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

img

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐