多图详解 DeepSeek-R1 ！看完这篇就够了

DeepSeek-R1 是AI发展过程中的里程碑式工作。在这篇文章中，我们将一起了解DeepSeek-R1是如何构建出来的。和目前大多数大语言模型类似，DeepSeek-R1 也是通过一次生成一个 token（词元）的方式来工作。但它在数学和推理问题上的表现尤为突出，这是因为它能够花更多的“思考时间”，通过生成“thinking tokens”的方式来解释自己的推理过程。DeepSeek-R1 的

黑帽子唐哥

1483人浏览 · 2025-04-23 13:50:32

黑帽子唐哥 · 2025-04-23 13:50:32 发布

DeepSeek-R1 是AI发展过程中的里程碑式工作。对于机器学习研发领域而言，它的发布意义重大，原因如下：

它是一个开放权重模型，还拥有规模更小的蒸馏版本；
它分享并深入探讨了一种训练方法，使得我们可以复现类似 OpenAI O1 这样的推理模型。

在这篇文章中，我们将一起了解DeepSeek-R1是如何构建出来的。

1、回顾：LLMs 是如何训练的

和目前大多数大语言模型类似，DeepSeek-R1 也是通过一次生成一个 token（词元）的方式来工作。但它在数学和推理问题上的表现尤为突出，这是因为它能够花更多的“思考时间”，通过生成“thinking tokens”的方式来解释自己的推理过程。

如下图所示，创建一个高质量大语言模型通常需要三个步骤：

语言建模阶段：在这一阶段，使用海量的网页数据训练模型，让它学会预测下一个词是什么。这一步会得到一个“基础模型”。
监督微调阶段（SFT）：通过人工标注的数据，让模型更擅长理解和执行指令、回答问题。这一步得到的是一个“指令微调模型”或简称“SFT模型”。
偏好对齐阶段：在这一步中，模型会进一步被优化，使它的行为更符合人类的偏好。最终得到的，就是我们在各种应用和在线平台中所使用的“偏好对齐后的大语言模型”。

2、DeepSeek-R1 的训练方法

DeepSeek-R1 的训练方法遵循了大语言模型的一般训练流程。它的第一步基础模型训练，参考的是早前发布的 DeepSeek-V3 论文中的方法。值得注意的是，DeepSeek-R1 并不是基于最终的 DeepSeek-V3 模型进行训练的，而是基于 V3 的“基础模型”，在此基础上又进行了监督微调（SFT）和偏好对齐步骤。不过，R1 在这两个步骤中采用了与传统方式不同的具体方法。

在构建 R1 的过程中，有三个特别值得关注的亮点：

长链推理 SFT 数据
一个临时的高质量推理语言模型（但在非推理任务上表现较差）
使用大规模强化学习创建推理模型

2.1、长链式推理的 SFT 数据

这一步使用了大量“长链式思维”（chain-of-thought）的推理数据，总数量高达 60 万条。这类数据极其稀缺，获取难度大，而且要在如此大规模下依靠人工标注，成本非常高昂。

也正因如此，如何构造出这些推理数据的过程，成为了 DeepSeek-R1 的第二个值得重点关注的亮点。

2.2、一个临时的高质量推理语言模型

这些用于做SFT的数据是由 R1 的前身模型生成的。这个前身模型并没有正式命名，它是一个专门擅长推理任务的“同类模型”。它的灵感来源于另一个我们稍后会提到的模型 — R1-Zero。

这个未命名的推理模型之所以重要，并不是因为它在各方面都表现优秀，而是因为它在几乎不依赖人工标注数据的前提下，结合大规模强化学习，就能生成一个在逻辑推理任务上表现极其出色的大模型。这个模型可以在非推理任务上表现欠佳。

这个未命名的专业推理模型的输出结果，随后就可以被用来训练一个更通用的语言模型，使其既具备强大的推理能力，同时又能在其他非推理任务中，达到用户期望的表现水平。

上述过程图解如下，其中的"Interim reasoning model"就是临时的推理模型：

2.3、通过大规模强化学习创建推理模型

整个过程分为两个阶段：

2.3.1. 面向推理的大规模强化学习（R1-Zero）

在这一步中，强化学习被用于训练一个中间的推理模型，这个模型随后会被用来生成大规模的 SFT 推理训练样本。而这个推理模型之所以能够成功构建，是得益于更早之前的一项实验成果 —— 一个名为 DeepSeek-R1-Zero 的模型。

R1-Zero 之所以特别，是因为它在没有任何标注好的 SFT（监督微调）数据集的情况下，就能在推理任务上表现出色。它的训练过程是直接从一个预训练的基础模型出发，通过强化学习（RL）进行训练，中间完全跳过了传统的 SFT 步骤。

即便如此，它的推理能力依然非常强，甚至可以与 OpenAI 的 O1 模型相媲美。

这一点非常具有意义，因为一直以来，数据都是机器学习模型能力提升的“燃料”。那为什么这个模型却能跳出这一历史规律？这背后主要有两个原因：

现代基础模型的质量和能力已经有了质的飞跃（（比如这个基础模型，训练时使用了 14.8 万亿个高质量的 token）。
与普通的对话或写作请求不同，推理类问题是可以被自动验证或标注的。我们可以用一个例子来说明这一点。

示例：如何自动验证一个推理类问题。

在强化学习训练步骤中，可能会出现这样一个提示或问题：“编写一段 Python 代码，接收一个数字列表，将其排序后返回，并在开头添加 42。”

像这样的问题，其实有很多种自动验证的方式。假设将这个问题交给正在训练的模型，它生成了如下内容：

代码静态检查工具linter，判断模型输出的是不是合法的 Python 代码；
直接运行这段代码，看看它是否能正确执行；
利用其他现代代码生成模型来为这段代码自动生成单元测试，以验证功能是否符合预期；
更进一步，我们还可以测量这段代码的运行效率，让训练过程更倾向于性能更高的实现方式——哪怕多个答案都能正确地完成任务。

通过这样的机制，我们可以在训练中向模型提供类似的问题，并针对其生成的多种可能解答进行筛选和优化，从而不断提升模型的推理能力。

上述训练过程中生成结果，可以自动检查（无需人工干预）：发现第一个生成内容甚至不是代码；第二个是代码，但不是 Python 代码；第三个是一个可能的解决方案，但未通过单元测试；而第四个是正确的解决方案。

这些都是可以直接用于改进模型的反馈信号。当然，这一过程是通过大量示例（以小批量的形式）和不断的迭代训练来实现的。

这些奖励信号（reward signals）和模型的更新过程，推动着模型在强化学习训练过程中不断提升任务处理能力，如下图所示。

随着模型能力的提升，还有一个显著的变化就是：模型生成的回复长度变长了。也就是说，模型会生成更多的“thinking tokens，通过更长的推理链条来深入理解和解决问题。这正是它在推理类任务上表现越来越好的一个重要体现。

这个训练过程虽然非常有价值，使得 R1-Zero 模型在推理类问题上的得分表现出色，但它本身仍然存在一些问题，导致其在实际使用中不如预期那样理想。

尽管 DeepSeek-R1-Zero 展现出了强大的推理能力，甚至能自主涌现出一些意想不到且高效的推理行为，但它也面临不少挑战。例如：生成内容的可读性较差，容易出现语言混杂（如中英夹杂）的问题，这些都影响了它的整体使用体验。

R1 的目标是成为一个更加实用、可用性更强的模型。因此，它并没有完全依赖强化学习（RL）过程，而是将其合理地应用在两个关键环节中，正如我们在前文中提到的：

构建一个中间推理模型，用于生成 SFT（监督微调）所需的数据样本，这样可以在不大量人工标注的前提下，获得高质量的推理训练数据；
用于训练最终的 R1 模型，在推理任务和非推理任务上全面提升性能，其中还结合了其他类型的验证机制，帮助模型更准确地理解和优化回答。

2.3.2. 使用中间推理模型生成 SFT 推理数据

为了让中间推理模型更加实用，它会先经过一个监督微调（SFT）步骤，使用几千条推理类问题进行训练（其中一部分数据是由 R1-Zero 生成并筛选出来的）。在论文中，这一部分被称为“冷启动数据”。

但你可能会疑惑：既然我们已经有了这些数据，为什么还要依赖强化学习（RL）过程呢？原因在于数据的规模问题。

这部分“冷启动”数据可能只有大约 5,000 条（这个数量还是可以人工获取的），但训练 DeepSeek-R1 所需的推理数据量高达 60 万条。显然，单靠人工标注是远远不够的。

这个中间推理模型的作用就在于此——它帮助我们弥合了数据量的差距，可以自动生成大量高质量的推理数据，从而支持大规模的训练过程。这些合成出来的数据，极其宝贵，也正是 DeepSeek-R1 高推理能力背后的关键支撑。

你可能对「监督微调（Supervised Fine-Tuning，简称 SFT）」这个概念还不熟悉，，简单来说，就是向模型提供由提示和正确输出结果构成的训练样本。下图展示了几个监督微调训练样本：

2.3.3. 通用强化学习训练阶段

这个阶段的目标，是让 R1 模型不仅在推理任务上表现优异，还能在非推理类任务上同样出色。整体流程与我们前面讲过的强化学习（RL）过程类似，但这里的范围更广。

但由于涉及非推理应用，所以会引入 “有用性奖励模型（Helpfulness Reward Model）” 和 “安全性奖励模型（Safety Reward Model）”，来针对不同类型的提示（prompt）进行评估。这种方式与 LLaMA 模型在强化学习阶段采用的方法类似，可以帮助模型更好地理解人类偏好，从而在回答各种问题时更加可靠、实用和安全。

3、架构设计

和早期的 GPT-2、GPT-3 一样，DeepSeek-R1 采用的是由 Transformer 解码器块堆叠而成的结构，总共包含 61 层。其中，前 3 层是普通的全连接（dense）层，而后面的 58 层则采用了“专家混合（Mixture-of-Experts, MoE）”结构。

至于模型的维度大小以及其他超参数，DeepSeek-R1 的设置如下：

看到这里，你应该已经对 DeepSeek-R1 模型的整体思路和核心机制有了清晰的认识。

我的DeepSeek部署资料已打包好（自取↓）
https://pan.quark.cn/s/7e0fa45596e4

但如果你想知道这个工具为什么能“听懂人话”、写出代码甚至预测市场趋势——答案就藏在大模型技术里！

❗️为什么你必须了解大模型？

1️⃣ 薪资爆炸：应届大模型工程师年薪40万起步，懂“Prompt调教”的带货主播收入翻3倍

2️⃣ 行业重构：金融、医疗、教育正在被AI重塑，不用大模型的公司3年内必淘汰

3️⃣ 零门槛上车：90%的进阶技巧不需写代码！会说话就能指挥AI

（附深度求索BOSS招聘信息）
在这里插入图片描述

⚠️警惕：当同事用DeepSeek 3小时干完你3天的工作时，淘汰倒计时就开始了。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？老师啊，我自学没有方向怎么办？老师，这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！当然这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！