【万字详解】DeepSeek R1是如何训练出来的

伴随着DeepSeek R1火爆全球，有很多同学问我这个颠覆行业的大模型到底是如何训练的。接下来我将用尽量通俗的语言，带大家零基础理解DeepSeek R1模型的训练流程及其技术贡献。从论文翻译到手动复现R1训练流程再到后期验证，我们团队几乎参考了全球范围内的所有的R1复现项目。最终编写了这篇两万多字讲稿，并绘制了几十张配图，力求以简洁清晰方式的呈现R1的训练流程。在过去的几周，我们亲眼见证了De

江湖人称麻花滕

1642人浏览 · 2025-03-10 11:05:15

江湖人称麻花滕 · 2025-03-10 11:05:15 发布

伴随着DeepSeek R1火爆全球，有很多同学问我这个颠覆行业的大模型到底是如何训练的。

接下来我将用尽量通俗的语言，带大家零基础理解DeepSeek R1模型的训练流程及其技术贡献。

从论文翻译到手动复现R1训练流程再到后期验证，我们团队几乎参考了全球范围内的所有的R1复现项目。

最终编写了这篇两万多字讲稿，并绘制了几十张配图，力求以简洁清晰方式的呈现R1的训练流程。

在过去的几周，我们亲眼见证了DeepSeek R1引发全球大模型技术海啸。

前有1月底美股万亿市值蒸发，后有OpenAI、Google连续发布新模型救场无果，连山姆奥特曼也罕见表态OpenAI在开源还是闭源的选择上站错了队。

可以说，DeepSeek R1几乎是凭借一己之力，让中国在大模型技术领域，由一个追赶者逐渐跃升至领导者。

甚至毫不夸张地说，DeepSeek R1的诞生，推翻了以往靠堆算力来推动大模型性能提升的技术发展逻辑，转而让全球开发者重新认识到算法创新的重要性。

《黑神话》创始人冯骥大赞国产大模型Deepseek：国运级别的科技成果_3DM单机

有人说，DeepSeek R1是国运级的大模型，是中美AI竞争的关键转折点，也有人说DeepSeek R1的胜利是开源社区对抗闭源技术的胜利。

但可以预见的是，DeepSeek R1的诞生，让人类专家水平级人工智能唾手可得，而这必然将引爆新一轮全民级AI应用的大爆发。

而这一切的一切，从技术的角度上来说，完全得益于DeepSeek R1极具开创性的提出了一整套模型训练方法，并且由于DeepSeek是开源模型，第一时间就迅速引发了全球范围内的DeepSeek R1复现狂潮。

率先取得成果的是UC伯克利，1月底宣布按照DeepSeek提出的GRPO算法，在3B的小尺寸模型上成功观察到小模型的“开悟”，模型诞生思考能力，推理能力大幅提升。

项目地址：https://github.com/Jiayi-Pan/TinyZero

紧接着，清华、港科大联合发布《大模型强化推理技术全面综述》，详细介绍R1模型训练的核心技术。

论文地址：https://arxiv.org/pdf/2501.09686

而最为重磅的，则是全球最大开源平台HuggingFace官方发起的Open R1复现项目，这组人马集合了HuggingFace最顶尖的科学家，力求完整复现R1模型训练的各个环节。

GitHub上线仅两周就超过了20k stars。

项目地址：https://github.com/huggingface/open-r1

而我们，在R1发布第二天就复现了R1的模型蒸馏流程。

那么接下来，我就将结合DeepSeek的技术报告和我们团队的工作成果，用通俗的语言来介绍下DeepSeek R1到底是如何训练的。

首先，DeepSeek R1模型和24年底发布的DeepSeek V3模型，其实是同一个模型架构，只是训练方法不同，最后呢，得到了两个模型：

其中，DeepSeek V3是普通对话模型，问答效果如下：

而DeepSeek R1则是推理模型，在回答问题之前，会先进行分析思考，然后再进行回答，这张图中浅色部分文字就是模型自己思考的过程。

而正是因为有一个额外的思考过程，使得R1模型无论是在长文本编写、角色扮演，还是在数学、编程、推理等领域的问答效果，都远远好于DeepSeek V3模型。

由于R1模型本质上是由V3模型经过后训练得到的，因此在了解R1模型训练流程之前，我们需要先简单回顾V3模型的训练流程。

DeepSeek V3模型的训练流程是个非常标准的对话模型训练过程，第一阶段通过带入海量文本进行预训练，让模型学会不同语言的基本语法格式与表达习惯，并且建立基本的模型知识储备。

最终训练得到的模型名为DeepSeek V3 Base。

Base模型呢还处于牙牙学语的状态，能够根据自己所学知识，完成类似“成语接龙”的对话，例如我们输入“长江、”，模型就会输出“黄河”，这是因为模型训练的语料中，长江往往和黄河一起出现。

而为了达到更好的对话效果，Base模型还需要继续进行SFT有监督微调，通过带入海量的一问一答的对话数据，让模型学会如何进行对话。

SFT有监督微调是大模型训练过程中，调整模型各方面能力的有效方法，比如要优化模型的问答风格、完整模型知识灌注等，都可以用到SFT。

举个例子，很多模型只有经过了SFT，才会诞生自我意识，才会知道自己叫什么名字。

关于SFT有监督微调的概念一定要记住哦，一会儿在R1的过程中还会遇到它。

而在经过SFT之后，才真正得到我们现在所使用的DeepSeek V3模型。此时我们再输入“长江、”，模型就不再进行成语接龙，而是会理解当前是一个对话任务，模型会推测用户的对话意图，可能是想要了解长江的一些信息，因此，模型的回复就是一系列关于长江的基本信息。这两种模型的问答效果对比如图所示。

尽管Base模型对话能力不足，但潜力很大，可塑性极强。

接下来，DeepSeek R1就是以DeepSeek V3 Base模型作为基座模型训练得到的。

R1的训练流程尽管非常复杂，但最核心的算法只有一个，那就是DeepSeek原创的强化学习算法：GRPO ，全称Group Relative Policy Optimization，群体相对策略优化算法。

这可是一个号称让英伟达蒸发了万亿市值的算法。

GRPO能够以极低的算力消耗，在持续的训练过程中让大模型自主诞生思考能力，也就是原论文中重墨重彩描绘的模型“aha时刻”，也就是模型“开悟”时刻。

从这一刻开始模型的智力开始暴涨，如同小说主角开挂一般，逐渐成长为全球最强的推理大模型。

并且重要的是，GRPO的算力消耗极低，训练一个1.5B的模型仅需要7G显存。

相比之下，传统强化学习算法如PPO则至少需要20G显存左右，而OpenAI o1模型所采用的更加复杂的蒙特卡洛树搜索算法，就需要更大的算力了。

这么一个又好又快的算法，一开源，就瞬间粉碎了OpenAI的两大护城河。

其一是OpenAI的算力护城河，长期以来OpenAI及西方国家宣称，只有更多的算力才能创造更多的智能。

GRPO用事实证明了其实技术创新也可以在同等算力甚至是更少算力的情况下创造智能，这也就是英伟达股价暴跌的原因；

其二，GRPO的开源也打碎了OpenAI的技术护城河，OpenAI引以为傲的、一直藏着掖着的推理模型训练流程，居然有了个更好用的开源版本。

理解了这点，就不难理解为何OpenAI和美国对DeepSeek如此恐慌。

并且在DeepSeek R1开源后，业内顶尖团队纷纷争相复现了GRPO算法并尝试进行模型训练，无数事实证明GRPO确实是行之有效的强化学习训练算法。

其实GRPO算法早在2024年4月随着DeepSeek Math模型一同发布了，只是当时注意到的人不多，直到DeepSeek R1才将其发扬光大。

相比之下呢，OpenAI是在2024年9月才正式发布o1模型，所以说，要说DeepSeek抄袭OpenAI，纯属无稽之谈。

论文链接：https://arxiv.org/pdf/2402.03300

了解了GRPO算法，我们再来看DeepSeek R1的训练流程。

在整个模型训练的第一阶段，深度求索团队在DeepSeek V3 Base这个基座模型上，进行了长时间的GRPO强化学习训练，训练过程中观察到模型开悟时刻，也就是模型诞生自主思考能力的时刻。

并且经过长期的训练，得到一个推理能力接近o1模型的DeepSeek R1 Zero模型，该模型也是业内首个纯强化学习后训练得到的推理大模型。

DeepSeek R1 Zero的训练过程让深度求索团队看到了GRPO的威力，但同时也暴露了纯GRPO强化学习训练的三个问题：

其一，语言混杂问题，模型思考过程会混杂各种语言；

其二，输出格式问题，纯GRPO算法需要训练非常久的时间，才能让模型学会按照要求格式输出思考和问答结果；

其三，安全性问题，对于一些违规信息Zero模型的屏蔽力度不够。

需要顺带一提的是，前段时间o3模型被曝思考链出现中英文混杂的情况，大概率、可能就是用了DeepSeek R1 Zero进行推理。

为了解决R1 Zero模型暴露的问题，深度求索团队开启了第二阶段的训练，目标是吸取经验，训练一个更加完美的推理模型——DeepSeek R1。

R1的训练过程如图所示总共分为四步，其中包含两个SFT有监督微调过程和两个GRPO强化学习训练过程交替进行，不同阶段有不同的训练目标。

最终像堆积木一样一层一层把模型的能力堆积起来。

首先，第一步是进行冷启动，带入几千条高质量的CoT问答数据，进行SFT有监督学习微调，让模型学会按照既定的格式输出思考和问答结果。

这里的CoT数据指的是类似这种的数据，一条数据同时包含问题、思考过程、和问题答案，是这种三段式的数据。

而经过这种数据的SFT有监督微调，模型就能初步任何问题都先进行思考，再进行回答，按照两段式的格式输出内容。

当模型学会了这种输出格式之后，接下来就需要进一步提升模型的思考能力，也就是进入R1训练的第二步：开启第一轮的GRPO强化学习训练。

本轮强化学习训练的目标是提升模型的推理能力，同时继续强化模型两段式输出的能力。

因此本轮训练需要带入大量的推理数据集，如数学、编程和逻辑推理等数据来进行训练，并且从回答是否准确和回答格式是否规范两方面对模型提出要求。

在GRPO的强悍能力加持下，这个阶段将会大幅提高模型的推理能力。

不过，DeepSeek R1模型的野心很大，不希望像OpenAI o1模型那样，只专注于解决这些推理问题。

R1模型还希望能够借助自身的推理能力，在长文本编写和角色扮演方面有所建树、

因此，紧接着深度求索团队开始进行第三步的训练，借助SFT有监督微调，把模型的推理能力迁移到写作、事实回答、自我认知、翻译、角色扮演等领域。

为了完成这个目标，深度求索团队精心制作了一份包含80万条数据的精选数据集，其中60万题条数据是CoT推理数据，该数据集是由上一步训练完的模型创建。

并且经过了DeepSeek V3模型审核和人工筛选之后得到，而剩下的20万条数据，则是由DeepSeek V3模型创建的文本写作、事实回答、自我认知和翻译方面数据集。

这80万条精选数据集大家要记住，之后还会用到。

经过了这轮训练，模型能力已经基本成型，但还有两个小瑕疵。

其一是思考链偶尔会出现中英文混杂的情况，其二是模型安全性不足。因此还需要进行第四步训练。

本轮训练还是采用GRPO强化学习算法，相当于是整个训练过程中的第二轮强化学习训练了。

本次的奖励函数主要以判断模型的有用性（是否多语种混杂）和无害性（生成内容是无害的）为主，引导模型用单一语言回答，并且主动屏蔽有毒有害信息。

最终，经过了最后一轮的训练，终于是获得了完整版的DeepSeek R1模型了。

怎么样，这个流程是不是非常精彩。

大模型的训练过程其实就是从零到一创造智能的过程，即需要万卡集群海量算力的投入，也需要精巧的设计每一个训练环节。

DeepSeek R1无论是训练流程、架构设计、算法创新、甚至是数据准备等环节都堪称业界标杆，值得每一位大模型技术人深入学习。

到这里DeepSeek R1的完整训练流程就结束了，但是，在R1技术报告的最后，还有一项重磅技术，也就是深度求索团队进行第三项实验，模型蒸馏！

目标是把DeepSeek R1模型的强悍的推理能力，通过蒸馏的方式赋予其他小尺寸的模型。

其实很多业内的技术人甚至觉得，模型蒸馏这部分技术实践，才是整个R1模型技术报告中最具含金量的部分。

所谓模型蒸馏，指的是教师模型以某种方式教会学生模型某种技能的过程。

既然训练得到了R1模型，深度求索团队就试图以R1模型作为教师模型，将其推理能力通过模型蒸馏的方法，赋予Qwen 1.5B、Qwen 7B、Llama 8B等一众小尺寸模型。

那么最终模型蒸馏效果非常炸裂，具体蒸馏模型性能如图所示。经过了DeepSeek R1模型蒸馏，一个1.5B小尺寸的模型甚至能达到GPT4o的推理能力水平。

也就是说仅需4G的显存就可以让你在本地拥有GPT4o的编程能力，而一个32B的模型就能达到o1 mini性能级别。

要知道，传统的高性能模型，往往模型参数量也很大，需要大量的算力才能支撑运行。

比如DeepSeek R1模型，全精度运行至少需要1000G的显存，也就是需要42块4090或者14块A100才能运行，光是硬件成本就高达一百多万。

而R1模型蒸馏技术的诞生，大模型赋能小尺寸模型成为了可能，可以说是真正拉开了全民使用推理模型的新时代。

并且，DeepSeek R1模型的蒸馏过程也非常简单，直接使用R1训练过程中，第三步的80万条精选数据集，对其他小尺寸模型进行SFT有监督微调即可。

可以说，这又是一项过程简单优雅，但实际上效果非常炸裂的技术。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

一文搞懂 Deepseek

DeepSeek技术社区

AI驱动的VOC如何助力企业洞察市场需求，促进业务增长？

例如，随着汽车行业竞争加剧，客户到底在反馈什么、关注什么至关重要，因此，某头部车企将VOC（客户之声，Voice of Customer）定义为客户情报中心，希望通过VOC系统了解客户在说我们什么、在说竞品什么，客户反馈的问题是否解决了、谁在解决、解决得好不好。目前，售后宝深度融合DeepSeek、通义、豆包等主流模型学习推理能力，构建了智能VOC Agent，能够从繁多的声音中洞察业务关键信息，