
揭秘DeepSeek内幕:清华教授剖析AI模型技术原理
从 ChatGPT 到各种新兴的 AI 模型,每一次技术突破都能引发广泛的关注和讨论——而最近 AI 界的“新宠”,无疑是 DeepSeek。在本文中,清华大学长聘副教授将深入剖析 DeepSeek R1 背后的大规模强化学习技术及其基本原理,并进一步展望大模型技术未来的发展方向。今天我将从宏观角度为大家介绍 DeepSeek R1 所代表的大规模强化学习技术,及其基本原理。
从 ChatGPT 到各种新兴的 AI 模型,每一次技术突破都能引发广泛的关注和讨论——而最近 AI 界的“新宠”,无疑是 DeepSeek。在本文中,清华大学长聘副教授将深入剖析 DeepSeek R1 背后的大规模强化学习技术及其基本原理,并进一步展望大模型技术未来的发展方向。
1、透过 DeepSeek R1,看大模型技术的发展趋势
今天我将从宏观角度为大家介绍 DeepSeek R1 所代表的大规模强化学习技术,及其基本原理。同时,我们也会探讨为什么 DeepSeek R1 和 OpenAI o1 能够引起如此多的关注,并从 Deepseek 最近发布的模型中,对大模型技术的未来发展进行大致研判。
首先,我们来看 DeepSeek 最近发布的 R1 模型,它具有非常重要的价值。这种价值主要体现在 DeepSeek R1 能够完美复现 OpenAI o1 的深度推理能力。
因为 OpenAI o1 本身并没有提供关于其实现细节的任何信息 ,OpenAI o1 相当于引爆了一个原子弹,但没有告诉大家秘方。而我们需要从头开始,自己去寻找如何复现这种能力的方法。DeepSeek 可能是全球首个能够通过纯粹的强化学习技术复现 OpenAI o1 能力的团队,并且他们通过开源并发布相对详细的介绍,为行业做出了重要贡献。
我们可以大致总结了 DeepSeek R1 的整个训练流程,它有两个非常重要的亮点或价值。首先,DeepSeek R1 创造性地基于 DeepSeek V3 基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型,即 DeepSeek-R1-Zero。这具有非常重要的价值,因为在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则(rule-based)的方法,确保强化学习可以规模化,并实现面向强化学习的扩展(Scaling),这是它的第一个贡献。
DeepSeek R1 的第二个重要贡献在于其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域,还能创造性地将强化学习带来的强推理能力泛化到其他领域。这也是用户在实际使用 DeepSeek R1 进行写作等任务时,能够感受到其强大的深度思考能力的原因。
这种泛化能力的实现分为两个阶段。首先,基于 DeepSeek V3 基座模型,通过增强推理过程的可读性,生成了带有深度推理能力的 SFT(Supervised Fine-Tuning,监督微调)数据。这种数据结合了深度推理能力和传统通用SFT数据,用于微调大模型。随后,进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型,即 DeepSeek R1。
因此,DeepSeek R1 的重要贡献体现在两个方面:一是通过规则驱动的方法实现了大规模强化学习;二是通过深度推理 SFT 数据与通用 SFT 数据的混合微调,实现了推理能力的跨任务泛化。这使得 DeepSeek R1 能够成功复现 OpenAI o1 的推理水平。
所以,我们其实应该非常重视 DeepSeek R1。它由于开源,让全球的人能够意识到深度思考的能力,这相当于让整个人工智能领域再次迎来了类似于 2023 年初 ChatGPT 的时刻,让每个人感受到大模型的能力又往前迈进了一大步。但同时,我们也需要合理地评估 DeepSeek 本身的重要意义。
如果说 2023 年初 OpenAI 发布的 ChatGPT 让全球看到了大模型非常重要的价值,那么这一次的强推理能力其实也是 OpenAI 在 2024 年 9 月发布的 o1 率先实现的。而 DeepSeek R1,我们认为它在历史上更像是 2023 年 Meta 的 LLaMA。它能够通过开源复现,并且把这些事情全部公开给全球,让大家能够快速地建立起相关能力,这是我们对 DeepSeek R1 及其重要意义的一个准确认识。
当然,为什么说 DeepSeek R1 能够取得如此全球性的成功呢?我们认为这与 OpenAI 采用的一些策略有非常大的关系。OpenAI 在发布 o1 之后,首先选择不开源,其次将 o1 深度思考的过程隐藏起来,第三是 o1 本身采用了非常高的收费。这使得 o1 无法在全球范围内让尽可能多的人普惠地感受到深度思考所带来的震撼。
而 DeepSeek R1 则像 2023 年初 OpenAI 的 ChatGPT 一样,让所有人真正感受到了这种震撼,这是 DeepSeek R1 出圈的非常重要的原因。如果我们进一步将 DeepSeek 发布的 R1 和之前的 V3 结合起来考虑,那么它的意义在于:在非常有限的算力资源支持下,通过强大的算法创新,突破了算力瓶颈,让我们看到即使在有限的算力下,也能做出具有全球意义的领先成果。
这件事对中国 AI 的发展具有非常重要的意义。当然,我们也应该看到,AI 如果想要真正赋能全人类,让每个人都能够用得上、用得起大模型和通用人工智能,那么高效性显然是一个非常重要的命题。
在这个方面,我们其实有非常多的话题可以去讨论。除了强化学习本身需要在未来探索更加高效的方案之外,我们还需要研究出更加高效的模型架构。例如,V3 所采用的 MoE 架构,未来应该也会有许多其他相关的高效架构方案。进一步地,高效的算力应用等话题也值得探讨研究。
这其实也是 DeepSeek V3 和 R1 带给我们的另一个非常重要的启示。我们认为,整个人工智能的发展在未来追求高效性是我们内在的一个使命和需求。
从这个方面,我想适当展开一点来介绍。我们看到上一次所谓的科技革命,也就是信息革命,其非常重要的内核实际上是计算芯片的发展。在过去 80 年时间里,计算机从最初需要一个屋子才能装得下的规模,发展到如今每个人手边都有的手机、PC,以及各种各样的计算设备,都可以在非常小的设备上完成非常强大的计算能力。
所有这一切,其实都源于芯片行业在摩尔定律的指引下,不断推进芯片制程,提升芯片电路密度,从而实现计算设备的小型化和普惠化,推动算力的普及。这显然是我们未来追求高效性的一个非常重要的内在需求。
这也是为什么我们在去年特别强调要发展大模型的能力密度。 实际上,过去几年我们也能看到类似摩尔定律的现象:大模型的能力密度正以时间的指数级增强。从 2023 年以来,大模型的能力密度大约每 100 天翻一倍,也就是说,每过 100 天,我们只需要一半的算力和一半的参数就能实现相同的能力。
因此,我们相信,面向未来,我们应该不断追求更高的能力密度,努力以更低的成本——包括训练成本和计算成本——来实现大模型的高效发展。从这一点来看,我们显然可以看到,如果按照能力密度的发展趋势,我们完全可以实现每 100 天用一半的算力和一半的参数,达到相同的模型能力。而推动这件事情,应当是我们未来发展的使命。
所以,如果我们对标上一个科技革命——也就是信息革命,显然对我们即将到来的智能革命有着非常重要的启示。实际上,在信息革命刚刚开始的时候,IBM 的创始人沃森曾认为,世界上不需要超过五台主机就可以满足全世界的计算需求。但到了今天,我们可以看到全球有数十亿、上百亿的计算设备在服务于全人类社会。
因此,我们认为智能革命显然也要走过一条类似于信息革命的阶段,不断去提高能力密度,降低计算成本,让大模型得以更加普惠。所以,我认为 AI 时代的这些核心引擎,包括电力、算力以及大模型所代表的智力,这种密度定律应该是普遍存在的。我们需要不断地通过高质量、可持续的方式去实现大模型的普惠,这应该是我们未来的发展方向。
面向未来,我们认为人工智能有三大主战场,它们的目标都是让通用人工智能达到顶尖水平。首先,我们要探索人工智能的科学化技术方案,实现更科学、更高效的人工智能实现方式。其次,我们要实现计算系统的智能化,能够在计算层面以更低的成本、更通用地将大模型应用于各个领域。最后,我们也要在各个领域探索人工智能的广谱化应用。
最后,我想特别强调的是,DeepSeek 给我们带来了一个非常重要的启示:它让我们看到,即使用小米加步枪,我们依然能够取得非常广阔的胜利。我们即将迎来一个非常重要且意义深远的智能革命时代,它的高潮即将到来,这是可望且可及的。
DeepSeek 的成功吸引了更多人关注这一方向和领域,我希望我们能够沿着正确的方向发展,不仅仅关注算力,更要重视算法的创新以及高水平人才的培养。让我们共同努力,走出一条真正属于人工智能的高质量发展路线。
2、关于 DeepSeek,大家最关心的问题
Q: DeepSeek 的成功因素里,最有亮点的一个技术是什么?
A:我觉得主要有两条启示:
DeepSeek V3 给我们的重要启示在于,它展示了如何用 1/10 甚至更少的成本达到 GPT-4 和 GPT-4o 水平的能力。正如翟季冬老师和戴国浩老师提到的,DeepSeek V3 在底层算力加速方面做了大量工作。但更重要的是,翟老师特别强调了 DeepSeek V3 实现了算法和底层软硬件的协同优化。这种一体化优化机制让大家看到,即使成本已经很低,但仍然可以通过优化进一步降低成本。虽然 V3 的成本仍然是几百万美元甚至几千万美元,但相比国际上公认的水平,已经低得多。这也是英伟达股价下降的一个重要原因。
此外,DeepSeek R1 的成功还揭示出 OpenAI 犯了“傲慢之罪”——它不开源,不公开技术细节,且定价过高,导致其无法出圈。而 DeepSeek R1 则开源且免费,让全球用户都能使用,并且公开了所有技术细节。这使得 DeepSeek 在历史上占据了原本应该属于 OpenAI 的位置,就像当年的 ChatGPT 一样。DeepSeek 通过极致优化有限资源,成功追赶上了国际最先进的模型,我觉得干得非常漂亮,并且通过开源让全球都认识到中国团队的创新能力。
Q:为什么 DeepSeek R1 模型在这个时间点出现?之前有没有基于基础模型直接做强化学习的尝试?之前也有模型在思维链上做过类似工作,为什么 DeepSeek R1 模型会如此出圈?
A:我觉得这件事情还是具有一定的必然性。大概在 2024 年的时候,很多投资人,甚至一些不从事人工智能领域的人,会来问我:中国 AI 和美国 AI 相比,到底是差距变大了还是变小了?我当时明确表示,我们认为中国正在非常快速地追赶,与美国最先进技术之间的差距正在逐渐缩小。尽管我们面临一些限制,但这种追赶是显而易见的。
有一个重要现象可以验证这一点:2023 年初 ChatGPT 和 GPT-4 发布后,国内团队复现这两个版本的模型大概都花了一年时间。2023 年底,国内团队复现了 ChatGPT 水平的模型能力;2024 年四五月份,一线团队复现了 GPT-4 水平的能力。但随后你会发现,像 Sora、GPT-4o 这样的模型,基本上国内团队都是在大约半年内完成复现的。这意味着,像 o1 这样的模型能力,国内团队在半年左右复现是可预期的。
DeepSeek 本身非常出色,其价值不仅在于能够复现,还在于它以极低的成本做到了这一点。这是它的独到之处,也是它脱颖而出的原因:DeepSeek 能够更快、更低成本、更高效地完成这项工作,这是它的巨大贡献。从这个角度看,我认为有一定的必然性。
当然,DeepSeek 能够达到这样的出圈效果,也离不开它自身团队的长期积累,正如邱锡鹏老师提到的那样。
Q: MoE 架构会是通向 AGI 道路上的最优解吗?
A:我的个人感觉是,其实没有人永远是对的。
在 2023 年初,OpenAI 发布 ChatGPT 时,它做对了;它发布 GPT-4 时,也做对了。但当它发布 o1 时,它做错了——它没有开源,定价策略也出现了失误。这反而成就了 DeepSeek。我也不认为 DeepSeek 选择了 MoE 架构,MoE 就永远是正确的。没有任何证据证明 MoE 是最优的模型架构。
从学术角度和 AI 未来发展的角度来看,我认为这是一个开放性的问题。未来如何实现高效性?我认为一定是模块化和稀疏激活的,但具体如何稀疏激活、如何模块化?我觉得这件事情本身应该是百花齐放的。我们应该保持开放性,鼓励学生和从业者像 DeepSeek 一样努力去探索创新。
所以,我本身不太认为 MoE 有任何绝对的壁垒,或者它一定是最优的方法。
Q:DeepSeek 技术的爆发,对于中国大模型未来发展道路有哪些启示?
A:首先,我觉得特别值得敬佩的是 DeepSeek 团队的技术理想主义。因为无论是看他们的访谈还是其他资料,你会发现,那些访谈其实是在 DeepSeek 大火之前很久接受的,内容非常真实,能够反映他们内在的底层逻辑。从这一点上,我们可以感受到 DeepSeek 是一个非常具有技术理想主义的团队,以实现 AGI 作为梦想来组建这个团队。我觉得这一点非常值得敬佩。
我同时也会看到,DeepSeek 的梁文峰之前做量化投资,本身投入自己的资金来开展项目,没有资金上的困扰。那么相对应地,我觉得中国应该为这样的技术理想主义团队提供支持,哪怕他们没有足够的资金,也能让他们没有后顾之忧地去进行探索。我觉得中国已经到了这样的阶段,需要有更多像 DeepSeek 这样的团队,但可能他们又不像 DeepSeek 这样有资金。能否让他们踏踏实实地去做一些原始创新、做一些出色的工作,这是我觉得这是非常值得我们思考的第一点。
第二点,我觉得是他们的执行力。DeepSeek 这两个月一炮而红,大家会觉得很厉害,但实际上,这是经过了多年持续积累的结果。我们看到的是他们不断积累的进步,量变最终产生了质变。我可以告诉大家,几年前,幻方就拿着免费算力去吸引我们的学生,与他们建立联系。当然,也有学生毕业后加入了 DeepSeek。所以,这是他们多年努力的结果。我认为这也是技术理想主义推动下的长期主义成果。我觉得国内应该有更多的团队,能够坐得住冷板凳,更加聚焦,在一些重要问题上持续发力,做出有意义的工作。
DeepSeek 发展到今天,我认为他们所做的工作可能也是在“摸着 OpenAI 过河”,以 OpenAI 为榜样,去探索 AGI 的实现路径,并努力去做他们认为正确的事情。这个过程非常困难,尤其是随着 OpenAI 变得越来越封闭,o1 复现的难度比当年的 ChatGPT 更大。但我们会看到,只要有理想和执行力,他们就能做到。所以在我看来,国内应该有更多的团队去学习。具体的技术当然是我们应该学习的一部分,但我认为应该避免认为因为 DeepSeek 成功了,所以他们所做的一切都是对的。我觉得不一定他们所用的所有技术都是最先进的,没有必要因为 DeepSeek 这次成功用了这样的技术,就认为它们全都是对的,这反而会限制我们的创新。我们应该学习的是他们的理想、他们的坚持,以及他们的方法论。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)