揭秘Deepseek v3低成本背后的技术玄机！

这个问题其实可以从它发布的技术报告中窥见一二。DeepSeek V3的训练总共才用了不到万个GPU小时，而Llama 3 405B却用了万GPU小时。用训练一个模型所花费的钱来说，，相比之下，一个简单的7B Llama 3模型则需要花费76万美元。从论文中的公布细节可以得到它的比起动辄几百亿人民币都训练不出来一个好用的大模型，DeepSeek V3的训练简直颠覆了大家的想象。DeepSeek V3

发菜君

1024人浏览 · 2025-04-13 18:33:49

发菜君 · 2025-04-13 18:33:49 发布

这个问题其实可以从它发布的技术报告中窥见一二。

DeepSeek V3的训练总共才用了不到280万个GPU小时，而Llama 3 405B却用了3080万GPU小时。用训练一个模型所花费的钱来说，训练一个DeepSeek V3只需要花费557.6万美元，相比之下，一个简单的7B Llama 3模型则需要花费76万美元。

从论文中的公布细节可以得到它的训练成本估算：

以 H800 GPU 小时为单位。H800 GPU 的租赁价格假定为每小时 2 美元。
训练分为三个阶段：预训练、上下文扩展和后期训练：
预训练：使用了 2664K（266.4 万）GPU 小时，成本约为 532.8 万美元。
上下文扩展：使用了 119K（11.9 万）GPU 小时，成本约为 23.8 万美元。
后期训练：使用了 5K GPU 小时，成本约为 1,000 美元。
总成本：2788K（278.8 万）GPU 小时，总费用为 557.6 万美元。

比起动辄几百亿人民币都训练不出来一个好用的大模型，DeepSeek V3的训练简直颠覆了大家的想象。这里训练这么省钱当然主要是因为该模型原生就是FP8，还有在模型架构上做了一些优化导致模型训练成本很低。

为什么会这么省钱？

模型的一些训练细节

DeepSeek V3除了使用了FP8之外，还有一些其他的模型细节。比如它继续采用了多头潜在注意力（MLA）来实现高效推理。它在传统多头注意力机制（Multi-Head Attention）的基础上，引入了潜在特征（Latent Features）概念，进一步提高了对复杂关系的建模能力。

也就是先把token的特征压缩成一个小维度的latent vector，然后再通过一些简单的变换把它扩展到各个头需要的Key和Value空间。对于一些重要的信息，比如旋转位置编码RoPE，会进行单独处理，这样网络仍然可以保留时间和位置的信息。

在MOE架构中，引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。

**路由专家中主要是用来选择参数进行激活。**对于每个输入的token，只有一部分路由专家会被选中来参与计算。这个选择过程是由一个门控机制决定的，比如DeepSeekMoE中用的那种根据亲和度分数来选的Top-K方式。

而**共享专家始终参与所有输入的处理。**无论输入是什么，所有共享专家都会贡献它们的力量。

还用到了一个MTP（多个tokens预测）技术，**MTP的核心理念在于训练时，模型不仅要预测下一个token（就像传统语言模型那样），还要同时预测序列后面的几个token。**这样一来，模型就能获得更丰富的训练信息，有助于它更深入地理解上下文以及长距离的依赖关系。

通过上面几个简单的trick，就可以很好的训练出一个质量不出的大模型出来，并且能够和GPT-4o和Claude 3.5相媲美。这个工作给很多公司提供了新的思路。其高效的训练方法和较低的计算成本，可以给其他没有资源的公司借鉴一下，也验证了大规模的GPU集群不是训练大模型的必要条件。

AI大模型学习路线

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

扫描下方csdn官方合作二维码获取哦！

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

请添加图片描述
第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

一文搞懂 Deepseek

DeepSeek技术社区

HAproxy服务器带日志

我现在有两台WindowsAD域控 10.10.10.1 和10.10.10.2，我现在有一个准入系统10.10.11.100需要提供ldap认证，我现在想搭建一个haproxy服务器IP 10.10.10.200做ldap业务的负载均衡，这样在准入系统上只要填haproxy服务器地址即可，所有通过haproxy服务器获取ladp的信息在haproxy需要有日志，haproxy服务已经安装，配置