DeepSeek-V3发布：性能超越，成本仅为Llama 3的七分之一

2024年12月，中国AI公司深度求索(DeepSeek)发布DeepSeek-V3大模型，凭借6710亿参数的混合专家架构(MoE)在多项测试中超越Llama3等主流模型，部分指标甚至媲美GPT-4o。该模型最引人注目的是其仅557.6万美元的超低训练成本（仅为Llama3的1/7），这得益于FP8混合精度训练、创新的MoE负载均衡等核心技术突破。DeepSeek-V3完全开源并支持多框架，其极

会员源码网

633人浏览 · 2026-03-15 10:10:54

会员源码网 · 2026-03-15 10:10:54 发布

2024年12月，中国AI公司深度求索（DeepSeek）发布了其最新一代大语言模型DeepSeek-V3，这一发布立即在全球AI界引发了巨大震动。这款拥有6710亿参数的混合专家模型（MoE）不仅在多项基准测试中超越了Meta的Llama 3.1 405B，甚至在某些任务上能够与GPT-4o和Claude 3.5 Sonnet这样的顶级闭源模型正面竞争。而最令人震惊的是，其训练成本仅为557.6万美元，仅为Llama 3训练成本的约七分之一。

技术规格概览

DeepSeek-V3是一个参数量高达671B的混合专家模型，每个token激活37B参数，在14.8万亿高质量token上进行了预训练。模型采用了创新的多头潜在注意力（MLA）和DeepSeekMoE架构，支持128K tokens的上下文长度。

核心架构特点：

MoE设计：包含256个路由专家和1个共享专家，每个token激活8个专家
注意力机制：采用多头潜在注意力（MLA），128个头，低秩分解
训练目标：引入多token预测（MTP）策略，每次深度预测2个token
精度支持：原生支持FP8混合精度训练和推理

性能全面超越：开源模型的新标杆

基准测试表现

在多项权威基准测试中，DeepSeek-V3展现出了令人印象深刻的性能：

数学能力突出：

MATH-500测试：90.2分，超越GPT-4o的74.6分和Llama 3.1的73.8分
AIME 2024测试：39.2分，显著领先于GPT-4o的16.0分
CMath（中国数学）：90.7分，优于Llama 3.1的77.3分

编程能力领先：

Codeforces测试：51.6分，远超GPT-4o的24.8分
HumanEval测试：65.2分（Pass@1），超越Llama 3.1 405B的54.9分
LiveCodeBench：通过率37.6%，领先Llama 3.1的30.1%

多语言理解优异：

MMLU测试：87.1分，略高于Llama 3.1 405B的84.4分
C-Eval（中文评估）：90.1分，大幅领先Llama 3.1的72.5分

与Llama 3.1 405B的全面对比

测试项目	DeepSeek-V3	Llama 3.1 405B	优势
MATH-500	90.2%	73.6%	+16.6%
AIME 2024	39.2%	23.6%	+15.6%
Codeforces	51.6%	25.3%	+26.3%
HumanEval	65.2%	54.9%	+10.3%
MMLU	87.1%	84.4%	+2.7%

数据来源：DeepSeek-V3技术报告及公开评测

成本革命：训练成本仅为Llama 3的七分之一

训练成本详细分析

DeepSeek-V3的训练成本创造了行业新低，总成本仅为557.6万美元。这一数字与主流大模型形成了鲜明对比：

训练成本对比：

DeepSeek-V3：557.6万美元（278.8万H800 GPU小时）
Llama 3 405B：约6000万美元（3080万H100 GPU小时）
成本比例：约为1/10到1/14

训练阶段成本分解：

预训练阶段：266.4万GPU小时，成本约532.8万美元
上下文扩展：11.9万GPU小时，成本约23.8万美元
后期训练：5000 GPU小时，成本约1000美元

计算效率的惊人提升

DeepSeek-V3的训练效率达到了前所未有的水平：

每处理1万亿token仅需18万H800 GPU小时
在2048卡集群上，3.7天就能完成1万亿token的训练
完整训练耗时不到2个月

相比之下，Llama 3 405B消耗了3080万GPU小时，计算量足以训练DeepSeek-V3至少14次。OpenAI前研究员Andrej Karpathy对此评价道：“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。”

技术突破：如何实现成本与性能的双重突破

1. FP8混合精度训练框架

DeepSeek-V3首次在超大规模模型上验证了FP8训练的可行性和有效性。这一创新带来了多重优势：

降低训练内存占用30%
支持更大规模的模型训练
显著减少通信和存储开销

2. 创新的MoE架构优化

无辅助损失负载均衡策略：传统MoE模型使用辅助损失函数来实现专家负载均衡，但这会导致性能损耗。DeepSeek-V3提出了一种无辅助损失的负载均衡策略，通过为每个专家引入偏置项来动态调整专家负载，避免了传统方法的性能损失。

冗余专家部署：在推理阶段，通过复制高负载专家并冗余部署，实现了MoE不同专家之间的负载均衡。

3. 多Token预测（MTP）策略

DeepSeek-V3采用了多Token预测训练目标，在每个位置预测多个未来token，这带来了两大好处：

增加训练信号，提高数据效率
大幅提升内容生成速度，减少生成延迟

4. 高效的通信优化

DualPipe算法：实现了近乎零开销的跨节点通信，在单个前向和后向块对内重叠计算和通信。

优化的通信内核：大幅降低了MoE模型的通信成本，确保随着模型规模的扩大，仍能保持恒定的计算和通信比率。

开源生态影响

完全开源的技术诚意

DeepSeek-V3的发布为开源社区注入了强大动力：

完整开源：模型权重和53页详细技术报告完全公开
多框架支持：提供FP8到BF16的转换脚本，支持SGLang、LMDeploy、TensorRT-LLM和MindIE等多个推理框架
详细复现指南：技术报告包含大量实现细节，被称为“开源社区里最详细的技术报告”

API定价革命

DeepSeek延续了其“AI界拼多多”的定位，提供了极具竞争力的API定价：

输入token：0.5元/百万（缓存命中），2元/百万（缓存未命中）
输出token：8元/百万
程序员月均使用成本可控制在10元左右

相比之下，Claude 3.5 Sonnet的定价为每百万输入3美元、输出15美元，DeepSeek-V3的价格仅为前者的9%。

行业影响与未来展望

对AI行业的冲击

DeepSeek-V3的成功证明了一个重要事实：高效利用资源比单纯的计算规模更重要。这一突破可能引发以下行业变革：

降低入门门槛：更多中小企业和研究机构能够负担得起顶级AI模型的训练
推动技术创新：迫使其他厂商在算法效率和成本控制上进行创新
加速AI普及：更低的API价格将使AI应用更加普及

技术发展启示

清华大学教授翟季冬指出：“DeepSeek团队比较敢于创新。我觉得不完全追随国外的策略、有自己的思考，非常重要。”DeepSeek-V3的成功展示了中国AI团队在以下方面的突破：

架构创新：MLA和DeepSeekMoE的原创设计
训练优化：FP8训练和通信优化的工程实践
成本控制：从算法到硬件的全方位协同设计

结论

DeepSeek-V3的发布标志着大语言模型发展进入了一个新阶段。它不仅以557.6万美元的训练成本创造了行业新低（仅为Llama 3的七分之一），还在多项性能指标上超越了包括Llama 3.1 405B在内的主流开源模型，甚至能够与GPT-4o和Claude 3.5 Sonnet这样的顶级闭源模型竞争。

这一成就的背后是DeepSeek团队在算法、框架和硬件协同设计上的深度创新，包括FP8混合精度训练、无辅助损失负载均衡、多Token预测等关键技术突破。更重要的是，DeepSeek选择了完全开源的道路，为全球AI社区提供了宝贵的技术资源和复现可能。

对于开发者而言，DeepSeek-V3不仅意味着能够以更低的成本获得顶级AI能力，更代表着AI技术民主化的重要一步。随着API价格的进一步降低和技术门槛的不断下降，我们有理由相信，DeepSeek-V3将推动AI技术在各行各业更广泛、更深入的应用。

参考文献：