DeepSeek V4 训练工程:万卡集群与500亿融资的算力账本

2026年4月,DeepSeek V4发布。1.6T总参数、49B激活,训练集群据估算在10000+张H800。更引人关注的是:梁文锋个人投入200亿、公司融资500亿。本文拆解V4的训练工程细节,以及这笔钱到底花哪了。


一、万卡集群:10000+ H800 是什么概念

DeepSeek从未官方披露V4的具体训练集群规模,但根据公开信息可以推算:

  1. H800 单卡算力:约 1979 TFLOPS(FP16),训练时有效利用率通常在40%-60%
  2. 1.6T参数的MoE模型,每训练1T tokens约需(估算):5000-8000张H800运行1-2个月
  3. DeepSeek公开信息:V3训练用了2048张H800,V4规模更大,保守估算在10000张以上**

10000张H800什么概念?按禁运前市价2.5万-3万美元/张,硬件成本就在2.5亿-3亿美元。加上IDC电费、网络、运维,训练一次的硬件摊销成本至少是这个数字的30%-50%。


二、训练数据:规模与配比

DeepSeek没有公开V4的训练数据量,但可以参考行业基准:

模型 训练数据量 上下文窗口
Llama 3 405B 15T tokens 128K
Qwen3-235B 36T tokens 32K
DeepSeek V4 估算 14-20T tokens 256K

V4的上下文窗口是256K(比V3的128K翻倍),意味着长上下文训练阶段的数据量和计算量都显著增加。

数据配比(基于行业惯例和DeepSeek V3公开信息推算):

数据类型 估算占比 说明
网页文本(CommonCrawl等) 60-70% 基础语言能力
代码(GitHub、Stack Overflow) 15-20% 推理能力提升
中英文平行语料 5-10% 双语能力
数学、科学文献 5-8% 推理专项
合成数据 5-10% 由强模型生成

三、训练三阶段(基于V3公开信息推算V4)

DeepSeek V3训练分三个阶段,V4大概率沿用类似框架,但规模更大:

3.1 阶段一:通用预训练(~12-15T tokens)

  • 上下文窗口:8K(前期)→ 32K(后期)
  • 目标:建立基础语言能力和通用知识
  • 学习率调度:Warmup → Cosine Decay

3.2 阶段二:推理专项训练(~2-4T tokens)

  • 提高代码、数学、逻辑推理类数据比例
  • 引入大量合成推理链数据(由V3自身生成)
  • 上下文扩展到128K

3.3 阶段三:长上下文扩展(~1-2T tokens)

  • 采用YARN + DCA技术扩展到256K上下文
  • 侧重长文档理解、长程推理

四、MoE训练的稳定性问题

MoE模型训练比Dense模型难得多,核心问题:负载不均衡——不同的专家被激活的频率差异很大,有的专家几乎不被用到,有的过载。

DeepSeek V4用mHC(流形约束超连接)架构解决这个问题:

  • 双随机矩阵约束(每行每列的和都固定)来强制负载均衡
  • 通过Sinkhorn-Knopp迭代算法求解最优路由矩阵
  • 结果:专家利用率大幅提升,训练稳定性改善
# Sinkhorn-Knopp 算法核心( DeepSeek技术报告)
def sinkhorn_knopp(B, iterations=20):
    M = torch.exp(B)
    for _ in range(iterations):
        M = M / M.sum(dim=1, keepdim=True)   # 行归一化
        M = M / M.sum(dim=0, keepdim=True)   # 列归一化
    return M

这个算法每训练步都要跑一次,计算开销不小,但换来的训练稳定性——值得。


五、FP4量化训练:把钱省下来

V4最"抠门"也最聪明的地方:对MoE专家权重做FP4(E2M1)量化训练,而不是全精度(BF16)训练。

精度 单专家权重占用 160个专家总占用 相较BF16节省
BF16 ~300MB ~48GB 基准
FP4 ~75MB ~12GB 节省75%

节省的不仅仅是显存——通信开销也大幅下降(MoE的通信瓶颈在专家权重的All-to-All传输)。FP4量化让V4可以在更少的卡上训练,直接降低了算力需求。

当然,FP4量化训练的数值稳定性是个挑战,DeepSeek用**量化感知训练(QAT)**解决这个问题:前向用FP4,反向传播用全精度梯度。


六、500亿融资与200亿个人投入:钱花哪了

梁文锋在V4发布前后备受关注,不仅因为模型本身,更因为个人投入200亿人民币的消息。

这笔钱大致花在:

用途 估算金额 说明
算力采购(H800等) 300-400亿 万卡集群的硬件成本
数据中心(IDC) 50-80亿 电力、制冷、网络
研发团队(~200人,3年) 30-50亿 含薪资、算力消耗
数据采购与清洗 20-30亿 高质量语料、合成数据生成
其他(合规、安全、运营) 20-40亿 -

200亿个人投入 + 公司融资300亿,总资金池约500亿人民币——这大致对应一个10000+ H800集群3年全生命周期的成本。

对比来看:

  • OpenAI训练GPT-4:估算成本10亿美元(硬件摊销+电费+人力)
  • DeepSeek V4:估算成本在5-10亿美元区间(利用MoE+FP4大幅降低)

七、与GPT-4o、Claude Opus 4.x 的训练成本对比

维度 DeepSeek V4 GPT-4o(估算) Claude Opus 4.x(估算)
训练算力成本 5-10亿美元 10-20亿美元 20-30亿美元
模型效果 接近/部分超越 基准 较强
开源 ✅ 是 ❌ 否 ❌ 否
推理成本 极低

V4的核心竞争力不是"效果更好",而是效果接近的情况下,训练和推理成本都低一个数量级。这才是让硅谷紧张的地方。


八、你用 DeepSeek V4 吗?

DeepSeek V4 有几个点我在选型时会认真看:

  1. mHC架构解决了MoE训练的稳定性问题
  2. FP4量化训练省下的都是真金白银
  3. 万卡集群(估算)意味着算力自主
  4. 500亿总投入——梁文锋在赌一个生态位

你如果在做模型选型,V4和Qwen3是目前最值得对比的两个选项。欢迎评论区聊聊你的选型逻辑。


参考资料:DeepSeek V4技术报告(官方)、DeepSeek-V4-Flash部署指南(知乎)、GPUStack昇腾部署实践(cnblogs),2026年4-5月

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐