DeepSeek V4 训练工程：万卡集群与500亿融资的算力账本

2026年4月，DeepSeek V4发布。1.6T总参数、49B激活，训练集群据估算在10000+张H800。更引人关注的是：梁文锋个人投入200亿、公司融资500亿。本文拆解V4的训练工程细节，以及这笔钱到底花哪了。

零壹AI实验室

404人浏览 · 2026-05-14 11:34:23

零壹AI实验室 · 2026-05-14 11:34:23 发布

DeepSeek V4 训练工程：万卡集群与500亿融资的算力账本

2026年4月，DeepSeek V4发布。1.6T总参数、49B激活，训练集群据估算在10000+张H800。更引人关注的是：梁文锋个人投入200亿、公司融资500亿。本文拆解V4的训练工程细节，以及这笔钱到底花哪了。

一、万卡集群：10000+ H800 是什么概念

DeepSeek从未官方披露V4的具体训练集群规模，但根据公开信息可以推算：

H800 单卡算力：约 1979 TFLOPS（FP16），训练时有效利用率通常在40%-60%
1.6T参数的MoE模型，每训练1T tokens约需（估算）：5000-8000张H800运行1-2个月
DeepSeek公开信息：V3训练用了2048张H800，V4规模更大，保守估算在10000张以上**

10000张H800什么概念？按禁运前市价2.5万-3万美元/张，硬件成本就在2.5亿-3亿美元。加上IDC电费、网络、运维，训练一次的硬件摊销成本至少是这个数字的30%-50%。

二、训练数据：规模与配比

DeepSeek没有公开V4的训练数据量，但可以参考行业基准：

模型	训练数据量	上下文窗口
Llama 3 405B	15T tokens	128K
Qwen3-235B	36T tokens	32K
DeepSeek V4	估算 14-20T tokens	256K

V4的上下文窗口是256K（比V3的128K翻倍），意味着长上下文训练阶段的数据量和计算量都显著增加。

数据配比（基于行业惯例和DeepSeek V3公开信息推算）：

数据类型	估算占比	说明
网页文本（CommonCrawl等）	60-70%	基础语言能力
代码（GitHub、Stack Overflow）	15-20%	推理能力提升
中英文平行语料	5-10%	双语能力
数学、科学文献	5-8%	推理专项
合成数据	5-10%	由强模型生成

三、训练三阶段（基于V3公开信息推算V4）

DeepSeek V3训练分三个阶段，V4大概率沿用类似框架，但规模更大：

3.1 阶段一：通用预训练（~12-15T tokens）

上下文窗口：8K（前期）→ 32K（后期）
目标：建立基础语言能力和通用知识
学习率调度：Warmup → Cosine Decay

3.2 阶段二：推理专项训练（~2-4T tokens）

提高代码、数学、逻辑推理类数据比例
引入大量合成推理链数据（由V3自身生成）
上下文扩展到128K

3.3 阶段三：长上下文扩展（~1-2T tokens）

采用YARN + DCA技术扩展到256K上下文
侧重长文档理解、长程推理

四、MoE训练的稳定性问题

MoE模型训练比Dense模型难得多，核心问题：负载不均衡——不同的专家被激活的频率差异很大，有的专家几乎不被用到，有的过载。

DeepSeek V4用mHC（流形约束超连接）架构解决这个问题：

用双随机矩阵约束（每行每列的和都固定）来强制负载均衡
通过Sinkhorn-Knopp迭代算法求解最优路由矩阵
结果：专家利用率大幅提升，训练稳定性改善

# Sinkhorn-Knopp 算法核心（ DeepSeek技术报告）
def sinkhorn_knopp(B, iterations=20):
    M = torch.exp(B)
    for _ in range(iterations):
        M = M / M.sum(dim=1, keepdim=True)   # 行归一化
        M = M / M.sum(dim=0, keepdim=True)   # 列归一化
    return M

这个算法每训练步都要跑一次，计算开销不小，但换来的训练稳定性——值得。

五、FP4量化训练：把钱省下来

V4最"抠门"也最聪明的地方：对MoE专家权重做FP4（E2M1）量化训练，而不是全精度（BF16）训练。

精度	单专家权重占用	160个专家总占用	相较BF16节省
BF16	~300MB	~48GB	基准
FP4	~75MB	~12GB	节省75%

节省的不仅仅是显存——通信开销也大幅下降（MoE的通信瓶颈在专家权重的All-to-All传输）。FP4量化让V4可以在更少的卡上训练，直接降低了算力需求。

当然，FP4量化训练的数值稳定性是个挑战，DeepSeek用**量化感知训练（QAT）**解决这个问题：前向用FP4，反向传播用全精度梯度。

六、500亿融资与200亿个人投入：钱花哪了

梁文锋在V4发布前后备受关注，不仅因为模型本身，更因为个人投入200亿人民币的消息。

这笔钱大致花在：

用途	估算金额	说明
算力采购（H800等）	300-400亿	万卡集群的硬件成本
数据中心（IDC）	50-80亿	电力、制冷、网络
研发团队（~200人，3年）	30-50亿	含薪资、算力消耗
数据采购与清洗	20-30亿	高质量语料、合成数据生成
其他（合规、安全、运营）	20-40亿	-

200亿个人投入 + 公司融资300亿，总资金池约500亿人民币——这大致对应一个10000+ H800集群3年全生命周期的成本。

对比来看：

OpenAI训练GPT-4：估算成本10亿美元（硬件摊销+电费+人力）
DeepSeek V4：估算成本在5-10亿美元区间（利用MoE+FP4大幅降低）

七、与GPT-4o、Claude Opus 4.x 的训练成本对比

维度	DeepSeek V4	GPT-4o（估算）	Claude Opus 4.x（估算）
训练算力成本	5-10亿美元	10-20亿美元	20-30亿美元
模型效果	接近/部分超越	基准	较强
开源	✅ 是	❌ 否	❌ 否
推理成本	极低	高	高