DeepSeek V4 训练工程:万卡集群与500亿融资的算力账本
2026年4月,DeepSeek V4发布。1.6T总参数、49B激活,训练集群据估算在10000+张H800。更引人关注的是:梁文锋个人投入200亿、公司融资500亿。本文拆解V4的训练工程细节,以及这笔钱到底花哪了。
DeepSeek V4 训练工程:万卡集群与500亿融资的算力账本
2026年4月,DeepSeek V4发布。1.6T总参数、49B激活,训练集群据估算在10000+张H800。更引人关注的是:梁文锋个人投入200亿、公司融资500亿。本文拆解V4的训练工程细节,以及这笔钱到底花哪了。
一、万卡集群:10000+ H800 是什么概念
DeepSeek从未官方披露V4的具体训练集群规模,但根据公开信息可以推算:
- H800 单卡算力:约 1979 TFLOPS(FP16),训练时有效利用率通常在40%-60%
- 1.6T参数的MoE模型,每训练1T tokens约需(估算):5000-8000张H800运行1-2个月
- DeepSeek公开信息:V3训练用了2048张H800,V4规模更大,保守估算在10000张以上**
10000张H800什么概念?按禁运前市价2.5万-3万美元/张,硬件成本就在2.5亿-3亿美元。加上IDC电费、网络、运维,训练一次的硬件摊销成本至少是这个数字的30%-50%。
二、训练数据:规模与配比
DeepSeek没有公开V4的训练数据量,但可以参考行业基准:
| 模型 | 训练数据量 | 上下文窗口 |
|---|---|---|
| Llama 3 405B | 15T tokens | 128K |
| Qwen3-235B | 36T tokens | 32K |
| DeepSeek V4 | 估算 14-20T tokens | 256K |
V4的上下文窗口是256K(比V3的128K翻倍),意味着长上下文训练阶段的数据量和计算量都显著增加。
数据配比(基于行业惯例和DeepSeek V3公开信息推算):
| 数据类型 | 估算占比 | 说明 |
|---|---|---|
| 网页文本(CommonCrawl等) | 60-70% | 基础语言能力 |
| 代码(GitHub、Stack Overflow) | 15-20% | 推理能力提升 |
| 中英文平行语料 | 5-10% | 双语能力 |
| 数学、科学文献 | 5-8% | 推理专项 |
| 合成数据 | 5-10% | 由强模型生成 |
三、训练三阶段(基于V3公开信息推算V4)
DeepSeek V3训练分三个阶段,V4大概率沿用类似框架,但规模更大:
3.1 阶段一:通用预训练(~12-15T tokens)
- 上下文窗口:8K(前期)→ 32K(后期)
- 目标:建立基础语言能力和通用知识
- 学习率调度:Warmup → Cosine Decay
3.2 阶段二:推理专项训练(~2-4T tokens)
- 提高代码、数学、逻辑推理类数据比例
- 引入大量合成推理链数据(由V3自身生成)
- 上下文扩展到128K
3.3 阶段三:长上下文扩展(~1-2T tokens)
- 采用YARN + DCA技术扩展到256K上下文
- 侧重长文档理解、长程推理
四、MoE训练的稳定性问题
MoE模型训练比Dense模型难得多,核心问题:负载不均衡——不同的专家被激活的频率差异很大,有的专家几乎不被用到,有的过载。
DeepSeek V4用mHC(流形约束超连接)架构解决这个问题:
- 用双随机矩阵约束(每行每列的和都固定)来强制负载均衡
- 通过Sinkhorn-Knopp迭代算法求解最优路由矩阵
- 结果:专家利用率大幅提升,训练稳定性改善
# Sinkhorn-Knopp 算法核心( DeepSeek技术报告)
def sinkhorn_knopp(B, iterations=20):
M = torch.exp(B)
for _ in range(iterations):
M = M / M.sum(dim=1, keepdim=True) # 行归一化
M = M / M.sum(dim=0, keepdim=True) # 列归一化
return M
这个算法每训练步都要跑一次,计算开销不小,但换来的训练稳定性——值得。
五、FP4量化训练:把钱省下来
V4最"抠门"也最聪明的地方:对MoE专家权重做FP4(E2M1)量化训练,而不是全精度(BF16)训练。
| 精度 | 单专家权重占用 | 160个专家总占用 | 相较BF16节省 |
|---|---|---|---|
| BF16 | ~300MB | ~48GB | 基准 |
| FP4 | ~75MB | ~12GB | 节省75% |
节省的不仅仅是显存——通信开销也大幅下降(MoE的通信瓶颈在专家权重的All-to-All传输)。FP4量化让V4可以在更少的卡上训练,直接降低了算力需求。
当然,FP4量化训练的数值稳定性是个挑战,DeepSeek用**量化感知训练(QAT)**解决这个问题:前向用FP4,反向传播用全精度梯度。
六、500亿融资与200亿个人投入:钱花哪了
梁文锋在V4发布前后备受关注,不仅因为模型本身,更因为个人投入200亿人民币的消息。
这笔钱大致花在:
| 用途 | 估算金额 | 说明 |
|---|---|---|
| 算力采购(H800等) | 300-400亿 | 万卡集群的硬件成本 |
| 数据中心(IDC) | 50-80亿 | 电力、制冷、网络 |
| 研发团队(~200人,3年) | 30-50亿 | 含薪资、算力消耗 |
| 数据采购与清洗 | 20-30亿 | 高质量语料、合成数据生成 |
| 其他(合规、安全、运营) | 20-40亿 | - |
200亿个人投入 + 公司融资300亿,总资金池约500亿人民币——这大致对应一个10000+ H800集群3年全生命周期的成本。
对比来看:
- OpenAI训练GPT-4:估算成本10亿美元(硬件摊销+电费+人力)
- DeepSeek V4:估算成本在5-10亿美元区间(利用MoE+FP4大幅降低)
七、与GPT-4o、Claude Opus 4.x 的训练成本对比
| 维度 | DeepSeek V4 | GPT-4o(估算) | Claude Opus 4.x(估算) |
|---|---|---|---|
| 训练算力成本 | 5-10亿美元 | 10-20亿美元 | 20-30亿美元 |
| 模型效果 | 接近/部分超越 | 基准 | 较强 |
| 开源 | ✅ 是 | ❌ 否 | ❌ 否 |
| 推理成本 | 极低 | 高 | 高 |
V4的核心竞争力不是"效果更好",而是效果接近的情况下,训练和推理成本都低一个数量级。这才是让硅谷紧张的地方。
八、你用 DeepSeek V4 吗?
DeepSeek V4 有几个点我在选型时会认真看:
- mHC架构解决了MoE训练的稳定性问题
- FP4量化训练省下的都是真金白银
- 万卡集群(估算)意味着算力自主
- 500亿总投入——梁文锋在赌一个生态位
你如果在做模型选型,V4和Qwen3是目前最值得对比的两个选项。欢迎评论区聊聊你的选型逻辑。
参考资料:DeepSeek V4技术报告(官方)、DeepSeek-V4-Flash部署指南(知乎)、GPUStack昇腾部署实践(cnblogs),2026年4-5月
更多推荐



所有评论(0)