推理性能翻倍的秘密：从H20到H800，幻方如何用专家并行改写游戏规则？

DeepSeek不仅撕开了大模型商业化的成本铁幕，更暴露了传统硬件体系在新型推理范式下的深层矛盾——以H20为代表的算力方案，在MoE架构的分布式洪流中，正经历着从性能瓶颈到商业逻辑的全方位冲击。

CSDN资讯

7230人浏览 · 2025-03-13 07:47:00

CSDN资讯 · 2025-03-13 07:47:00 发布

DeepSeek掀起的鲶鱼效应推动着技术洪流不断向前涌动，这一次，压力给到了推理模型。

当DeepSeek-R1以73.7k输入token/s的推理速度横扫全球AI竞技场时，这场始于算法创新的技术革命，演变为对传统算力体系的全面解构。其每百万token仅0.14美元的定价策略，不仅撕开了大模型商业化的成本铁幕，更暴露了传统硬件体系在新型推理范式下的深层矛盾——以H20为代表的算力方案，在MoE架构的分布式洪流中，正经历着从性能瓶颈到商业逻辑的全方位冲击。

推理模型的技术代际跃迁

DeepSeek的鲶鱼效应首先体现在计算范式重构：通过专家并行（EP）将256个专家分散到144张H800显卡，单卡显存压力降低83%的同时，实现解码阶段每秒14.8k输出token的惊人效率。这种“化整为零”的分布式策略，本质上是将传统稠密模型的集中式算力需求，转化为对硬件动态协同能力的终极考验。

其次，采用“潮汐调度”实现92%的日均算力利用率，MLA部分达9Batch算力极限，MoE部分20ms内完成，算力利用率60%，DeepSeek以高效调度与分布式架构，彻底颠覆传统算力束缚。这种颠覆性创新不仅重塑了推理模型的性能天花板，更揭示了未来AI发展的新路径：在算力与算法的深度融合中，传统硬件的局限性将被逐一打破，从而引领AI技术迈向更高维度的智能化时代。

最后是技术标准的重塑，其提出的token-per-watt能效指标，正取代传统FLOPS成为硬件选型新标尺。这一标准不仅提升了硬件效能的评估精度，更推动了行业对能效比的重视，加速了低功耗、高性能硬件的研发进程。

显然，这场由算法驱动的革命，直接暴露了传统推理架构的致命短板，也迫使行业不得不直面一个残酷现实：大模型推理已从“堆算力”的蛮力竞争，转向“算力效率”的精密博弈。

H20败退推理战场

这一变化对于H20的冲击则显得更为致命。究其原因，主要体现在性能瓶颈和潮汐效应两个方面。

性能瓶颈

在性能瓶颈方面，H20在面对大规模分布式任务时，显存和计算能力难以匹配MoE架构的高效需求。

DeepSeek模型的主要计算处理可以简单的分成几个部分，按照计算时长占比来看：

MLA计算: Attention计算, 主要为MLA运算，占比约15%；
MoE计算: 路由专家和共享专家进行GroupedMM和Gating计算，占比约40%；
通信处理：主要包含多卡之间通信的ALL2ALL通信处理, 占比约30%；
其他计算: 主要包含linear QKV，升维降维和O_proj的矩阵计算等，占比约15%。

在输入输出均为2k tokens的典型场景中，当Decode时延要求100ms时，通过计算，H20在超过48路并发后吞吐性能就无法再有任何提升，而且H20在超过18路并发就会出现性能的明显下滑，也就是说超过18路并发后，每路并发的计算时延会明显增长，每路的吞吐明显下降。

1. 在MLA计算部分：15ms需要完成MLA计算，假设H20单卡的算力利用率高达60%，在148T的有限算力下, 15ms内整卡可发挥出来的算力为：148T*60%/1000*15 = 1.33T，而对于MLA Attention计算、QKT计算和PV计算，单Batch消耗算力约为0.074T Flops。详细计算公式如下：

2 * 2 * headNum * seqLen * (inputLen+outpuLen) * (d_kv+d_r) * layer= 4*128*1*4096*(512+64) * 61 = 0.074T Flops

也就是说，MLA计算部分单张H20最多在15ms内支持1.33T/0.074T = 18Batch，即MLA部分在18路并发下即达到算力bound，超过18路并发会出现明显的单路性能下降。

2. 在MoE计算部分：假设H20单卡的算力利用率高达60%，在148T的有限算力下40ms内整卡可发挥出来的算力为：148T*0.6/1000*40 = 3.55T，MoE的计算主要是GatingMM+GroupedMM计算，单Batch算力消耗约为 0.18T Flops。详细计算公式如下：

3*seqLen*hiddenSize*denseSize * layer * expertNum=3 * 1 * 7168 * 18432 * 58 * 8 = 0.18T Flops

也就是说，MoE计算部分最多支持3.55T/0.18T = 20Batch，即达到算力bound，即MoE部分在20路并发下即达到算力bound，超过20路并发会出现明显的单路性能下降。

3. 其他部分计算（主要包含linear QKV、升维/降维矩阵计算、O_proj矩阵计算等）需在15ms计算完成，假设H20单卡的算力利用率高达60%，在148T的有限算力下, 15ms内整卡可发挥出来的算力为148T*0.6/1000*15 = 1.33T。

单Batch算力消耗大概在0.028T Flops，1.33T/0.028T = 48Batch，即整卡在超过48路之后完全达到算力bound，超过48路之后几乎H20无法再做任何有效处理，只能等待上一Batch的数据完全处理完之后才能再处理下一Batch，表现到性能上就是超过48Batch之后吞吐性能无法再有任何增长。

更严峻的挑战来自动态负载场景。当Decode时延要求提升至50ms时，参考上文的时长分布比例，通过计算H20在24Batch并发即出现算力完全瓶颈，无法再提升任何吞吐，而在超过9Batch并发之后，单路的性能也会出现明显下降，具体计算过程如下。

1. MLA计算部分：7.5ms计算完成，算力利用率60%，148T*0.6/1000*7.5=0.665T。

Attention计算、QKT计算和PV计算，单Batch消耗算力2 * 2 * headNum * seqLen * (inputLen+outpuLen) * (d_kv+d_r) * layer= 4*128*1*4096*(512+64) * 61= 0.074T Flops。MLA计算部分最多支持0.665T/0.074T = 9Batch，即达到算力bound。

2. MoE计算部分：20ms计算完成，算力利用率60%，148T*0.6/1000*20=1.78T GatingMM+GroupedMM计算，单Batch算力消耗

3*seqLen*hiddenSize*denseSize * layer * expertNum=3 * 1 * 7168 * 18432 * 58 * 8 = 0.18T Flops。MoE计算部分最多支持 1.78T/0.18T = 10Batch，即达到算力bound。

3. 其他计算（主要包含linear QKV、升维/降维矩阵计算、O_proj矩阵计算等）：7.5ms计算完成，算力利用率60%，148T*0.6/1000*7.5 = 0.665T。

单Batch算力消耗大概在0.028T Flops，0.665T/0.028T = 24Batch，即达到算力bound。

也就是说，在DeepSeek的大规模专家并行的推理方案部署下，H20的算力bound无法支撑更高的并发路数，从而无法有效的提升单卡吞吐。

潮汐效应

DeepSeek V3和R1使用H800 GPU，在白天推理负荷高的时候，用所有节点部署推理服务。晚上推理负荷低的时候，通过调度减少推理节点，把空闲的算力以用来做研究和训练，即所谓的白天推理、晚上训练，进一步提升了整体H800的算力使用率。这种硬件灵活性的代际差距，直接导致H20全生命周期成本反超H800达18%，彻底颠覆了“低端硬件更经济”的固有认知。正如IDC报告所指出的，模算效率（MCE）正取代绝对算力成为新标尺，而H20在该指标上的滞后，使其在DeepSeek掀起的性价比革命中沦为"沉默的成本黑洞"。

而H800则凭借其FP16算力和显存带宽，轻松应对50ms时延下的高并发需求，确保每张卡1800+tokens/秒的性能。其灵活的调度策略，白天推理、晚上训练，最大化算力利用率，进一步降低全生命周期成本，验证了高效模算（MCE）在性价比革命中的关键地位。

可以看到，这场由算法驱动的硬件革命，正在重写AI基础设施的竞争规则——当DeepSeek通过分层注意力机制将长文本推理效率提升10%，其背后是H800的FP8张量核心与定制CUDA内核的深度协同。反观H20，即便在24路并发场景下，其显存带宽不足H800 50%的硬伤，已让KV Cache扩展能力成为制约推理延时的阿喀琉斯之踵。同时也显示出另一个残酷现实：在稀疏化、动态化的新一代AI工作负载面前，单纯依靠制程进步的硬件迭代路径正走向终结。

而DeepSeek之所以抛弃H20转而选择H800，其背后的幻方量化也起到了关键作用。即幻方量化通过H800的创造性部署，为DeepSeek打造出兼具极致性能与经济效益的推理系统。这不仅是硬件选型的胜利，更是系统级优化能力的集中展现。当业界还在争论芯片算力指标时，幻方量化已用工程实践证明：真正的竞争力来自对计算本质的深刻理解以及“算法-架构-硬件”的三位一体创新。这种超越单纯硬件堆砌的系统思维，或许才是AI算力进化的正确路径。