
推理性能翻倍的秘密:从H20到H800,幻方如何用专家并行改写游戏规则?
DeepSeek不仅撕开了大模型商业化的成本铁幕,更暴露了传统硬件体系在新型推理范式下的深层矛盾——以H20为代表的算力方案,在MoE架构的分布式洪流中,正经历着从性能瓶颈到商业逻辑的全方位冲击。
DeepSeek掀起的鲶鱼效应推动着技术洪流不断向前涌动,这一次,压力给到了推理模型。
当DeepSeek-R1以73.7k输入token/s的推理速度横扫全球AI竞技场时,这场始于算法创新的技术革命,演变为对传统算力体系的全面解构。其每百万token仅0.14美元的定价策略,不仅撕开了大模型商业化的成本铁幕,更暴露了传统硬件体系在新型推理范式下的深层矛盾——以H20为代表的算力方案,在MoE架构的分布式洪流中,正经历着从性能瓶颈到商业逻辑的全方位冲击。
推理模型的技术代际跃迁
DeepSeek的鲶鱼效应首先体现在计算范式重构:通过专家并行(EP)将256个专家分散到144张H800显卡,单卡显存压力降低83%的同时,实现解码阶段每秒14.8k输出token的惊人效率。这种“化整为零”的分布式策略,本质上是将传统稠密模型的集中式算力需求,转化为对硬件动态协同能力的终极考验。
其次,采用“潮汐调度”实现92%的日均算力利用率,MLA部分达9Batch算力极限,MoE部分20ms内完成,算力利用率60%,DeepSeek以高效调度与分布式架构,彻底颠覆传统算力束缚。这种颠覆性创新不仅重塑了推理模型的性能天花板,更揭示了未来AI发展的新路径:在算力与算法的深度融合中,传统硬件的局限性将被逐一打破,从而引领AI技术迈向更高维度的智能化时代。
最后是技术标准的重塑,其提出的token-per-watt能效指标,正取代传统FLOPS成为硬件选型新标尺。这一标准不仅提升了硬件效能的评估精度,更推动了行业对能效比的重视,加速了低功耗、高性能硬件的研发进程。
显然,这场由算法驱动的革命,直接暴露了传统推理架构的致命短板,也迫使行业不得不直面一个残酷现实:大模型推理已从“堆算力”的蛮力竞争,转向“算力效率”的精密博弈。
H20败退推理战场
这一变化对于H20的冲击则显得更为致命。究其原因,主要体现在性能瓶颈和潮汐效应两个方面。
性能瓶颈
在性能瓶颈方面,H20在面对大规模分布式任务时,显存和计算能力难以匹配MoE架构的高效需求。
DeepSeek模型的主要计算处理可以简单的分成几个部分,按照计算时长占比来看:
- MLA计算: Attention计算, 主要为MLA运算,占比约15%;
- MoE计算: 路由专家和共享专家进行GroupedMM和Gating计算,占比约40%;
- 通信处理:主要包含多卡之间通信的ALL2ALL通信处理, 占比约30%;
- 其他计算: 主要包含linear QKV,升维降维和O_proj的矩阵计算等,占比约15%。
在输入输出均为2k tokens的典型场景中,当Decode时延要求100ms时,通过计算,H20在超过48路并发后吞吐性能就无法再有任何提升,而且H20在超过18路并发就会出现性能的明显下滑,也就是说超过18路并发后,每路并发的计算时延会明显增长,每路的吞吐明显下降。
1. 在MLA计算部分:15ms需要完成MLA计算,假设H20单卡的算力利用率高达60%,在148T的有限算力下, 15ms内整卡可发挥出来的算力为:148T*60%/1000*15 = 1.33T,而对于MLA Attention计算、QKT计算和PV计算,单Batch消耗算力约为0.074T Flops。详细计算公式如下:
2 * 2 * headNum * seqLen * (inputLen+outpuLen) * (d_kv+d_r) * layer= 4*128*1*4096*(512+64) * 61 = 0.074T Flops
也就是说,MLA计算部分单张H20最多在15ms内支持1.33T/0.074T = 18Batch,即MLA部分在18路并发下即达到算力bound,超过18路并发会出现明显的单路性能下降。
2. 在MoE计算部分:假设H20单卡的算力利用率高达60%,在148T的有限算力下40ms内整卡可发挥出来的算力为:148T*0.6/1000*40 = 3.55T,MoE的计算主要是GatingMM+GroupedMM计算,单Batch算力消耗约为 0.18T Flops。详细计算公式如下:
3*seqLen*hiddenSize*denseSize * layer * expertNum=3 * 1 * 7168 * 18432 * 58 * 8 = 0.18T Flops
也就是说,MoE计算部分最多支持3.55T/0.18T = 20Batch,即达到算力bound,即MoE部分在20路并发下即达到算力bound,超过20路并发会出现明显的单路性能下降。
3. 其他部分计算(主要包含linear QKV、升维/降维矩阵计算、O_proj矩阵计算等)需在15ms计算完成,假设H20单卡的算力利用率高达60%,在148T的有限算力下, 15ms内整卡可发挥出来的算力为148T*0.6/1000*15 = 1.33T。
单Batch算力消耗大概在0.028T Flops,1.33T/0.028T = 48Batch,即整卡在超过48路之后完全达到算力bound,超过48路之后几乎H20无法再做任何有效处理,只能等待上一Batch的数据完全处理完之后才能再处理下一Batch,表现到性能上就是超过48Batch之后吞吐性能无法再有任何增长。
更严峻的挑战来自动态负载场景。当Decode时延要求提升至50ms时,参考上文的时长分布比例,通过计算H20在24Batch并发即出现算力完全瓶颈,无法再提升任何吞吐,而在超过9Batch并发之后,单路的性能也会出现明显下降,具体计算过程如下。
1. MLA计算部分:7.5ms计算完成,算力利用率60%,148T*0.6/1000*7.5=0.665T。
Attention计算、QKT计算和PV计算,单Batch消耗算力2 * 2 * headNum * seqLen * (inputLen+outpuLen) * (d_kv+d_r) * layer= 4*128*1*4096*(512+64) * 61= 0.074T Flops。MLA计算部分最多支持0.665T/0.074T = 9Batch,即达到算力bound。
2. MoE计算部分:20ms计算完成,算力利用率60%,148T*0.6/1000*20=1.78T GatingMM+GroupedMM计算,单Batch算力消耗
3*seqLen*hiddenSize*denseSize * layer * expertNum=3 * 1 * 7168 * 18432 * 58 * 8 = 0.18T Flops。MoE计算部分最多支持 1.78T/0.18T = 10Batch,即达到算力bound。
3. 其他计算(主要包含linear QKV、升维/降维矩阵计算、O_proj矩阵计算等):7.5ms计算完成,算力利用率60%,148T*0.6/1000*7.5 = 0.665T。
单Batch算力消耗大概在0.028T Flops,0.665T/0.028T = 24Batch,即达到算力bound。
也就是说,在DeepSeek的大规模专家并行的推理方案部署下,H20的算力bound无法支撑更高的并发路数,从而无法有效的提升单卡吞吐。
潮汐效应
DeepSeek V3和R1使用H800 GPU,在白天推理负荷高的时候,用所有节点部署推理服务。晚上推理负荷低的时候,通过调度减少推理节点,把空闲的算力以用来做研究和训练,即所谓的白天推理、晚上训练,进一步提升了整体H800的算力使用率。这种硬件灵活性的代际差距,直接导致H20全生命周期成本反超H800达18%,彻底颠覆了“低端硬件更经济”的固有认知。正如IDC报告所指出的,模算效率(MCE)正取代绝对算力成为新标尺,而H20在该指标上的滞后,使其在DeepSeek掀起的性价比革命中沦为"沉默的成本黑洞"。
而H800则凭借其FP16算力和显存带宽,轻松应对50ms时延下的高并发需求,确保每张卡1800+tokens/秒的性能。其灵活的调度策略,白天推理、晚上训练,最大化算力利用率,进一步降低全生命周期成本,验证了高效模算(MCE)在性价比革命中的关键地位。
可以看到,这场由算法驱动的硬件革命,正在重写AI基础设施的竞争规则——当DeepSeek通过分层注意力机制将长文本推理效率提升10%,其背后是H800的FP8张量核心与定制CUDA内核的深度协同。反观H20,即便在24路并发场景下,其显存带宽不足H800 50%的硬伤,已让KV Cache扩展能力成为制约推理延时的阿喀琉斯之踵。同时也显示出另一个残酷现实:在稀疏化、动态化的新一代AI工作负载面前,单纯依靠制程进步的硬件迭代路径正走向终结。
而DeepSeek之所以抛弃H20转而选择H800,其背后的幻方量化也起到了关键作用。即幻方量化通过H800的创造性部署,为DeepSeek打造出兼具极致性能与经济效益的推理系统。这不仅是硬件选型的胜利,更是系统级优化能力的集中展现。当业界还在争论芯片算力指标时,幻方量化已用工程实践证明:真正的竞争力来自对计算本质的深刻理解以及“算法-架构-硬件”的三位一体创新。这种超越单纯硬件堆砌的系统思维,或许才是AI算力进化的正确路径。
更多推荐
所有评论(0)