在刚刚过去的 OpenSource Week,DeepSeek大方公布了其推理系统采用了大规模跨节点专家并行(以下简称大EP并行)能力,通过批量扩展、计算通信重叠、全局负载均衡等技术支持,实现了吞吐量与延迟的极致优化。同时,DeepSeek 还给出了其在线服务的统计数据,理论成本利润率高达 545%。这一结论可谓给业界带来了新的启示,集群推理不仅在性能上实现了突破,更在成本效益上展现了巨大潜力,为未来AI推理架构提供了有力参考。

AI越聪明,人类的耐心越少

随着AI进入落地阶段,用户体验成为核心竞争力。当 DeepSeek 开源模型成为行业标准后,技术差异缩小,推理时延成为核心体验指标。
认知心理学的一项研究表明,当系统响应时间超过 200ms 时,大脑皮层的激活强度显著下降。谷歌核心用户体验指标(Core Web Vitals)的实证数据也显示:当首次输入延迟(FID)超过 100ms 时,移动端用户跳出率增加53%;若页面加载时间超过3s ,用户放弃率高达 90%。
而从近期的行业交流则表明,用户对推理平均时延的耐心开始从 100ms 逐步向 50ms 收缩,甚至有激进的团队提出了 10ms 的目标。
也就是说,AI越聪明,用户提出的需求越复杂;用户对复杂任务的耐心反而越少。就像我们坐惯了高铁,再也无法忍受绿皮车的速度。而当DeepSeek R1这类能进行“多步思考”的模型出现时,如何在保证“深度思考”的同时不突破用户耐心红线,成为技术攻坚的核心命题。

集群推理为何会终结单机时代

如何有效降低推理时延?DeepSeek 给出了标准答案。DeepSeek 公布的论文中,团队自 V3 开始已经采用 144卡专家并行架构(每张卡部署2个路由专家加1个共享专家)打破单机瓶颈。而传统单机8卡部署会导致通信拥堵,即便单用户场景也难以实现低时延。DeepSeek 通过任务细分和动态路由,让每张 GPU 专注少量专家,实现单卡效率数倍提升。
很多人还没反应过来,可能因为过去应用通用模型,习惯于把推理端计算集中在单卡上以减少通讯损耗,忘记了以 DeepSeek -R1 为代表的新型推理模型,其实际激活参数并不大,即推理计算和通讯开销很小,真正的瓶颈是单卡参数大小和 KV Cache 总量。

科大讯飞联合昇腾为业界提供最佳实践

有了理论方案,自然要放到实践中检验。基于此,科大讯飞基于昇腾率先实现了8机64卡的跨节点专家并行推理集群,并联合昇腾针对MLA融合算子、混合并行策略、以及通信计算并行等层面持续优化创新。
在算子融合方面,团队在MLA预处理阶段通过Vector与Cube异构计算单元并行流水,并将多个小算子融合重构为原子级计算单元,消除小算子下发开销,MLA前处理时延降低50%+,实现性能的显著提升。
在混合并行策略和通信计算并行优化方面,团队构建了TP(张量并行)+EP(专家并行)混合范式:对MLA计算层采用机内TP并行,发挥机内高速互联优势,降低跨机通信损耗;创新MoE专家分层调度,64卡均衡分配专家计算节点,定制AllToAll通信协议,专家数据交换效率提升40%,构建跨机/机内双层通信架构,通过分层优化降低跨机流量60%;同时研发路由专家负载均衡算法,实现卡间负载差异小于10%,集群吞吐提升30%。
通过分布式架构创新与算法协同优化,联合团队在昇腾上实现了显著的性能提升。单卡静态内存占用缩减至双机部署的1/4,效率提升75%,专家计算密度增加4倍,推理吞吐提升3.2倍,端到端时延降低50%。
可以看到,这场技术突围的本质正“从单点替代向体系重构”跃迁。通过大规模跨节点专家并行集群推理突破单卡瓶颈,实现全局资源的高效协同,从根本上提升推理性能。这种体系重构,不仅优化了现有架构,还为未来大规模应用奠定了坚实基础,也标志着算力革新进入新纪元。或许终有一天,人类与AI的对话将不再有时延,只有思想的共震。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐