14.8k tokens/s输出性能：DeepSeek推理引擎解码阶段优化全解析

杭云瑗Ward

1087人浏览 · 2026-03-01 03:24:52

杭云瑗Ward · 2026-03-01 03:24:52 发布

14.8k tokens/s输出性能：DeepSeek推理引擎解码阶段优化全解析

【免费下载链接】open-infra-index 项目地址: https://gitcode.com/gh_mirrors/op/open-infra-index

DeepSeek推理引擎是GitHub加速计划(op/open-infra-index)项目中的核心组件，专为高效部署DeepSeek-V3/R1等大模型设计，通过创新的系统架构和优化策略，实现了14.8k tokens/s的惊人输出性能。本文将深入解析其解码阶段的关键优化技术，揭示如何在大规模分布式环境中平衡吞吐量与延迟。

核心优化策略：跨节点专家并行(EP)架构

DeepSeek推理引擎的高性能源于其创新的跨节点专家并行设计。针对DeepSeek-V3/R1模型中每 layer 256个专家仅激活8个的高度稀疏特性，系统采用了大规模EP架构：

解码阶段配置：部署单元跨越18个节点，实现EP144并行度，每个GPU管理2个路由专家和1个共享专家
核心优势：通过扩展批处理规模提升GPU计算效率，同时将专家分散到不同GPU降低内存访问压力

这种架构使得系统在处理大规模请求时既能保持高吞吐量，又能有效控制延迟，为实现14.8k tokens/s的输出性能奠定了基础。

通信-计算重叠：隐藏分布式开销的关键

大规模并行不可避免地带来通信开销，DeepSeek推理引擎通过精细的通信-计算重叠策略解决了这一挑战。在解码阶段，系统将注意力层细分为两个步骤，采用5阶段流水线实现无缝重叠：

![DeepSeek推理引擎解码阶段通信计算重叠示意图](https://raw.gitcode.com/gh_mirrors/op/open-infra-index/raw/56d86855fcf6e08fdfd45ce6280bd24322c93351/202502OpenSourceWeek/figures/Communication-Computation Overlapping during Decoding Phase.png?utm_source=gitcode_repo_files)

图：DeepSeek推理引擎解码阶段通信计算重叠示意图，展示了如何通过双微批处理策略隐藏通信延迟

从图中可以看到，系统将批处理请求分为两个微批(micro-batch)，通过SHARED、ATTN-0、MLP和ATTN-1等模块的交替执行，使一个微批的通信操作与另一个微批的计算操作完全重叠。这种设计大幅降低了分布式系统中的通信等待时间，直接贡献了解码性能的提升。

多层次负载均衡：消除性能瓶颈

在大规模并行系统中，负载不均衡会导致部分GPU成为瓶颈。DeepSeek推理引擎实现了三级负载均衡机制：

1. 解码负载均衡器

核心目标：平衡各GPU的KVCache使用和请求数量
优化策略：动态调整请求分配，确保每个GPU的计算负载和通信负载均匀

2. 专家并行负载均衡器

核心目标：解决MoE模型中专家负载不均问题
优化策略：最小化各GPU间的最大调度接收负载，避免热点专家导致的性能瓶颈

这些负载均衡机制确保了系统中所有GPU资源都能被充分利用，避免了"木桶效应"对整体性能的限制。

系统架构全景：从请求到响应的高效流程

DeepSeek推理引擎采用了预填充-解码分离的架构设计，整个系统流程如下：

![DeepSeek在线推理系统架构图](https://raw.gitcode.com/gh_mirrors/op/open-infra-index/raw/56d86855fcf6e08fdfd45ce6280bd24322c93351/202502OpenSourceWeek/figures/Diagram of DeepSeek's Online Inference System.jpg?utm_source=gitcode_repo_files)

图：DeepSeek在线推理系统架构图，展示了从API请求到最终响应的完整流程

系统工作流程包括：

API Server接收用户请求
请求被分发到Prefill Load Balancer或Decode Load Balancer
Prefill Service和Decode Service分别处理不同阶段的计算
Expert-Parallel Load Balancer负责跨节点专家计算的负载均衡
可选的External KVCache Storage用于优化长序列处理

这种架构设计使系统能够灵活应对不同类型的请求，同时通过专业化的服务分工提升整体效率。

性能实测：14.8k tokens/s背后的真实数据

在实际部署环境中，DeepSeek推理引擎展现出卓越的性能表现。基于H800 GPU集群的测试数据显示：

解码阶段吞吐量：每H800节点平均输出速度达14.8k tokens/s
24小时统计：总输出 tokens 达168B，平均输出速度20-22 tokens/秒
资源效率：结合动态节点调度，白天高峰期使用278个节点，夜间低负载时减少节点以节约资源

这些数据证明了DeepSeek推理引擎在真实业务场景中的高性能和资源利用效率，为大规模AI服务部署提供了可靠的技术支撑。

总结：解码优化的价值与启示

DeepSeek推理引擎通过跨节点专家并行、通信-计算重叠和多层次负载均衡等创新技术，实现了14.8k tokens/s的解码性能，为大模型高效部署树立了新标杆。这些优化策略不仅提升了系统吞吐量，还降低了运营成本，为AI技术的商业化应用提供了强大动力。

对于希望部署大规模语言模型的开发者和企业而言，DeepSeek推理引擎的优化思路提供了宝贵参考：通过深入理解模型特性、精心设计系统架构和细致优化通信与计算，即使是最复杂的AI模型也能实现高效、经济的部署。

感兴趣的开发者可以通过以下项目路径获取更多信息：

推理引擎开源计划：OpenSourcing_DeepSeek_Inference_Engine/
系统设计文档：202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

如需部署该推理引擎，可通过以下命令获取项目代码：

git clone https://gitcode.com/gh_mirrors/op/open-infra-index

随着AI技术的不断发展，推理引擎的优化将持续演进，DeepSeek团队也将继续贡献更多创新技术，推动开源生态的共同进步。

【免费下载链接】open-infra-index 项目地址: https://gitcode.com/gh_mirrors/op/open-infra-index

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

ChatGPT怎么生成word文档？「AI 导出鸭」解决格式丢失痛点

DeepSeek技术社区

手机Claude怎么导出pdf：硬核横评四种方案，AI导出鸭终结格式乱码困局

DeepSeek技术社区

ChatGPT 5.5 多模态能力拆解，技术原理通俗讲解

DeepSeek技术社区

所有评论(0)

查看更多评论

杭云瑗Ward

@gitblog_00495

已为社区贡献7条内容

14.8k tokens/s输出性能：DeepSeek推理引擎解码阶段优化全解析

杭云瑗Ward

14.8k tokens/s输出性能：DeepSeek推理引擎解码阶段优化全解析

核心优化策略：跨节点专家并行(EP)架构

通信-计算重叠：隐藏分布式开销的关键

多层次负载均衡：消除性能瓶颈

1. 解码负载均衡器

2. 专家并行负载均衡器

系统架构全景：从请求到响应的高效流程

性能实测：14.8k tokens/s背后的真实数据

总结：解码优化的价值与启示

所有评论(0)

温馨提示：您尚未绑定手机号

杭云瑗Ward