14.8k tokens/s输出性能:DeepSeek推理引擎解码阶段优化全解析

【免费下载链接】open-infra-index 【免费下载链接】open-infra-index 项目地址: https://gitcode.com/gh_mirrors/op/open-infra-index

DeepSeek推理引擎是GitHub加速计划(op/open-infra-index)项目中的核心组件,专为高效部署DeepSeek-V3/R1等大模型设计,通过创新的系统架构和优化策略,实现了14.8k tokens/s的惊人输出性能。本文将深入解析其解码阶段的关键优化技术,揭示如何在大规模分布式环境中平衡吞吐量与延迟。

核心优化策略:跨节点专家并行(EP)架构

DeepSeek推理引擎的高性能源于其创新的跨节点专家并行设计。针对DeepSeek-V3/R1模型中每 layer 256个专家仅激活8个的高度稀疏特性,系统采用了大规模EP架构:

  • 解码阶段配置:部署单元跨越18个节点,实现EP144并行度,每个GPU管理2个路由专家和1个共享专家
  • 核心优势:通过扩展批处理规模提升GPU计算效率,同时将专家分散到不同GPU降低内存访问压力

这种架构使得系统在处理大规模请求时既能保持高吞吐量,又能有效控制延迟,为实现14.8k tokens/s的输出性能奠定了基础。

通信-计算重叠:隐藏分布式开销的关键

大规模并行不可避免地带来通信开销,DeepSeek推理引擎通过精细的通信-计算重叠策略解决了这一挑战。在解码阶段,系统将注意力层细分为两个步骤,采用5阶段流水线实现无缝重叠:

![DeepSeek推理引擎解码阶段通信计算重叠示意图](https://raw.gitcode.com/gh_mirrors/op/open-infra-index/raw/56d86855fcf6e08fdfd45ce6280bd24322c93351/202502OpenSourceWeek/figures/Communication-Computation Overlapping during Decoding Phase.png?utm_source=gitcode_repo_files)

图:DeepSeek推理引擎解码阶段通信计算重叠示意图,展示了如何通过双微批处理策略隐藏通信延迟

从图中可以看到,系统将批处理请求分为两个微批(micro-batch),通过SHARED、ATTN-0、MLP和ATTN-1等模块的交替执行,使一个微批的通信操作与另一个微批的计算操作完全重叠。这种设计大幅降低了分布式系统中的通信等待时间,直接贡献了解码性能的提升。

多层次负载均衡:消除性能瓶颈

在大规模并行系统中,负载不均衡会导致部分GPU成为瓶颈。DeepSeek推理引擎实现了三级负载均衡机制:

1. 解码负载均衡器

  • 核心目标:平衡各GPU的KVCache使用和请求数量
  • 优化策略:动态调整请求分配,确保每个GPU的计算负载和通信负载均匀

2. 专家并行负载均衡器

  • 核心目标:解决MoE模型中专家负载不均问题
  • 优化策略:最小化各GPU间的最大调度接收负载,避免热点专家导致的性能瓶颈

这些负载均衡机制确保了系统中所有GPU资源都能被充分利用,避免了"木桶效应"对整体性能的限制。

系统架构全景:从请求到响应的高效流程

DeepSeek推理引擎采用了预填充-解码分离的架构设计,整个系统流程如下:

![DeepSeek在线推理系统架构图](https://raw.gitcode.com/gh_mirrors/op/open-infra-index/raw/56d86855fcf6e08fdfd45ce6280bd24322c93351/202502OpenSourceWeek/figures/Diagram of DeepSeek's Online Inference System.jpg?utm_source=gitcode_repo_files)

图:DeepSeek在线推理系统架构图,展示了从API请求到最终响应的完整流程

系统工作流程包括:

  1. API Server接收用户请求
  2. 请求被分发到Prefill Load Balancer或Decode Load Balancer
  3. Prefill Service和Decode Service分别处理不同阶段的计算
  4. Expert-Parallel Load Balancer负责跨节点专家计算的负载均衡
  5. 可选的External KVCache Storage用于优化长序列处理

这种架构设计使系统能够灵活应对不同类型的请求,同时通过专业化的服务分工提升整体效率。

性能实测:14.8k tokens/s背后的真实数据

在实际部署环境中,DeepSeek推理引擎展现出卓越的性能表现。基于H800 GPU集群的测试数据显示:

  • 解码阶段吞吐量:每H800节点平均输出速度达14.8k tokens/s
  • 24小时统计:总输出 tokens 达168B,平均输出速度20-22 tokens/秒
  • 资源效率:结合动态节点调度,白天高峰期使用278个节点,夜间低负载时减少节点以节约资源

这些数据证明了DeepSeek推理引擎在真实业务场景中的高性能和资源利用效率,为大规模AI服务部署提供了可靠的技术支撑。

总结:解码优化的价值与启示

DeepSeek推理引擎通过跨节点专家并行、通信-计算重叠和多层次负载均衡等创新技术,实现了14.8k tokens/s的解码性能,为大模型高效部署树立了新标杆。这些优化策略不仅提升了系统吞吐量,还降低了运营成本,为AI技术的商业化应用提供了强大动力。

对于希望部署大规模语言模型的开发者和企业而言,DeepSeek推理引擎的优化思路提供了宝贵参考:通过深入理解模型特性、精心设计系统架构和细致优化通信与计算,即使是最复杂的AI模型也能实现高效、经济的部署。

感兴趣的开发者可以通过以下项目路径获取更多信息:

如需部署该推理引擎,可通过以下命令获取项目代码:

git clone https://gitcode.com/gh_mirrors/op/open-infra-index

随着AI技术的不断发展,推理引擎的优化将持续演进,DeepSeek团队也将继续贡献更多创新技术,推动开源生态的共同进步。

【免费下载链接】open-infra-index 【免费下载链接】open-infra-index 项目地址: https://gitcode.com/gh_mirrors/op/open-infra-index

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐