DeepSeek揭秘 V3/R1 推理系统，成本利润率高达 545%

DeepSeek 在开源周第六天发布了 V3/R1 推理系统的优化细节，通过跨节点的 EP 驱动批量扩展、计算与通信重叠以及负载均衡等技术手段，大幅提升了系统的吞吐量并降低了延迟。每个 H800 节点每秒可处理 73,700 个输入 tokens 和 14,800 个输出 tokens，统计涵盖网页、APP 和 API 的所有负载。

人工智能chatGPT培训咨询讲师叶梓

1138人浏览 · 2025-03-03 10:00:00

人工智能chatGPT培训咨询讲师叶梓 · 2025-03-03 10:00:00 发布

人工智能咨询培训老师叶梓转载标明出处

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

更多分享，关注视频号：sphuYAMr0pGTk27 抖音号：44185842659

大规模模型推理的效率瓶颈

DeepSeek-V3/R1 模型采用了大规模的专家并行（EP）架构，这一架构虽然能够显著提升计算效率，但也带来了系统复杂性增加、通信开销增大以及负载不平衡等问题。具体来说：

通信开销：大规模跨节点的 EP 导致节点间通信频繁，增加了通信延迟。
负载不平衡：在多节点并行计算中，如果某个 GPU 负载过高，就会成为性能瓶颈，导致其他 GPU 空闲，资源利用率低下。
推理效率：如何在大规模并行环境下实现高效的推理，同时保持低延迟和高吞吐量，是亟待解决的问题。

优化方法：计算与通信的协同优化

DeepSeek 团队通过一系列创新的方法，成功解决了上述问题：

计算-通信重叠机制
为了隐藏通信延迟，DeepSeek 团队采用了双微批处理策略。在预填充阶段，将请求批次拆分为两个微批次，交替执行，使得一个微批次的通信成本可以隐藏在另一个微批次的计算过程中。在解码阶段，由于不同阶段的执行时间不平衡，团队进一步细分注意力层，并采用五阶段流水线，实现了无缝的通信-计算重叠。
负载均衡策略
针对大规模并行带来的负载不平衡问题，DeepSeek 团队设计了多种负载均衡器：
- 预填充阶段负载均衡器：平衡核心注意力计算和分发发送负载，确保每个 GPU 的计算量均匀。
- 解码阶段负载均衡器：平衡 KVCache 使用和请求分发负载，避免某个 GPU 过载。
- 专家并行负载均衡器：针对 MoE 模型中高负载专家的问题，优化专家计算负载分配，减少 GPU 之间的负载差异。
大规模跨节点专家并行
DeepSeek-V3/R1 模型的高稀疏性要求极高的整体批次大小，以确保每个专家有足够的批次大小，从而提高吞吐量和降低延迟。团队在预填充阶段和解码阶段分别采用了不同级别的并行策略，充分利用 GPU 资源。