DeepSeek放大招！开源V3/R1推理系统，吞吐量、利润率双双爆表

DeepSeek V3/R1推理系统的开源，无疑是AI领域的一件大事。它不仅展示了DeepSeek在技术上的深厚积累，也为业界树立了一个新的标杆。DeepSeek的“开源周”还在继续，明天就是最后一天了。DeepSeek还会给我们带来什么惊喜？让我们拭目以待！

m0_66917422 · 2025-03-01 14:22:44 发布

DeepSeek的“开源周”还没结束？没错！就在大家以为DeepSeek的“5天开源”预告已经画上句号时，官方又扔出了一颗“重磅炸弹”——DeepSeek V3/R1推理系统！

这波操作，着实让AI圈的小伙伴们“惊呆了”。更令人惊叹的是，DeepSeek不仅开源了推理系统，还大方地晒出了自家在线服务的“成绩单”：吞吐量、利润率等关键数据，统统透明公开！

DeepSeek这是要闹哪样？别急，让我们一起揭开DeepSeek V3/R1推理系统的神秘面纱。
吞吐量、利润率双双“爆表”

先来看看DeepSeek官方公布的数据：

这组数据意味着什么？简单来说，DeepSeek V3/R1推理系统就像一台“性能怪兽”，处理数据的速度快到飞起，而且还非常“省钱”！

当然，DeepSeek也坦诚地表示，实际收入并没有这么高，因为V3的定价更低，而且收费服务只占一部分，晚上还有折扣。但即便如此，这组数据也足以让业界“眼红”了。

DeepSeek V3/R1推理系统之所以能有如此惊艳的表现，离不开其背后一系列硬核技术的支撑。其中，最核心的“三大法宝”分别是：

跨节点专家并行（EP）：
- 简单来说，EP就是把“专家”（模型中的一部分）分布到不同的GPU上，让它们“各司其职”，从而提高整体的处理速度。
- DeepSeek-V3/R1中，每个层有256个专家，但只有8个会被激活。这种高度稀疏性，使得EP策略尤为重要。
- 通过EP，DeepSeek显著扩展了batch大小，提高了GPU矩阵计算效率，并降低了延迟。
计算-通信重叠：
- EP虽然好用，但会增加跨节点通信的开销。
- 为了解决这个问题，DeepSeek采用了“dual-batch”重叠策略，把一个batch请求拆成两个microbatch，让它们“交替”执行。
- 这样一来，一个microbatch的通信成本，就被隐藏在了另一个microbatch的计算过程中，从而提高了整体吞吐量。
负载平衡：
- 在大规模并行化中，如果某个GPU的计算或通信负担过重，就会成为“瓶颈”，拖慢整个系统的速度。
- 为了解决这个问题，DeepSeek在预填充和解码阶段，分别设计了不同的负载平衡器。
- 这些负载平衡器，就像“交通指挥员”，能让每个GPU都“各尽其责”，避免出现“拥堵”或“闲置”的情况。