DeepSeek的“开源周”还没结束?没错!就在大家以为DeepSeek的“5天开源”预告已经画上句号时,官方又扔出了一颗“重磅炸弹”——DeepSeek V3/R1推理系统!

这波操作,着实让AI圈的小伙伴们“惊呆了”。更令人惊叹的是,DeepSeek不仅开源了推理系统,还大方地晒出了自家在线服务的“成绩单”:吞吐量、利润率等关键数据,统统透明公开!

DeepSeek这是要闹哪样?别急,让我们一起揭开DeepSeek V3/R1推理系统的神秘面纱。
吞吐量、利润率双双“爆表”

性能怪兽:吞吐量、利润率双双“爆表”

先来看看DeepSeek官方公布的数据:

  • 每个H800节点实现73.7k/14.8k个每秒输入/输出token。
  • (理论)成本利润率高达545%。

这组数据意味着什么?简单来说,DeepSeek V3/R1推理系统就像一台“性能怪兽”,处理数据的速度快到飞起,而且还非常“省钱”!

当然,DeepSeek也坦诚地表示,实际收入并没有这么高,因为V3的定价更低,而且收费服务只占一部分,晚上还有折扣。但即便如此,这组数据也足以让业界“眼红”了。

技术揭秘:三大“法宝”打造极致性能

DeepSeek V3/R1推理系统之所以能有如此惊艳的表现,离不开其背后一系列硬核技术的支撑。其中,最核心的“三大法宝”分别是:

  1. 跨节点专家并行(EP)
    • 简单来说,EP就是把“专家”(模型中的一部分)分布到不同的GPU上,让它们“各司其职”,从而提高整体的处理速度。
    • DeepSeek-V3/R1中,每个层有256个专家,但只有8个会被激活。这种高度稀疏性,使得EP策略尤为重要。
    • 通过EP,DeepSeek显著扩展了batch大小,提高了GPU矩阵计算效率,并降低了延迟。
  2. 计算-通信重叠
    在这里插入图片描述
    • EP虽然好用,但会增加跨节点通信的开销。
    • 为了解决这个问题,DeepSeek采用了“dual-batch”重叠策略,把一个batch请求拆成两个microbatch,让它们“交替”执行。
    • 这样一来,一个microbatch的通信成本,就被隐藏在了另一个microbatch的计算过程中,从而提高了整体吞吐量。
  3. 负载平衡
    • 在大规模并行化中,如果某个GPU的计算或通信负担过重,就会成为“瓶颈”,拖慢整个系统的速度。
    • 为了解决这个问题,DeepSeek在预填充和解码阶段,分别设计了不同的负载平衡器。
    • 这些负载平衡器,就像“交通指挥员”,能让每个GPU都“各尽其责”,避免出现“拥堵”或“闲置”的情况。
数据说话:DeepSeek在线服务“成绩单”

DeepSeek在线服务“成绩单”

在这里插入图片描述

除了技术解析,DeepSeek还大方地分享了自家在线服务的统计数据:

  • 过去24小时内,V3和R1推理业务的合并峰值节点占用达到278个,平均占用226.75个节点(每个节点包含8个H800 GPU)。
  • 总输入token:608B,其中342B token(56.3%)命中磁盘KV缓存。
  • 总输出token:168B。平均输出速度为每秒20-22个token,每个输出token的平均kvcache长度为4,989个token。

这些数据,不仅展示了DeepSeek V3/R1推理系统的强大性能,也为我们了解大模型在线服务的实际运行情况,提供了宝贵的参考。

总结与展望

DeepSeek V3/R1推理系统的开源,无疑是AI领域的一件大事。它不仅展示了DeepSeek在技术上的深厚积累,也为业界树立了一个新的标杆。

DeepSeek的“开源周”还在继续,明天就是最后一天了。DeepSeek还会给我们带来什么惊喜?让我们拭目以待!

让AI成为您的超级助手,ChatTools (支持Gemini, DeepSeek, GPT-4o, GPT等模型) 提供全方位支持。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐