DeepSeek放大招!开源V3/R1推理系统,吞吐量、利润率双双爆表
DeepSeek V3/R1推理系统的开源,无疑是AI领域的一件大事。它不仅展示了DeepSeek在技术上的深厚积累,也为业界树立了一个新的标杆。DeepSeek的“开源周”还在继续,明天就是最后一天了。DeepSeek还会给我们带来什么惊喜?让我们拭目以待!
DeepSeek的“开源周”还没结束?没错!就在大家以为DeepSeek的“5天开源”预告已经画上句号时,官方又扔出了一颗“重磅炸弹”——DeepSeek V3/R1推理系统!
这波操作,着实让AI圈的小伙伴们“惊呆了”。更令人惊叹的是,DeepSeek不仅开源了推理系统,还大方地晒出了自家在线服务的“成绩单”:吞吐量、利润率等关键数据,统统透明公开!
DeepSeek这是要闹哪样?别急,让我们一起揭开DeepSeek V3/R1推理系统的神秘面纱。
性能怪兽:吞吐量、利润率双双“爆表”
先来看看DeepSeek官方公布的数据:
- 每个H800节点实现73.7k/14.8k个每秒输入/输出token。
- (理论)成本利润率高达545%。
这组数据意味着什么?简单来说,DeepSeek V3/R1推理系统就像一台“性能怪兽”,处理数据的速度快到飞起,而且还非常“省钱”!
当然,DeepSeek也坦诚地表示,实际收入并没有这么高,因为V3的定价更低,而且收费服务只占一部分,晚上还有折扣。但即便如此,这组数据也足以让业界“眼红”了。
技术揭秘:三大“法宝”打造极致性能
DeepSeek V3/R1推理系统之所以能有如此惊艳的表现,离不开其背后一系列硬核技术的支撑。其中,最核心的“三大法宝”分别是:
- 跨节点专家并行(EP):
- 简单来说,EP就是把“专家”(模型中的一部分)分布到不同的GPU上,让它们“各司其职”,从而提高整体的处理速度。
- DeepSeek-V3/R1中,每个层有256个专家,但只有8个会被激活。这种高度稀疏性,使得EP策略尤为重要。
- 通过EP,DeepSeek显著扩展了batch大小,提高了GPU矩阵计算效率,并降低了延迟。
- 计算-通信重叠:
- EP虽然好用,但会增加跨节点通信的开销。
- 为了解决这个问题,DeepSeek采用了“dual-batch”重叠策略,把一个batch请求拆成两个microbatch,让它们“交替”执行。
- 这样一来,一个microbatch的通信成本,就被隐藏在了另一个microbatch的计算过程中,从而提高了整体吞吐量。
- 负载平衡:
- 在大规模并行化中,如果某个GPU的计算或通信负担过重,就会成为“瓶颈”,拖慢整个系统的速度。
- 为了解决这个问题,DeepSeek在预填充和解码阶段,分别设计了不同的负载平衡器。
- 这些负载平衡器,就像“交通指挥员”,能让每个GPU都“各尽其责”,避免出现“拥堵”或“闲置”的情况。
数据说话:DeepSeek在线服务“成绩单”
除了技术解析,DeepSeek还大方地分享了自家在线服务的统计数据:
- 过去24小时内,V3和R1推理业务的合并峰值节点占用达到278个,平均占用226.75个节点(每个节点包含8个H800 GPU)。
- 总输入token:608B,其中342B token(56.3%)命中磁盘KV缓存。
- 总输出token:168B。平均输出速度为每秒20-22个token,每个输出token的平均kvcache长度为4,989个token。
这些数据,不仅展示了DeepSeek V3/R1推理系统的强大性能,也为我们了解大模型在线服务的实际运行情况,提供了宝贵的参考。
总结与展望
DeepSeek V3/R1推理系统的开源,无疑是AI领域的一件大事。它不仅展示了DeepSeek在技术上的深厚积累,也为业界树立了一个新的标杆。
DeepSeek的“开源周”还在继续,明天就是最后一天了。DeepSeek还会给我们带来什么惊喜?让我们拭目以待!
让AI成为您的超级助手,ChatTools (支持Gemini, DeepSeek, GPT-4o, GPT等模型) 提供全方位支持。
更多推荐
所有评论(0)