2025年2月25日 | DeepSeek开源周系列报道

今天,DeepSeek AI在开源周第二天重磅发布了DeepEP——全球首个专为混合专家模型(MoE)设计的开源通信库!这一工具将彻底改变MoE模型的分布式训练与推理效率,为AI开发者提供前所未有的性能优化方案。


为什么需要DeepEP?

MoE模型通过将任务分配给多个“专家”网络,实现了参数规模与计算效率的平衡。然而,其核心瓶颈在于专家间通信效率。传统通信库(如NCCL)难以满足MoE特有的全对全(All-to-All)数据交换需求,导致大规模模型训练时通信延迟激增。
DeepEP应运而生,专为**专家并行(EP)**场景优化,支持千亿参数级MoE模型的高效运行,例如DeepSeek-V3这类671B参数的“巨无霸”。
在这里插入图片描述


DeepEP五大核心亮点

  1. 高效全对全通信优化

    • 针对MoE的分发(Dispatch)与合并(Combine)操作,优化跨节点/节点内数据传输,NVLink域带宽达153-158 GB/s,RDMA域带宽稳定在43-47 GB/s
    • 支持非对称带宽场景(如NVLink到RDMA转发),减少跨域通信瓶颈。
  2. 训练与推理双模式内核

    • 训练/预填充阶段:高吞吐量内核适配批量数据处理,加速模型收敛。
    • 推理解码阶段:纯RDMA低延迟内核,单次分发延迟低至163微秒,合并延迟318微秒,完美支持实时生成任务(如对话系统)。
  3. 原生FP8支持

    • 引入8位浮点计算,显存占用减少50%,通信数据量压缩,同时保持模型精度,适合资源受限环境。
  4. 计算-通信重叠技术

    • 基于钩子的异步调度方法,实现GPU计算与通信的流水线并行,硬件利用率提升30%以上。
  5. 弹性资源管控

    • 动态分配流式多处理器(SM)资源,支持从单节点到跨集群的灵活扩展,适配云环境与超算中心。

性能实测:数据说话

在H800 GPU集群(NVLink 160 GB/s + InfiniBand 400 Gb/s)的测试中:

  • 预训练场景(4096 tokens/批):节点内通信带宽接近硬件极限(153-158 GB/s),跨节点带宽达RDMA理论值的92%。
  • 生产推理场景(128 tokens/批):延迟控制在200微秒内,RDMA带宽利用率超90%。

性能对比图
▲ 正常内核与低延迟内核性能对比(来源:DeepEP官方仓库)


四大应用场景

  1. 大规模语言模型训练
    • 支持64路专家并行,8节点协同,通信效率提升3倍,加速千亿参数模型训练。
  2. 实时生成任务
    • 低延迟解码内核让文本生成响应速度突破毫秒级,适合代码补全、对话机器人。
  3. 多模态模型部署
    • FP8支持降低显存需求,使MoE模型可在消费级GPU上运行。
  4. 边缘计算场景
    • 弹性资源调度适配算力受限设备,实现端侧高效推理。

如何快速上手?

  1. 环境要求:Hopper架构GPU、CUDA 12.3+、PyTorch 2.1+。
  2. 安装指南
    # 克隆仓库并安装依赖
    git clone https://github.com/deepseek-ai/DeepEP
    NVSHMEM_DIR=/path/to/nvshmem python setup.py install
    
  3. 示例代码
    from deep_ep import Buffer
    # 初始化通信缓冲区
    buffer = Buffer(group, hidden_bytes=7168*2)
    # 执行MoE分发与合并
    recv_x, handle = buffer.dispatch(x, topk_idx)
    combined_x = buffer.combine(recv_x, handle)
    

(完整示例参见GitHub仓库)


加入开源浪潮!

DeepEP采用MIT协议开源(部分组件受NVSHMEM SLA约束),开发者可自由修改并集成到商业项目中。DeepSeek团队呼吁全球开发者共同参与优化,推动MoE技术的普惠化。

立即行动
🔗 访问GitHub仓库
📚 查阅技术文档与性能调优指南
💬 加入社区讨论,分享你的优化案例

#DeepSeek开源周 明日将迎来第三弹,传闻与多模态推理框架相关,敬请期待!

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐