deepseek开源DualPipe的同一天,还开源了EPLB。今天来简单聊聊EPLB,包懂。

【1】EPLB是干嘛的?

EPLB,Expert Parallelism Load Balancer,是一个动态负载均衡算法。

在使用专家并行EP时,不同专家会被分配到不同的GPU,而这些GPU的负载可能不均衡,此时就需要EPLB啦。

什么是专家并行EP?

专家并行EP,Expert Parallelism,是一种针对混合专家MOE设计的分布式并行技术。

什么是混合专家MOE?

混合专家MOE,Mixture of Experts,是deepseek大模型的核心创新应用,该模型思路不再追求大而全,转而追求多而专精。

关于混合专家MOE,详见:

通俗讲解deepseek - MOE(3)》

混合专家MOE与专家并行EP,deepseek之前开源了其核心通讯库,详见:

通俗讲解deepseek开源 - DeepEP(10)

【2】EPLB是怎么做到负载均衡的?

EPLB像一个智能调度员,根据不同的场景调度专家进行计算,其负载均衡算法包含两类核心策略。

第一类:分级负载均衡。

使用场景:预填充阶段(prefilling stage),规模较小,服务器节点数(server nodes)能被专家组数(expert groups)整除的情况。

策略步骤:

1. 专家组分配(pack to)到节点,保证节点负载均衡;

2. 节点内复制专家;

3. 专家分配到GPUs,保证GPUs负载均衡;

第二类:全局负载均衡。

使用场景:解码阶段(decoding stage),规模较大的情况。

策略步骤:

1. 全局复制专家,不管专家在哪个组;

2. 专家分配到GPUs,保证GPUs负载均衡;

总而言之,保证负载均衡,充分发挥GPUs的潜力,提升训练效率,缩短训练时间。

【3】举个实际的例子?

DeepSeek-V3训练部署:

1. 2048个NVIDIA H800;

2. 256个服务器节点(每节点8GPU);

3. 专家组数为64(EP-64);

接下来进行训练:

1. 预填充阶段,一个专家组,例如Java+ FE+ QA+OP分配4个服务器节点,保证节点资源分配均衡;

2. 专家冗余策略,当发现某个GPU负载超过阈值时,复制专家副本,分配到新的GPU。也就是说,Java成为项目瓶颈时,我们就组内复制多个Java;

3. 原则上专家组之间避免全局通讯,而在有限节点内通讯,降低全局通讯压力;

画外音:全局通讯复杂度会指数级上升,只需要少量跨组协同。

4. 解码阶段,需要大量QA工程师,这个时候切换为全局策略,忽略专家组物理拓扑限制,跨节点全局复制QA工程师,加速项目进度;

总的来说,几个核心设计思路:

1. 分级调度策略:先节点均衡,再GPU均衡;

2. 冗余专家策略:谁是瓶颈复制谁,保证均衡;

3. 就近通讯策略:减少全局通讯;

4. 动态切换策略:高峰期打破限制;

分级,冗余,就近,动态... 工程架构领域,哪有什么新鲜事,可偏偏在deepseek手里大放异彩。

【4】一些启示

通过deepseek的一系列开源:

通俗讲解deepseek开源 - FlashMLA(9)

通俗讲解deepseek开源 - DeepEP(10)

通俗讲解deepseek开源 - DeepGEMM(11)

通俗讲解deepseek开源 - DualPipe(12)

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐