
DeepSeek组网的演进与效率提升
近年来,千亿至万亿参数规模的大语言模型(LLM)训练已成为人工智能领域的核心战场。随着模型复杂度的指数级增长, 并行计算与网络拓扑的协同设计逐渐成为突破算力瓶颈的关键挑战。在,全局梯度同步(All-Reduce)对网络带宽提出严苛要求。早期的CLOS架构凭借无阻塞特性支撑了大规模集群的扩展,但其高昂的硬件成本与能效问题催生了Dragonfly等低直径拓扑的兴起,通过自适应路由减少跨节点跳数。与此同
解锁DeepSeek训练效率
近年来,千亿至万亿参数规模的大语言模型(LLM)训练已成为人工智能领域的核心战场。随着模型复杂度的指数级增长, 并行计算与网络拓扑的协同设计逐渐成为突破算力瓶颈的关键挑战。
在数据并行(Data Parallelism)中,全局梯度同步(All-Reduce)对网络带宽提出严苛要求。早期的CLOS架构凭借无阻塞特性支撑了大规模集群的扩展,但其高昂的硬件成本与能效问题催生了Dragonfly等低直径拓扑的兴起,通过自适应路由减少跨节点跳数。与此同时,模型并行(Model Parallelism)中的张量切分与流水线编排,则依赖于NVLink域内直连或Torus环形网络的低延迟特性,减少通信开销 。混合并行(3D Parallelism)的普及进一步放大了这一挑战:如何在层级化通信(节点内、跨节点、跨数据中心)中动态平衡带宽分配与延迟控制,成为软硬件协同优化的焦点。
模型并行(Model Parallelism):低延迟局部通信优先
- 张量并行(Tensor Parallelism) :层内分片需高频次点对点通信,如Transformer自注意力层的权重分片。
- 流水线并行(Pipeline Parallelism) :跨层顺序传输激活值和梯度,需稳定低抖动网络。
Rail-Only将TP的All-Gather/Reduce-Scatter操作限制在高带宽(HB)域内(如NVLink直连的GPU组),利用物理邻近性降低延迟。
- GPU服务器内部:每四个GPU作为一组,共享一个并行推理网卡,连接到同一个PCI Switch,两组GPU之间的通信通过两个PCI Switch之间的直连通道完成;
- GPU服务器之间:同一组号的GPU之间的通信通过交换机直接完成;不同组号的GPU之间的通信,先通过PCI Switch将流量路由到另一组的网卡,然后通过交换机完成。
数据并行(Data Parallelism):高带宽全局通信需求
依赖全局梯度同步(All-Reduce),带宽需求与模型参数量成正比。例如,千亿参数模型的单次All-Reduce操作可能需传输10GB级数据。 Fat-Tree(CLOS),通过无阻塞设计(如3层CLOS架构)支持大规模全局通信。
小规模并行训练网络拓扑
- 每台训练服务器有8张GPU,2张400G网卡,双归连接到两台CX732Q-N
- 16个训练服务器(128张GPU)和2个CX732Q-N组成一个PoD。
- 可横向扩展至64个PoD
混合并行(3D并行):分层通信优化
协同设计 :DP+TP+PP组合需分层匹配拓扑,通过分层CLOS网络实现带宽隔离。中大规模并行训练网络拓扑
- 每台训练服务器有8张GPU,2张400G网卡,双归连接到两台CX864E-N
- 64个训练服务器(512张GPU)和2个CX864E-N组成一个PoD,服务器间一跳可达。
- 可横向扩展至64个PoD
【参考文献】
https://blog.csdn.net/aolan123/article/details/138462107
https://bhxb.buaa.edu.cn/bhzk/cn/article/doi/10.13700/j.bh.1001-5965.2022.0731
更多推荐
所有评论(0)