DeepSeek组网的演进与效率提升

近年来，千亿至万亿参数规模的大语言模型（LLM）训练已成为人工智能领域的核心战场。随着模型复杂度的指数级增长，并行计算与网络拓扑的协同设计逐渐成为突破算力瓶颈的关键挑战。在，全局梯度同步（All-Reduce）对网络带宽提出严苛要求。早期的CLOS架构凭借无阻塞特性支撑了大规模集群的扩展，但其高昂的硬件成本与能效问题催生了Dragonfly等低直径拓扑的兴起，通过自适应路由减少跨节点跳数。与此同

星融元asterfusion

975人浏览 · 2025-03-24 18:27:58

星融元asterfusion · 2025-03-24 18:27:58 发布

解锁DeepSeek训练效率

近年来，千亿至万亿参数规模的大语言模型（LLM）训练已成为人工智能领域的核心战场。随着模型复杂度的指数级增长，并行计算与网络拓扑的协同设计逐渐成为突破算力瓶颈的关键挑战。

在数据并行（Data Parallelism）中，全局梯度同步（All-Reduce）对网络带宽提出严苛要求。早期的CLOS架构凭借无阻塞特性支撑了大规模集群的扩展，但其高昂的硬件成本与能效问题催生了Dragonfly等低直径拓扑的兴起，通过自适应路由减少跨节点跳数。与此同时，模型并行（Model Parallelism）中的张量切分与流水线编排，则依赖于NVLink域内直连或Torus环形网络的低延迟特性，减少通信开销。混合并行（3D Parallelism）的普及进一步放大了这一挑战：如何在层级化通信（节点内、跨节点、跨数据中心）中动态平衡带宽分配与延迟控制，成为软硬件协同优化的焦点。

模型并行（Model Parallelism）：低延迟局部通信优先

张量并行（Tensor Parallelism）：层内分片需高频次点对点通信，如Transformer自注意力层的权重分片。
流水线并行（Pipeline Parallelism）：跨层顺序传输激活值和梯度，需稳定低抖动网络。

Rail-Only将TP的All-Gather/Reduce-Scatter操作限制在高带宽（HB）域内（如NVLink直连的GPU组），利用物理邻近性降低延迟。

GPU服务器内部：每四个GPU作为一组，共享一个并行推理网卡，连接到同一个PCI Switch,两组GPU之间的通信通过两个PCI Switch之间的直连通道完成；
GPU服务器之间：同一组号的GPU之间的通信通过交换机直接完成；不同组号的GPU之间的通信，先通过PCI Switch将流量路由到另一组的网卡，然后通过交换机完成。