本文介绍Deepseek双机交换机组网,服务器侧如何进行配置,以及如何检测网络是否OK。

组网介绍

该场景下,两个服务器的NPU网卡,通过一个交换机连接,放在同一个局域网下。主要有400G交换机组网,100G交换机组网两种常见场景。

400G交换机组网

400GE接口Leaf交换机每个接口对接NPU服务器2个200GE接口,如下图所示,采用QSFP-DD<->2*QSFP56高速电缆。交换机需配置1分2拆分,将1个400G物理端口拆分为2个200Gbps逻辑端口。

QSFP-DD<->2*QSFP56高速电缆

100G交换机组网

100GE接口Leaf交换机每个接口对接NPU服务器1个200GE接口,如下图所示,采用QSFP28<->QSFP28高速电缆。NPU服务器对接100GE交换机时需要通过命令将NPU网口降速到100GE。

QSFP28<->QSFP28高速电缆

链路状态检查

完成组网和交换机配置后,首先检查服务器链路状态,确保链路都是up

#检查链路up/down
for i in {0..7};do hccn_tool -i $i -link -g;done
#检查npu网卡直连的交换机端口
for i in {0..7};do hccn_tool -i $i -lldp -g|grep Ifname;done

网络配置

网络配置主要配置npu网卡的ip地址,网关,健康检测对象ip地址。

配置服务器IP地址

分别配置两个服务器的NPU网卡ip地址

A服务器

#配置ip地址
for i in {0..7};do 
    hccn_tool -i $i -ip -s address 192.168.1.$((i+2)) netmask 255.255.255.0;
done
#检查ip地址配置
for i in {0..7};
    do hccn_tool -i $i -ip -g;
done

B服务器

#配置ip地址
for i in {0..7};do 
    hccn_tool -i $i -ip -s address 192.168.1.$((i+12)) netmask 255.255.255.0;
done
#检查ip地址配置
for i in {0..7};
    do hccn_tool -i $i -ip -g;
done

配置网关

分别配置两个服务器的网关地址,具体网关ip按照实际规划配置

#配置网关ip
for i in {0..7};do 
    hccn_tool -i $i -gateway -s gateway 192.168.1.1;
done
#检查网关ip配置
for i in {0..7};do 
    hccn_tool -i $i -gateway -g;
done

配置检测对象ip

分别配置两个服务器的NPU网卡链路健康检查ip地址,地址配置为网关地址,两台服务器配置相同

#配置检测对象ip
for i in {0..7};do 
    hccn_tool -i $i -netdetect -s address 192.168.1.1;
done
#检查检测对象配置
for i in {0..7};do 
    hccn_tool -i $i -netdetect -g;
done
#检测链路健康状态
for i in {0..7};do 
    hccn_tool -i $i -net_health -g;
done

网络互联测试

完成以上配置后,再做两个服务器所有端口的all-to-all的连通性检查,确保all-to-all都可以ping通。

A服务器

for i in {0..7};do
    for j in {0..7};do 
        hccn_tool -i $i -ping -g address 192.168.1.$((j+12));
    done;
done

B服务器

for i in {0..7};do
    for j in {0..7};do 
        hccn_tool -i $i -ping -g address 192.168.1.$((j+2));
    done;
done

配置PFC队列和DSCP到TC的映射

该配置要和交换机配置配合,配置前要和客户沟通好,具体配置方法参考【昇腾】Deepseek双机组网:拥塞控制配置理解-CSDN博客

PFC配置

#设置pfc配置
for i in {0..7};do
    hccn_tool -i 0 -pfc -s bitmap 0,0,0,0,1,0,0,0
done

#检测配置
for i in {0..7};do hccn_tool -i $i -pfc -g;done

DSCP到TC的映射

#配置DSCP到TC的映射
for i in {0..7};do
     hccn_tool -i 0 -dscp_to_tc -s dscp 33 tc 2
done

#检测DSCP到TC的映射
for i in {0..7};do hccn_tool -i $i -dscp_to_tc -g|grep 33;done

#检测TC和优先队列映射
for i in {0..7};do 
    hccn_tool -i $i -prio_tc -g;
done

HCCL TEST测试

以上网络配置步骤完成后,就可以通过HCCL TEST工具来对环境验证,验证通过后,环境就可以用于deepseek推理测试了。

HCCL TEST工具,主要是应用在分布式训练推理场景下,开发者可以通过此工具测试HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能。可测试单机多卡,也可测试多机多卡场景。

具体使用方法请参考:

工具介绍-HCCL性能测试工具-训练&推理开发-CANN商用版8.0.0开发文档-昇腾社区

【昇腾】HCCL性能测试工具:HCCL TEST使用_怎么查看hccl进程-CSDN博客

问题与解决

拔掉光模块后,服务器网口灯仍亮

原因:

因为之前设置了回环

解决办法:

取消回环,重新建立链路

hccn_tool -i 0 -scdr -t 2
hccn_tool -i 0 -scdr -t 1

npu网卡ping不通网关

问题描述:

交换机配置的网关ip为192.168.2.1/24,服务器配置192.168.2.0/24网段的ip地址,无法ping通网关

排查思路:

(1)ping网关,并查看arp表,发现arp表有学习到mac。说明可以找到192.168.2.1,怀疑交换机端口禁ping

hccn_tool -i 1 -ping -g address 192.168.2.1
hccn_tool -i 1 -arp -g|grep 192.168.2.1

(2)经排查交换机上可以ping网关地址,说明没有禁ping

(3)删除接口ip地址配置,查看服务器的路由表,发现服务器上仍然有192.168.2.0/24的直连路由,说明网段配置冲突

hccn_tool -i 0 -route -g

解决办法:

修改交换机网关ip网段,修改服务器ip地址网段,避开冲突网段,问题解决

重启服务器掉卡,npu-smi info命令不返回结果

原因:

经排查是因为内核版本跟驱动不匹配导致,需要指定正确的内核版本。

解决办法:

设置服务器以哪个内核进行启动,设置成功后重启服务器解决。

#查询有哪些内核版本可以使用
[root@node1 ~]# awk -F\' '$1=="menuentry " {print i++ " : " $2}' $(find /boot -name grub.cfg)
0 : Kylin Linux Advanced Server (4.19.90-25.10.v2101.ky10.aarch64) V10 (Sword)
1 : Kylin Linux Advanced Server (4.19.90-24.4.v2101.ky10.aarch64) V10 (Sword)
2 : Kylin Linux Advanced Server (0-rescue-ee2bf64cd24745ca97dc3695c3eca716) V10 (Sword)
3 : System setup
#看当前启动使用哪个配置
[root@node1 ~]# grub2-editenv list
saved_entry=Kylin Linux Advanced Server (4.19.90-25.10.v2101.ky10.aarch64) V10 (Sword)
boot_success=0
#设置从哪个内核启动
[root@node1 ~]# grub2-set-default 1
#看当前启动使用哪个配置
[root@node1 ~]# grub2-editenv list
saved_entry=1
boot_success=0

参考资料

Ascend Training Solution 23.0.0 组网指南 01 - 华为

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐