集合通信库HCCL(Huawei Collective Communication Library)是基于昇腾硬件的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案

在服务器上安装openmpi或者mpich,只是要编译,比较麻烦。建议做成docker镜像,在多机测试的时候更加方便。
设置环境变量,每次跑个测试往往一堆报错,原因就在没有设置好环境变量
export INSTALL_DIR=/usr/local/Ascend/cann
export PATH=/home/mpich/bin:$PATH
export LD_LIBRARY_PATH=/home/mpich/lib:{INSTALL_DIR}/lib64:LD_LIBRARY_PATH
export HCCL_SOCKET_FAMILY=AF_INET
export HCCL_SOCKET_IFNAME=bond0.1001
export HCCL_BUFFSIZE=2048
进入测试目录
cd /usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test/
编辑hostfile,由每次测试的服务器数量决定。这次测试分单机,同个交换机下的2机,4机。跨交换机的8机,16机,32机,64机和全部的128机。
-rw-r--r-- 1 root root 14 Jun 18 03:34 hostfile
-rw-r--r-- 1 root root 1940 Jun 18 08:25 hostfile.128
-rw-r--r-- 1 root root 231 Jun 18 07:42 hostfile.16
-rw-r--r-- 1 root root 28 Jun 18 02:16 hostfile.2
-rw-r--r-- 1 root root 471 Jun 18 07:49 hostfile.32
-rw-r--r-- 1 root root 56 Jun 18 01:50 hostfile.4
-rw-r--r-- 1 root root 951 Jun 18 07:53 hostfile.64
-rw-r--r-- 1 root root 112 Jun 18 07:31 hostfile.8