概述 nccl-test 工具是 nvidia 开源的一项用于测试 NCCL 集合通信的工具。可以用于检测集合通信是否正常、压测集合通信速率。 编译与安装 安装依赖,nccl-test 依赖 nccl, cuda, mpi: nccl & cuda: https://developer.nvidia.com/nccl/nccl-download 如何实现持续运行 nccl-test 可以通过,使用 `-b`, `-e`选项将数据量设置为一致的,使用`-i 0`将每次增加的数据步长设置为 0,就可以实现持续运行该数据大小的 nccl-test 测试
https://blog.csdn.net/sxf1061700625/article/details/127705588
工具说明:NCCL-TestsNVIDIA提供的NCCL是当前面向AI的集合通信事实标准,NCCL-Test 是 NVIDIA 开源的工具,我们可以在官方Github下载来进行不同算法的性能测试(例如: NCCL-Test 性能测试结果# out-of-place NCCL-test运行日志里列出了16组channel如下:### ChannelNum:16 bm-2204kzq:252978:253054 [0] NCCL INFO Channel 00/
在集合通信层,可以使用 nccl-test 工具,执行 allreduce_pref. all2all_perf等各种测试,用于验证集合通信是否正常。 使用 NCCL-TEST 进行 allreduce_perf 测试,检测无异常。对应用环境进行检测,48 台机器训练环境和配置无差异性。 同时,我们使用NCCL-TEST来验证RDMA网络问题。在缺乏线索的情况下,我们开始对应用层进行分析。首先,借助集群排障工具,对整个集群的应用环境进行检测,以检查每个节点的环境是否存在不一致之处。
NCCL-TESTnccl-test 工具是 NVIDIA 开源的一项用于测试 NCCL 集合通信的工具,我们建议在正式运行业务之前先使用nccl-test来检测集合通信是否正常、压测集合通信速率等,看看否存在任何性能不足或下降 关于nccl-test日志的分析我们将在接下来的主题中展开。日常维护集群中最常见的问题包括收发器抖动、GPU掉线、GPU HBM 错误和 SDC等。