首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯云网络专家服务

    nccl-test 使用指引

    概述 nccl-test 工具是 nvidia 开源的一项用于测试 NCCL 集合通信的工具。可以用于检测集合通信是否正常、压测集合通信速率。 编译与安装 安装依赖,nccl-test 依赖 nccl, cuda, mpi: nccl & cuda: https://developer.nvidia.com/nccl/nccl-download 如何实现持续运行 nccl-test 可以通过,使用 `-b`, `-e`选项将数据量设置为一致的,使用`-i 0`将每次增加的数据步长设置为 0,就可以实现持续运行该数据大小的 nccl-test 测试

    26.7K62编辑于 2023-11-22
  • 来自专栏高性能计算

    【教程】简介nccl-test工具

    https://blog.csdn.net/sxf1061700625/article/details/127705588

    4.9K10编辑于 2024-06-28
  • 来自专栏星融元

    案例验证:分析NCCL-Tests运行日志优化Scale-Out网络拓扑

    工具说明:NCCL-TestsNVIDIA提供的NCCL是当前面向AI的集合通信事实标准,NCCL-Test 是 NVIDIA 开源的工具,我们可以在官方Github下载来进行不同算法的性能测试(例如: NCCL-Test 性能测试结果# out-of-place NCCL-test运行日志里列出了16组channel如下:### ChannelNum:16 bm-2204kzq:252978:253054 [0] NCCL INFO Channel 00/

    1.3K10编辑于 2024-11-13
  • 来自专栏腾讯云网络专家服务

    浅谈大模型训练排障平台的建设

    在集合通信层,可以使用 nccl-test 工具,执行 allreduce_pref. all2all_perf等各种测试,用于验证集合通信是否正常。 使用 NCCL-TEST 进行 allreduce_perf 测试,检测无异常。对应用环境进行检测,48 台机器训练环境和配置无差异性。 同时,我们使用NCCL-TEST来验证RDMA网络问题。在缺乏线索的情况下,我们开始对应用层进行分析。首先,借助集群排障工具,对整个集群的应用环境进行检测,以检查每个节点的环境是否存在不一致之处。

    3.2K364编辑于 2023-11-17
  • 一文梳理:如何构建并优化GPU云算力中心?

    NCCL-TESTnccl-test 工具是 NVIDIA 开源的一项用于测试 NCCL 集合通信的工具,我们建议在正式运行业务之前先使用nccl-test来检测集合通信是否正常、压测集合通信速率等,看看否存在任何性能不足或下降 关于nccl-test日志的分析我们将在接下来的主题中展开。日常维护集群中最常见的问题包括收发器抖动、GPU掉线、GPU HBM 错误和 SDC等。

    2.6K11编辑于 2024-10-24
领券