搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏GPUS开发者
cuDNN和NCCL
接下来介绍的SDK是NCCL。深度学习中常常需要多GPU并行训练，而Nvidia的NCCL库NVIDIA/nccl（https://github.com/NVIDIA/nccl）在各大深度学习框架（Caffe/Tensorflow/ 在最新的NCCL 2.0版本里面，增加了对多服务器节点的支持，在NCCL 1.0版本里面我们只是支持单节点内的多GPU，但目前NCCL 2.0可以支持多节点的，并且可以同时支持PCle和NVLink连接方式大家从上面的benchmark可以看到，从单节点一颗GPU到单节点八颗GPU，再到两个节点16颗GPU，以及四个节点32颗GPU，使用NCCL实现的Deep Learning 训练的吞吐性能几乎是线性增长的而目前NCCL 2.0最多可以支持八个服务器节点的并行。
4.9K120发布于 2018-04-02
来自专栏腾讯云网络专家服务
nccl-test 使用指引
概述 nccl-test 工具是 nvidia 开源的一项用于测试 NCCL 集合通信的工具。可以用于检测集合通信是否正常、压测集合通信速率。编译与安装安装依赖，nccl-test 依赖 nccl, cuda, mpi： nccl & cuda: https://developer.nvidia.com/nccl/nccl-download =INFO \ -x NCCL_IB_GID_INDEX=3 \ -x NCCL_IB_DISABLE=0 \ -x NCCL_SOCKET_IFNAME -x NCCL_DEBUG=INFO：这个选项设置了 NCCL 的调试级别为 INFO。 -x NCCL_SOCKET_IFNAME=eth0：这个选项指定了 NCCL 使用 eth0 网络接口进行通信。
26.7K62编辑于 2023-11-22
来自专栏高性能计算
【教程】简介nccl-test工具
转载请注明出处：小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你，欢迎[点赞、收藏、关注]哦~ https://github.com/NVIDIA/nccl-tests工具安装1 、对于cuda、cudnn、nccl的环境安装可以看：https://blog.csdn.net/sxf1061700625/article/details/1277055882、然后编译工具，编译的结果在 build文件夹里：cd nccl-testmake工具介绍NCCL 测试性能指标解释 NCCL（NVIDIA 集体通信库）测试提供了集体操作的重要性能指标，对于优化和理解多 GPU 通信非常重要为了提供一个能反映硬件最佳使用情况的数字，NCCL 测试引入了 "总线带宽 "的概念（测试输出中的 "busbw "列）。这个数字是通过对算法带宽应用一个公式得出的，以反映 GPU 之间的通信速度。
4.9K10编辑于 2024-06-28
来自专栏软件研发
讲解Distributed package doesn‘t have NCCL built in
NCCL是一种优化的通信库，用于在多个GPU之间进行快速的数据传输和同步。PyTorch中的分布式训练依赖于NCCL来实现高效的数据并行计算和参数更新，因此缺少NCCL会导致上述错误的出现。解决方案为了解决这个问题，你需要确保你的系统安装了NCCL，并且正确配置了PyTorch来使用它。下面是一些解决方案的步骤：步骤1：安装NCCL首先，你需要下载和安装NCCL。 /libexport PATH=$PATH:$NCCL_ROOT/include请将/path/to/nccl替换为你的NCCL的安装路径。 NCCL具有以下主要特点：GPU-awareness（GPU感知）：NCCL可以检测到GPU资源并利用它们进行高效的通信。通过按照上述步骤安装和配置NCCL，以及重新编译PyTorch，你可以解决这个错误，并顺利运行分布式训练代码。在分布式训练中使用NCCL能够提供高效的数据并行计算和参数更新，从而加速训练过程。
2.9K10编辑于 2023-12-24
来自专栏AI
NCCL与RDMA和MPI基本框架源码分析
The // handle can be up to NCCL_NET_HANDLE_MAXSIZE bytes and will be exchanged // between ranks to Comm can be either a sendComm or a recvComm. // Type is either NCCL_PTR_HOST or NCCL_PTR_CUDA. ; props->netDeviceType = NCCL_NET_DEVICE_HOST; props->netDeviceVersion = NCCL_NET_DEVICE_INVALID_VERSION 应用场景获取RANK唯一ID(UniqueId)Nvidia NCCL集合操作https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/usage /details/126712106NCCL源码详解1：NCCL官网使用/调用案例 Example : One Device per Process or Thread包含视频教程: https://blog.csdn.net
1.2K00编辑于 2025-02-06
来自专栏NCCL
NCCl API ncclCommInitAll功能实现，测试和结果验证
测试程序使用的cuda版本，nccl版本和硬件NCCL 版本： 2.19.3CUDA版本： cuda_12.4.r12.4硬件： 1CPU+2GPU（3090）ncclCommInitAll ##ncclGroupEnd函数相关所有的NCCL库的APi函数都会调用此函数，对比ncclBroadcast等实际功能API对于ncclCommInitAll这个API的处理与前面都不一样。 /nccl_CommInitAll_CommDestroy.elf 1 \n"); printf(". /nccl_CommInitAll_CommDestroy.elf 2 \n"); printf(". /nccl_CommInitAll_CommDestroy.elf 4 \n"); system(get_gpu_number_cmd); exit(0); } else { nDev
52800编辑于 2025-03-31
来自专栏NCCL
NCCl API ncclGetUniqueId功能实现，测试和结果验证
测试程序使用的nccl版本和cuda版本NCCL 版本： 2.19.3CUDA版本： cuda_12.4.r12.4ncclGetUniqueId API实现整体流程图ncclGetUniqueId 结构体 ncclUniqueId 定义#define NCCL_UNIQUE_ID_BYTES 128typedef struct { char internal[NCCL_UNIQUE_ID_BYTES initNvtxRegisteredEnums目前理解是实现nccl规约计算相关的初始化（后续有需要详细解析规约计算相关功能）。 /nccl_inits.elf 1 \n"); printf("./nccl_inits.elf 2 \n"); printf(". )); printf("[%s +%d %s] nccl_version=%d\n", __FILE__, __LINE__, __func__, nccl_version); printf
41310编辑于 2025-03-21
NCCL(Nvidia Collective multi-GPU Communication Library) Nvidia英伟达的Multi-GPU多卡通信框架NCCL 学习；PCIe 速率调研；
(较为优秀的文章) 使用NCCL进行NVIDIA GPU卡之间的通信（GPU卡通信模式测试） nvidia-nccl 学习笔记（主要是一些接口介绍） https://developer.nvidia.com /nccl (官方网站) https://github.com/NVIDIA/nccl （官方仓库） https://www.cnblogs.com/xuyaowen/p/heterogeneous-system-architecture.html /yourname/nccl/build/include (设置 C 头文件路径) export CPLUS_INCLUDE_PATH=/home/yourname/nccl/build/include (设置C++头文件路径) 测试是否安装成功： git clone https://github.com/NVIDIA/nccl-tests.git cd nccl-tests make CUDA_HOME =/path/to/cuda NCCL_HOME=/path/to/nccl （具体编译，可以参考官方文档） .
2.9K20发布于 2020-12-30
来自专栏AIUAI
Torch - Ubuntu安装torch-hdf5,loadcaffe,matio和nccl
or libmatio.dylib) in your library path 解决方案： sudo apt-get install libmatio2 luarocks install matio nccl 采用 multi-GPUs 训练时速度更高： git clone https://github.com/NVIDIA/nccl.git cd nccl make make install luarocks install nccl 如果出现 libnccl.so not found，在 ~/.bashrc 中设置 LD_LIBRARY_PATH.
1.9K40发布于 2019-02-18
来自专栏daos
Nvidia-NCCL-GPU集合通信接口简介_源码笔记
术语nccl: NVIDIA Collective Communications Library (NCCL) 集合通信接口常用链接NCCL开发者文档: https://developer.nvidia.com /nccl用户文档: https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/index.html项目主页: https://github.com /NVIDIA/nccl介绍针对 GPU 间通信的优化原语NCCL（发音为“Nickel”）是 GPU 标准通信例程的独立库，可实现全归约、全收集、归约、广播、归约分散以及任何基于发送/接收的通信模式。 NCCL 支持在单个节点或跨多个节点安装任意数量的 GPU，并且可用于单进程或多进程（例如 MPI）应用程序源码阅读笔记GIT仓库: https://github.com/ssbandjl/nccl.git Comm can be either a sendComm or a recvComm. // Type is either NCCL_PTR_HOST or NCCL_PTR_CUDA.
3.1K02编辑于 2023-11-24
利用NCCL Inspector增强AI工作负载通信可观测性
作为多GPU和多节点通信的关键组件，每个使用NCCL的框架都能受益于NCCL Inspector提供的详细可观测性。在数据收集步骤中，NCCL Inspector库指示NCCL其应发出哪些特定的集体操作事件。用户可以通过NCCL_PROFILER_PLUGIN环境变量加载该库（例如，深度学习框架）。然后，NCCL Inspector监听NCCL发出的已订阅事件，并为每个事件生成结构化的JSON输出，从而能够深入了解NCCL集体操作的性能特征。 NCCL Inspector的关键特性使NCCL Inspector颇具实用价值的一些关键特性包括：按通信器跟踪：NCCL Inspector为每个NCCL通信器维护独立的跟踪。性能指标：NCCL Inspector计算并报告关键性能指标，包括：算法带宽总线带宽执行时间（微秒）消息大小和集体操作类型网络技术无关性：NCCL Inspector利用插件接口与NCCL集成。
16800编辑于 2026-01-11
来自专栏AutoML(自动机器学习)
RuntimeError: NCCL error in:torchcsrcdistributedc10dProcessGroupNCCL.cpp:1248, unhandled system
imagenet/main.py跑ImageNet分布式训练，运行命令是 python main.py --dist-url 'tcp://127.0.0.1:8888' --dist-backend 'nccl _verify_params_across_processes(self.process_group, parameters) RuntimeError: NCCL error in: /opt/pytorch /pytorch/torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1248, unhandled system error, NCCL version It can be also caused by unexpected exit of a remote peer, you can check NCCL warnings for failure reason 最后实测，在运行命令前面加上如下命令后就可以正常跑了 export NCCL_IB_DISABLE=1; export NCCL_P2P_DISABLE=1; NCCL_DEBUG=INFO python
3.3K10编辑于 2022-09-20
来自专栏RDMA
MNNVL（Multi-Node NvLink）、NCCL超节点集合通信
前言NCCL、ACCL等集合通信库发展的早期，并没有超节点（SuperNode/SuperPod）的概念，这些集合通信库是如何支撑超节点集合通信的？哈哈哈，本文分享：1、什么是超节点2、非超节点的传统集合通信3、超节点集合通信哈哈哈，针对本文的部分视频说明：MNNVL 超节点集合通信初识、NCCL、SuperPod、SuperNode，scale-up 当然探微芯联ACCL集合通信库也支持不合并AccSwitch交换芯的拓扑架构，来进行通信优化，这又是另外一套了，挖个坑，有时间再介绍，哈哈哈，此次我们还是偏NCCL。当然ACCL/NCCL超节点还有在网计算、Symmetric Memory对称内存、单端put/fetch操作，AccSwitch/NvSwitch特性等等。记得点个关注、我们下次有时间继续分享。
57510编辑于 2025-11-30
来自专栏AI研习社
如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL？
深度学习中常常需要多GPU并行训练，而Nvidia的NCCL库NVIDIA/nccl（https://github.com/NVIDIA/nccl）在各大深度学习框架（Caffe/Tensorflow/ Torch/Theano）的多卡并行中经常被使用，请问如何理解NCCL的原理以及特点？下面分别从以下几个方面来介绍NCCL的特点，包括基本的communication primitive、ring-base collectives、NCCL在单机多卡上以及多机多卡实现、最后分享实际使用NCCL NCCL实现 NCCL实现成CUDA C++ kernels，包含3种primitive operations： Copy，Reduce，ReduceAndCopy。以上就是对NCCL的一些理解，很多资料也是来自于NCCL的官方文档，欢迎交流讨论。
4.5K91发布于 2018-03-19
来自专栏AI科技评论
开发 | 如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL？
问题详情：深度学习中常常需要多GPU并行训练，而Nvidia的NCCL库NVIDIA/nccl（https://github.com/NVIDIA/nccl）在各大深度学习框架（Caffe/Tensorflow /Torch/Theano）的多卡并行中经常被使用，请问如何理解NCCL的原理以及特点？下面分别从以下几个方面来介绍NCCL的特点，包括基本的communication primitive、ring-base collectives、NCCL在单机多卡上以及多机多卡实现、最后分享实际使用NCCL （3）NCCL实现 NCCL实现成CUDA C++ kernels，包含3种primitive operations： Copy，Reduce，ReduceAndCopy。以上就是对NCCL的一些理解，很多资料也是来自于NCCL的官方文档，欢迎交流讨论。
3.9K80发布于 2018-03-14
来自专栏集合通信
NCCL源码1：官网案例详解，单进程单设备使用调用案例
NCCL使用/调用步骤源码解读（单设备单进程为例）：步骤总结：通过MPI获取本机rank(可理解为进程)数量localrank，用于rank绑定GPU；rank0获取NCCL通信组ID，并通过MPI_Bcast 广播给其它rank；借助MPI获取的这些信息NCCL完成初始化，并进行集合通信。（哈希值就是主机名，其实可以用主机名来获取主机上参与通信的总rank数，只是主机命名五花八门，哈希值更容易比较）4、rank0上获取NCCL的唯一ID，并MPI_Bcast广播给其它rank。 6、初始化NCCL通信器。7、nccl allreduce通信。同步CUDA流，确保通信完成。8、释放缓冲区。9、销毁通信器。：NCCL源码解读2：ncclGetUniqueId(&id)函数源码解读
1.3K10编辑于 2024-07-13
来自专栏星融元
案例验证：分析NCCL-Tests运行日志优化Scale-Out网络拓扑
工具说明：NCCL-TestsNVIDIA提供的NCCL是当前面向AI的集合通信事实标准，NCCL-Test 是 NVIDIA 开源的工具，我们可以在官方Github下载来进行不同算法的性能测试（例如： =INFO #NCCL的调试级别为info -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_HCA=mlx5_0:1,mlx5_2:1,mlx5_3:1,mlx5_4 -x PATH -x NCCL_IBEXT_DISABLE=1 #如使用RoCE网络，此处应禁用 -x NCCL_ALGO=ring /root/nccl-tests/build/all_reduce_perf 为了更好的利用带宽和网卡实现并发通信，NCCL会使用多channel。 NCCL-test运行日志里列出了16组channel如下：### ChannelNum:16 bm-2204kzq:252978:253054 [0] NCCL INFO Channel 00/
1.3K10编辑于 2024-11-13
来自专栏RDMA
Simple、LL、LL128三种集合通信协议，NCCL源码介绍
NCCL源码解读介绍_哔哩哔哩_bilibili三种通信协议：Simple、LL、LL128LL：L(ow)L(atency)协议优化NCCL小数据量传输，小数据量情况下，打不满传输带宽时，优化点同步带来的延迟 LL128能够以较低的延迟达到较大的带宽率，NCCL会在带有NVLink的机器上默认使用该协议。 NCCL 使用 3 种不同的协议：LL、LL128 和 Simple，它们具有不同的延迟（~1us、~2us 和 ~6us）、不同的带宽（50%、95% 和 100%），以及其他影响其性能的差异。 NCCL源码解读介绍_哔哩哔哩_bilibiliNCCL Simple、LL、LL128
45810编辑于 2025-10-07
H800_3.2T RDMA测试指导文档
NCCL插件安装和环境变量 2.1 安装高性能NCCL插件 // Ubuntu 20.04 dpkg -r nccl-rdma-sharp-plugins wget https://taco-1251783334 .cos.ap-shanghai.myqcloud.com/nccl/nccl-rdma-sharp-plugins_1.2_amd64.deb && dpkg -i nccl-rdma-sharp-plugins /nccl/nccl-rdma-sharp-plugins-1.2-1.x86_64.rpm && rpm -ivh --nodeps --force nccl-rdma-sharp-plugins-1.2 -1.x86_64.rpm 2.2 配置NCCL环境变量 export NCCL_DEBUG=INFO export NCCL_SOCKET_IFNAME=eth0 export NCCL_IB_GID_INDEX 4 export NCCL_IB_TC=160 export NCCL_IB_TIMEOUT=22 2.3 确认插件被加载如果想卸载NCCL插件，请执行如下命令： // Ubuntu 20.04 dpkg
1.2K10编辑于 2024-10-22
来自专栏信数据得永生
PyTorch 1.0 中文文档：torch.distributed
默认情况下，Gloo和NCCL后端构建并包含在PyTorch的分布之中（仅在使用CUDA构建时为NCCL）。MPI是一个可选的后端，只有从源代码构建PyTorch时才能包含它。经验法则使用NCCL后端进行分布式 GPU 训练。使用Gloo后端进行分布式 CPU 训练。具有InfiniBand互连的GPU主机使用NCCL，因为它是目前唯一支持InfiniBand和GPUDirect的后端。 GPU主机与以太网互连使用NCCL，因为它目前提供最佳的分布式GPU训练性能，特别是对于多进程单节点或多节点分布式训练。如果您遇到NCCL的任何问题，请使用Gloo作为后备选项。（请注意，Gloo目前运行速度比GPU的NCCL慢。）阅读全文／改进本文
82920编辑于 2022-05-07

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

cuDNN和NCCL

nccl-test 使用指引

【教程】简介nccl-test工具

讲解Distributed package doesn‘t have NCCL built in

NCCL与RDMA和MPI基本框架源码分析

NCCl API ncclCommInitAll功能实现，测试和结果验证

NCCl API ncclGetUniqueId功能实现，测试和结果验证

NCCL(Nvidia Collective multi-GPU Communication Library) Nvidia英伟达的Multi-GPU多卡通信框架NCCL 学习；PCIe 速率调研；

Torch - Ubuntu安装torch-hdf5,loadcaffe,matio和nccl

Nvidia-NCCL-GPU集合通信接口简介_源码笔记

利用NCCL Inspector增强AI工作负载通信可观测性

RuntimeError: NCCL error in:torchcsrcdistributedc10dProcessGroupNCCL.cpp:1248, unhandled system

MNNVL（Multi-Node NvLink）、NCCL超节点集合通信

如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL？

开发 | 如何理解Nvidia英伟达的Multi-GPU多卡通信框架NCCL？

NCCL源码1：官网案例详解，单进程单设备使用调用案例

案例验证：分析NCCL-Tests运行日志优化Scale-Out网络拓扑

Simple、LL、LL128三种集合通信协议，NCCL源码介绍

H800_3.2T RDMA测试指导文档

PyTorch 1.0 中文文档：torch.distributed

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐