搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

nvprof 使用记录; 以及使用 nvprof 查看tensorflow-gpu 核函数运行记录
off --print-gpu-trace python run.py nvprof --unified-memory-profiling off --print-gpu-trace -o prof.nvvp python run.py nvvp prof.nvvp (使用 x11 forwarding) . (可以使用x11 forwarding 使用，当然更适合在本机使用) nvprof -o prof.nvvp python train_mnist.py （在GPU集群上生成 .nvvp文件） scp your_gpu_machine:/path/to/prof.nvvp . （scp 拷贝文件到本地） nvvp prof.nvvp （在本地机器上进行可视化分析）参考链接： https://blog.csdn.net/yinhuier/article/details/80551268
1.8K10发布于 2020-12-30
来自专栏GPUS开发者
如何轻松了解深度学习模型中使用了混合精度？
Nvprof and NVVP nvprof和nvvp分析工具已被CUDA开发人员广泛用于分析。您可以在VisualProfiler中分析应用程序。探查器最初显示时间线。
2.5K40发布于 2019-04-29
来自专栏山河已无恙
Nvidia 3060显卡 CUDA环境搭建(Ubuntu22.04+Nvidia 510+Cuda11.6+cudnn8.8)
cu++filt nsight-sys nvdisasm nvvp --silent --driver Logfile is /var/log/cuda-installer.log ┌──[root@test]-[~] └─$ 解决办法，换了低版本的510 运行 nvvp 报错 ┌──[root@test]-[~] └─$nvvp Nvvp: Cannot open display: WARNING: An illegal reflective access operation reflective access operations WARNING: All illegal access operations will be denied in a future release Nvvp : Cannot open display: Nvvp: An error has occurred.
2.9K30编辑于 2023-08-21
来自专栏GPUS开发者
是时候用NVIDIA Nsight 分析优化工具了！
这是一系列文章中的第一篇，旨在帮助简化从NVVP (NVVP)或nvprof到NVIDIA Nsight工具的转换。这些新工具功能强大、速度快、功能丰富，允许您更快地找到解决方案。对于nvprof的用户对于nvprof的用户（你可以理解成nvvp的命令行版本），同样有个命令行的nv-nsight-cu-cli可以对应，表2中列出了以前nvprof能做的，和现在改成了用哪个工具能做
31.6K53发布于 2019-07-22
来自专栏专栏名称都被占用了
TKE集群ubuntu 16.04节点更新GPU驱动和CUDA Toolkit
-10-0 10.0.130-1 amd64 CUDA nvvp -10-0 10.0.130-1 amd64 CUDA nvvp ii cuda-nvvp-10-2 10.2.89-1 amd64 CUDA nvvp ii cuda-repo-ubuntu1604-10-0-local-10.0.130-410.48 1.0-1 -10-2 10.2.89-1 amd64 CUDA nvvp
1.9K30发布于 2021-07-19
来自专栏编程杂记
【参加CUDA线上训练营】——初识CUDA
global__ 在device上执行 CUDA程序的编译 cuda编译用nvcc 从.cu 编译为.o,再从.o编译为可执行文件 NVPROF 分析工具分析命令： nvprof -o out.nvvp
39410编辑于 2024-01-17
来自专栏GPUS开发者
对于CUDA Fortran开发者来说，函数传参真这么麻烦么？
nvvp分析结果： ?
1K60发布于 2018-04-02
来自专栏GPUS开发者
DAY53：阅读Profiler Counter Function
我们都知道, 一般情况下的开发, 是在开发机器的显卡上, 通过nvprof或者nvvp来做profiling的(性能分析) 这种方式, 通过通过命令行或者图形界面的用户交互,逐步的用户发现当前代码运行后可能出现的性能问题这种方式有一定的问题, 主要集中在两点上: (1)开发时候的卡, 不一定是最终生产运行时候的卡.例如你可以使用GP100上开发, 最后交付后, 客户在Titan-V上运行.此时如果再要求使用图形界面的NVVP
93820发布于 2018-08-01
来自专栏小陈运维
人工智能NVIDIA显卡计算（CUDA+CUDNN）平台搭建
cuda-nvml-dev-11-3 cuda-nvprof-11-3 cuda-nvprune-11-3 cuda-nvrtc-11-3 cuda-nvrtc-dev-11-3 cuda-nvtx-11-3 cuda-nvvp local cuda-nvml-dev-11-3 11.3.58-1 [73.3 kB] 获取:55 file:/var/cuda-repo-ubuntu2004-11-3-local cuda-nvvp 正在选中未选择的软件包 cuda-nvvp-11-3。准备解压 .../54-cuda-nvvp-11-3_11.3.111-1_amd64.deb ... 正在解压 cuda-nvvp-11-3 (11.3.111-1) ... 正在选中未选择的软件包 cuda-visual-tools-11-3。正在设置 cuda-nvvp-11-3 (11.3.111-1) ... 正在设置 libcusolver-dev-11-3 (11.1.2.109-1) ...
1.8K20发布于 2021-10-13
来自专栏GPUS开发者
CUDA优化的冷知识13 |从Global memory到Shared memory
虽说上次内容, 我们都知道, 可以依靠切换warp, 让SM执行其他没有卡住的warp中的内容,但是实际上你在用老nvprof/nvvp或者新的nsight compute的时候, 在选择了PC Sampling
1.7K30发布于 2021-01-20
来自专栏集智书童
AI部署篇 | CUDA学习笔记2：矩阵乘法与GPU优化(附CUDA代码)
假设矩阵规模为 width=32，执行配置 blockSize=(32, 32, 1)，gridSize=(1, 1, 1)，使用上述的 Kernel 函数进行计算，在 NVVP 中 Memory Bandwidth Analysis 结果如下： img 按照前面的计算方式，Global Memory Load 次数为次，Store 次数为 1024 次；而 NVVP 显示的读取次数为 5120 次；写入次数为 gridSize=(1,1,1), Global Memory Load Transaction数目为: width×width÷32×width×5=32×32÷32×32×5=5120 分析结果与 NVVP
7.3K43编辑于 2022-02-10
来自专栏信数据得永生
Succinctly 中文系列教程 20220109 更新
生成的内容和计算九、技巧大全 Succinctly CUDA 教程一、引言二、创建 CUDA 项目三、架构四、第一个内核五、从 C++ 移植六、共享内存七、共享内存阻塞八、英伟达视觉轮廓仪(NVVP
6.6K30编辑于 2022-04-02
来自专栏GPUS开发者
DAY25: 阅读硬件的多线程
我需要额外的说一下，如果没有安装office也没有关系，可以直接上profiler（包括NVVP，或者nsight自带的那个小profiler）里面也会告诉你，当前某kernel受限于什么，导致occupancy
77540发布于 2018-06-22
来自专栏新智元
【深度】TensorFlow or TensorSlow，谷歌基准测试为何不给力？（附Google内部员工测试代码下载）
这些代码是用Eigen写的，与nvcc的交互不是很好，导致了不少额外开销（你可以通过在nvvp运行benchmark来观察到这一点，像之前Scott建议的那样）。
1.4K40发布于 2018-03-13
来自专栏皮皮鲁的AI星球
GPU加速03:多流和共享内存—让你的CUDA程序如虎添翼的优化技术！
英伟达提供了非常强大的性能分析器nvprof和可视化版nvvp，使用性能分析器能监控到当前程序的瓶颈。据我了解，分析器只支持C/C++编译后的可执行文件，Python Numba目前应该不支持。
5.9K21发布于 2019-12-26
来自专栏计算机视觉理论及其实现
Automatic differentiation package - torch.autograd
然后，NVIDIA Visual Profiler (nvvp)可以用来可视化时间轴，或者torch.autograd.profiler.load_nvprof()可以加载结果以供检查，例如在Python
1.9K10编辑于 2022-09-03
cuda和显卡驱动对应版本关系
Linux, Windows, WSL NVTX 12.4.99 x86_64, arm64-sbsa, POWER, aarch64-jetson Linux, Windows, WSL CUDA NVVP
4.1K10编辑于 2025-07-20

nvprof 使用记录; 以及使用 nvprof 查看tensorflow-gpu 核函数运行记录

如何轻松了解深度学习模型中使用了混合精度？

Nvidia 3060显卡 CUDA环境搭建(Ubuntu22.04+Nvidia 510+Cuda11.6+cudnn8.8)

是时候用NVIDIA Nsight 分析优化工具了！

TKE集群ubuntu 16.04节点更新GPU驱动和CUDA Toolkit

【参加CUDA线上训练营】——初识CUDA

对于CUDA Fortran开发者来说，函数传参真这么麻烦么？

DAY53：阅读Profiler Counter Function

人工智能NVIDIA显卡计算（CUDA+CUDNN）平台搭建

CUDA优化的冷知识13 |从Global memory到Shared memory

AI部署篇 | CUDA学习笔记2：矩阵乘法与GPU优化(附CUDA代码)

Succinctly 中文系列教程 20220109 更新

DAY25: 阅读硬件的多线程

【深度】TensorFlow or TensorSlow，谷歌基准测试为何不给力？（附Google内部员工测试代码下载）

GPU加速03:多流和共享内存—让你的CUDA程序如虎添翼的优化技术！

Automatic differentiation package - torch.autograd

cuda和显卡驱动对应版本关系

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐