搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

如何编写PTX 代码
提高指令级并行性使用共享内存（shared memory）减少全局内存访问合理分配寄存器，避免寄存器溢出使用 PTX 的特殊指令优化热点代码四、将 PTX 转换为机器代码使用 ptxas 工具 NVIDIA 提供的 ptxas 工具可以将 PTX 代码编译为特定 GPU 架构的机器代码。例如： ptxas my_kernel.ptx -o my_kernel.o -gencode arch=compute_86,code=sm_86 这里，-gencode
1.2K10编辑于 2025-04-05
来自专栏GPUS开发者
Titan V做计算真的这么不靠谱么？
continue using __ballot(), specify virtual architecture compute_60 when targeting sm_70 and above ptxas Instruction 'vote' without '.sync' may produce unpredictable results on sm_70 and later architectures ptxas
3.1K20发布于 2018-09-29
来自专栏10km的专栏
cuda8+cuDNN Faster R-CNN安装塈运行demo
include/python2.7 -c nms/nms_kernel.cu -o build/temp.linux-x86_64-2.7/nms/nms_kernel.o -arch=sm_35 –ptxas-options =-v -c –compiler-options ‘-fPIC’ ptxas info : 0 bytes gmem ptxas info : Compiling entry function ‘_Z10nms_kernelifPKfPy’ for ‘sm_35’ ptxas info : Function properties for _Z10nms_kernelifPKfPy 0 bytes stack frame, 0 bytes spill stores, 0 bytes spill loads ptxas info : Used 25 registers
1.7K60发布于 2018-01-03
来自专栏GPUS开发者
NVIDIA 与 AMD GPU 指令集到底差在哪？看懂为什么代码移植很难保住性能
编译器ptxas会把所有调度决策直接编译进二进制，硬件拿到就按写好的流程跑。 AMD 指令只有32 位或 64 位，不带任何调度信息。五、编译器：闭源黑盒 vs 开源透明 NVIDIA ptxas 编译器完全闭源。延迟表、调度策略都是商业机密，你看不到它对你的代码做了什么。 AMD 整套编译器基于开源 LLVM。
27110编辑于 2026-03-05
来自专栏GiantPandaCV
OpenAI/Triton MLIR 第零章: 源码编译
同时，可以在build目录下去检查对应的三个bin tool: triton-opt, triton-reduce, triton-translate 然后将本机下的ptxas复制到该build目录下，我的ptxas在(/usr/local/cuda-11.6/bin)下。
2.5K50编辑于 2023-08-25
来自专栏流川疯编写程序的艺术
windows 11 搭建 TensorFlow GPU 开发环境【RTX 3060】：2 -- 基于WSL2 docker 方式的使用
deprecated, and may be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning). ptxas warning : For profile sm_86 adjusting per thread register count of 16 to lower bound of 24 ptxas warning : For profile sm_75 adjusting per thread register count of 16 to lower bound of 24 ptxas warning : For profile sm_70 adjusting per thread register count of 16 to lower bound of 24 ptxas warning : For profile
3.9K30编辑于 2021-12-08
来自专栏GPUS开发者
CUDA新手要首先弄清楚的这些问题
答复：将选项“--ptxas-options=-v”添加到nvcc命令行。编译时，这些信息将输出到控制台。 12 问：CUDA kernel的最大长度是多少?
2.2K10发布于 2019-11-11
来自专栏机器之心
业界 | 谷歌正式发布TensorFlow 1.5：终于支持CUDA 9和cuDNN 7
GPU 后端现在使用 ptxas 以编译生成的 PTX。 BufferAssignment 的协议缓存转储（protocol buffer dump）现在已确定。
1.3K60发布于 2018-05-11
来自专栏GPUS开发者
DAY32：阅读local Memory
Also, the compiler reports total local memory usage per kernel (lmem) when compiling with the --ptxas-options 本章节还提到了cuobjdump以及, 编译时刻的--ptxas-options=v参数, 这些都很有用.
76631发布于 2018-06-25
来自专栏新智元
TensorFlow正式发布1.5.0，支持CUDA 9和cuDNN 7，双倍提速
GPU后端现在使用ptxas编译生成的PTX。 BufferAssignment的协议缓冲区转储现在是确定性的。将嵌入操作更改为使用DynamicStitch的并行版本。
1.4K60发布于 2018-03-20
来自专栏Fish
CUDA C最佳实践-CUDA Best Practices(二)
还能使用–ptxas-options=-v这个选项来看Local到底用了多少。 9.2.4.
2.6K100发布于 2018-01-09
来自专栏wOw的Android小站
[Tensorflow] Faster R-CNN 和自定义 VOC 数据集
Wno-unused-function"], 'nvcc': ['-arch=sm_52', '--ptxas-options
3.3K20发布于 2018-09-18
来自专栏GPUS开发者
DAY58:阅读Launch Bounds
Register usage is reported by the --ptxas options=-v compiler option.
1.5K10发布于 2018-08-01
来自专栏GPUS开发者
DAY28：阅读如何计算Occupancy
而这些是手册不说的，本表格是直接的一手信息来源（NV），使用该表格需要知道一些信息，例如kernel使用了多少寄存器，这个信息可以在编译的时候通过ptxas的详细输出得到，手册的后面会提到如何得到这个信息
1.7K40发布于 2018-06-25
来自专栏山河已无恙
Nvidia 3060显卡 CUDA环境搭建(Ubuntu22.04+Nvidia 510+Cuda11.6+cudnn8.8)
cuobjdump nsys nvlink ptxas
2.9K30编辑于 2023-08-21
来自专栏GPUS开发者
DAY27:阅读多处理器
Register and shared memory usage are reported by the compiler when compiling with the -ptxas-options=
64730发布于 2018-06-25
cuda和显卡驱动对应版本关系
从 CUDA 12.4 开始，-pic当编译模式为整个程序编译时，PTXAS 默认启用位置无关代码 ( )。-pic=false用户可以通过指定PTXAS 选项来选择退出。
4.1K10编辑于 2025-07-20
来自专栏机器之心
如何高效实现矩阵乘？万文长字带你从CUDA初学者的角度入门
关于 Occupancy 的计算我们可以通过在编译时添加 --ptxas-options=-v 参数，使编译器在编译时输出每个 kernel 所花费的寄存器数量和 shared memory，然后通过随
3.8K31编辑于 2022-12-16

如何编写PTX 代码

Titan V做计算真的这么不靠谱么？

cuda8+cuDNN Faster R-CNN安装塈运行demo

NVIDIA 与 AMD GPU 指令集到底差在哪？看懂为什么代码移植很难保住性能

OpenAI/Triton MLIR 第零章: 源码编译

windows 11 搭建 TensorFlow GPU 开发环境【RTX 3060】：2 -- 基于WSL2 docker 方式的使用

CUDA新手要首先弄清楚的这些问题

业界 | 谷歌正式发布TensorFlow 1.5：终于支持CUDA 9和cuDNN 7

DAY32：阅读local Memory

TensorFlow正式发布1.5.0，支持CUDA 9和cuDNN 7，双倍提速

CUDA C最佳实践-CUDA Best Practices(二)

[Tensorflow] Faster R-CNN 和自定义 VOC 数据集

DAY58:阅读Launch Bounds

DAY28：阅读如何计算Occupancy

Nvidia 3060显卡 CUDA环境搭建(Ubuntu22.04+Nvidia 510+Cuda11.6+cudnn8.8)

DAY27:阅读多处理器

cuda和显卡驱动对应版本关系

如何高效实现矩阵乘？万文长字带你从CUDA初学者的角度入门

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐