首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 如何编写PTX 代码

    提高指令级并行性 使用共享内存(shared memory)减少全局内存访问 合理分配寄存器,避免寄存器溢出 使用 PTX 的特殊指令优化热点代码 四、将 PTX 转换为机器代码 使用 ptxas 工具 NVIDIA 提供的 ptxas 工具可以将 PTX 代码编译为特定 GPU 架构的机器代码。 例如: ptxas my_kernel.ptx -o my_kernel.o -gencode arch=compute_86,code=sm_86 这里,-gencode

    1.2K10编辑于 2025-04-05
  • 来自专栏GPUS开发者

    Titan V做计算真的这么不靠谱么?

    continue using __ballot(), specify virtual architecture compute_60 when targeting sm_70 and above ptxas Instruction 'vote' without '.sync' may produce unpredictable results on sm_70 and later architectures ptxas

    3.1K20发布于 2018-09-29
  • 来自专栏10km的专栏

    cuda8+cuDNN Faster R-CNN安装塈运行demo

    include/python2.7 -c nms/nms_kernel.cu -o build/temp.linux-x86_64-2.7/nms/nms_kernel.o -arch=sm_35 –ptxas-options =-v -c –compiler-options ‘-fPIC’ ptxas info : 0 bytes gmem ptxas info : Compiling entry function ‘_Z10nms_kernelifPKfPy’ for ‘sm_35’ ptxas info : Function properties for _Z10nms_kernelifPKfPy 0 bytes stack frame, 0 bytes spill stores, 0 bytes spill loads ptxas info : Used 25 registers

    1.7K60发布于 2018-01-03
  • 来自专栏GPUS开发者

    NVIDIA 与 AMD GPU 指令集到底差在哪?看懂为什么代码移植很难保住性能

    编译器ptxas会把所有调度决策直接编译进二进制,硬件拿到就按写好的流程跑。 AMD 指令只有32 位或 64 位,不带任何调度信息。 五、编译器:闭源黑盒 vs 开源透明 NVIDIA ptxas 编译器完全闭源。 延迟表、调度策略都是商业机密,你看不到它对你的代码做了什么。 AMD 整套编译器基于开源 LLVM。

    27110编辑于 2026-03-05
  • 来自专栏GiantPandaCV

    OpenAI/Triton MLIR 第零章: 源码编译

    同时,可以在build目录下去检查对应的三个bin tool: triton-opt, triton-reduce, triton-translate 然后将本机下的ptxas复制到该build目录下, 我的ptxas在(/usr/local/cuda-11.6/bin)下。

    2.5K50编辑于 2023-08-25
  • 来自专栏流川疯编写程序的艺术

    windows 11 搭建 TensorFlow GPU 开发环境【RTX 3060】:2 -- 基于WSL2 docker 方式的使用

    deprecated, and may be removed in a future release (Use -Wno-deprecated-gpu-targets to suppress warning). ptxas warning : For profile sm_86 adjusting per thread register count of 16 to lower bound of 24 ptxas warning : For profile sm_75 adjusting per thread register count of 16 to lower bound of 24 ptxas warning : For profile sm_70 adjusting per thread register count of 16 to lower bound of 24 ptxas warning : For profile

    3.9K30编辑于 2021-12-08
  • 来自专栏GPUS开发者

    CUDA新手要首先弄清楚的这些问题

    答复:将选项“--ptxas-options=-v”添加到nvcc命令行。编译时,这些信息将输出到控制台。 12 问:CUDA kernel的最大长度是多少?

    2.2K10发布于 2019-11-11
  • 来自专栏机器之心

    业界 | 谷歌正式发布TensorFlow 1.5:终于支持CUDA 9和cuDNN 7

    GPU 后端现在使用 ptxas 以编译生成的 PTX。 BufferAssignment 的协议缓存转储(protocol buffer dump)现在已确定。

    1.3K60发布于 2018-05-11
  • 来自专栏GPUS开发者

    DAY32:阅读local Memory

    Also, the compiler reports total local memory usage per kernel (lmem) when compiling with the --ptxas-options 本章节还提到了cuobjdump以及, 编译时刻的--ptxas-options=v参数, 这些都很有用.

    76631发布于 2018-06-25
  • 来自专栏新智元

    TensorFlow正式发布1.5.0,支持CUDA 9和cuDNN 7,双倍提速

    GPU后端现在使用ptxas编译生成的PTX。 BufferAssignment的协议缓冲区转储现在是确定性的。 将嵌入操作更改为使用DynamicStitch的并行版本。

    1.4K60发布于 2018-03-20
  • 来自专栏Fish

    CUDA C最佳实践-CUDA Best Practices(二)

    还能使用–ptxas-options=-v这个选项来看Local到底用了多少。 9.2.4.

    2.6K100发布于 2018-01-09
  • 来自专栏wOw的Android小站

    [Tensorflow] Faster R-CNN 和自定义 VOC 数据集

    Wno-unused-function"], 'nvcc': ['-arch=sm_52', '--ptxas-options

    3.3K20发布于 2018-09-18
  • 来自专栏GPUS开发者

    DAY58:阅读Launch Bounds

    Register usage is reported by the --ptxas options=-v compiler option.

    1.5K10发布于 2018-08-01
  • 来自专栏GPUS开发者

    DAY28:阅读如何计算Occupancy

    而这些是手册不说的,本表格是直接的一手信息来源(NV),使用该表格需要知道一些信息,例如kernel使用了多少寄存器,这个信息可以在编译的时候通过ptxas的详细输出得到,手册的后面会提到如何得到这个信息

    1.7K40发布于 2018-06-25
  • 来自专栏山河已无恙

    Nvidia 3060显卡 CUDA环境搭建(Ubuntu22.04+Nvidia 510+Cuda11.6+cudnn8.8)

    cuobjdump nsys nvlink ptxas

    2.9K30编辑于 2023-08-21
  • 来自专栏GPUS开发者

    DAY27:阅读多处理器

    Register and shared memory usage are reported by the compiler when compiling with the -ptxas-options=

    64730发布于 2018-06-25
  • cuda和显卡驱动对应版本关系

    从 CUDA 12.4 开始,-pic当编译模式为整个程序编译时,PTXAS 默认启用位置无关代码 ( )。-pic=false用户可以通过指定PTXAS 选项来选择退出。

    4.1K10编辑于 2025-07-20
  • 来自专栏机器之心

    如何高效实现矩阵乘?万文长字带你从CUDA初学者的角度入门

    关于 Occupancy 的计算我们可以通过在编译时添加 --ptxas-options=-v 参数,使编译器在编译时输出每个 kernel 所花费的寄存器数量和 shared memory,然后通过随

    3.8K31编辑于 2022-12-16
领券