搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏GPUS开发者
DAY3：阅读CUDA C编程接口
host code and then: · compiling the device code into an assembly form (PTX code) and/or binary form (cubin host code (if any) and use the CUDA driver API (see Driver API) to load and execute the PTX code or cubin A cubin object is generated using the compiler option -code that specifies the targeted architecture: In other words, a cubin object generated for compute capability X.y will only execute on devices of compute 为一种卡编译出来的SASS（例如cubin）只能在这种架构的卡上用。不像PTX那样通用。（二进制兼容性就像你的CPU。你的一个exe可能是10年前的。
1.4K30发布于 2018-06-25
BASIC语言实现CUDA Tile GPU编程
运行示例如果安装了正确版本的CUDA Toolkit和Python，并从GitHub下载了cuTile BASIC仓库，可以执行以下命令：$ python examples/vector_add.py[1/2] 编译为cubin 运行示例输出如下：$ python examples/gemm.py[1/2] 编译为cubin ...
17610编辑于 2026-04-30
来自专栏计算机视觉理论及其实现
nvcc简介
在生成可执行程序的过程中可以根据nvcc选项选择是否将ptx文本指令(x.ptx中间文件中)、二进制指令（x.cubin中间文件）嵌入到可执行程序中，一般有3种嵌入方式：只嵌入x.ptx（第二阶段被忽略，全部依赖just-in-time compilation）；只嵌入x.cubin（无法进行just-in-time compilation）；两者都嵌入（运行过程中driver找到合适二进制指令镜像则加载之
3.5K30编辑于 2022-09-02
来自专栏AutoML(自动机器学习)
显卡，显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn到底是什么？
.o/.obj 目标文件，编译选项--compile/-c .a/.lib 库文件，编译选项--lib/-lib .res 资源文件 .so 共享目标文件，编译选项--shared/-shared .cubin cuda的二进制文件，编译选项-cubin nvidia-smi nvidia-smi全程是NVIDIA System Management Interface ，它是一个基于前面介绍过的NVIDIA driver API也是语言独立的，因为它只处理cubin对象。上下文管理上下文管理可以通过driver API完成，但是在runtime API中不公开。
4.8K31发布于 2020-06-12
来自专栏GPUS开发者
DAY83：阅读Compute Capability 7.x
甚至NV在官网文档中强调，Turing可以几乎全效率的执行Volta的cubin，而不需要重新编译。这说明这两者很大程度上还是有些类似的。但是Turing能在不使用新特性的情况下（主要是新tensor core指令）可以完全无碍的全速指令Volta的cubin，说明这点的确可以。
1.4K20发布于 2018-11-06
来自专栏GPUS开发者
Titan V做计算真的这么不靠谱么？
因为这样的参数再运行的时候, runtime或者驱动会发现里面的cubin不能运行的,因为版本不对，会强制从PTX来一次重新动态jit编译，而此时的这种编译会自动注意到兼容问题，例如ballot的时候总是用
3.2K20发布于 2018-09-29
来自专栏AutoML(自动机器学习)
显卡，显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn区别？
编译选项--lib/-lib .res 资源文件 .so 共享目标文件，编译选项--shared/-shared .cubin cuda的二进制文件，编译选项-cubin nvidia-smi nvidia-smi全程是NVIDIA System Management Interface ，它是一个基于前面介绍过的 driver API也是语言独立的，因为它只处理cubin对象。上下文管理上下文管理可以通过driver API完成，但是在runtime API中不公开。
16.9K114发布于 2019-11-11
来自专栏GPUS开发者
DAY58:阅读Launch Bounds
需要注意的是, 本章的launch bounds最终的影响发生在PTX->CUBIN的工程中, 而不是发生在CUDA C -> PTX的过程中, 这是因为CUDA C层次没有寄存器的概念(只有私有变量所以最终实际发生在CUBIN/SASS的生成中，这是为何反复本章节手册, 提到PTX中的对应的2个directive的原因，不使用PTX的用户, 可以直接暂时无视它(例如需要使用一些CUDA C中没有的功能
1.5K10发布于 2018-08-01
来自专栏GPUS开发者
NVIDIA Blackwell RTX GPU与CUDA 12.8框架更新指南
正常的TensorRT引擎仅包含cubin代码，而前向兼容的硬件可以考虑PTX代码。
5.5K10编辑于 2025-02-04
来自专栏GiantPandaCV
【论文解读】基于MLIR生成矩阵乘法的高性能GPU代码，性能持平cuBLAS
然后使用NVIDIA的编译器将PTX转换为cubin（CUDA二进制格式）。NVIDIA的编译器通过MLIR的CUDA驱动程序API调用。 MLIR中的gpu-to-cubin pass可以访问驱动程序API，并为我们执行PTX到cubin的编译和嵌入。我们扩展了此pass以使用一些其它选项，例如优化级别和每个线程的最大寄存器数，这是将PTX编译到cubin时需要的。执行这些最终步骤的基础设施已经存在于 MLIR 中。
3.4K20编辑于 2022-04-06
来自专栏GPUS开发者
内核启动前，GPU已完成九层初始化：揭秘英伟达GPU完整固件栈
第八层：用户编译代码 —— 多层嵌套的指令封装我们编写的CUDA程序，并不会直接在GPU上运行，需要经过三层编译转换：fatbin通用二进制文件→ cubin设备二进制文件→ SASS GPU原生指令
11010编辑于 2026-06-24
来自专栏GPUS开发者
DAY5:阅读 CUDA C编程接口之CUDA C runtime
例如你的代码里只有cubin，但没有为当前显卡编译过，同时没有PTX存在的时候，或者有巨大的设备端数组，而原本开发是24GB的显卡，客户运行的时候却是一个只有1GB显存的显卡，这个时候，第一次你无论神马调用函数
1.7K40发布于 2018-06-25
来自专栏GPUS开发者
DAY67：阅读阅读Events、Synchronization和Device Management
实际上, 本章节最后的末尾段落, 提到动态并行和多卡的时候, 说到, 你不能跨卡通过动态并行启动kernel的.主要是因为一种考虑: 多卡上的同名kernel可能具有不同的binary(cubin)表示
56850发布于 2018-08-17
来自专栏【腾讯云开发者】
每个程序员都应该了解的GPU工作原理：从硬件到架构
06 程序加载 - cubin loading 6.1 程序启动操作系统加载可执行文件，CPU 开始执行主机代码。 4. cubin loading (cubin 是 CUDA binary 的缩写) a.
5.3K22编辑于 2025-07-09
来自专栏GPUS开发者
DAY34:阅读算术指令
multiple code paths depending on input. cuobjdump can be used to inspect a particular implementation in a cubin
84230发布于 2018-06-22
来自专栏福大大架构师每日一题
PyTorch v2.8.0 正式发布：量化推理、编译优化与分布式检查点等多项重大更新
custom_op_default_layout_constraint 从 inductor config 移动到 functorch config • emit_current_arch_binary 弃用 • aot_inductor.embed_cubin Intel GPU 性能分析器的功能 • 支持在 Intel GPU 上集成分布式内存跟踪器 • 改进 Intel GPU CMake 文件中的错误处理和报告 • 在 AOTI 中支持 embed_cubin
1.1K10编辑于 2025-12-18
来自专栏GPUS开发者
DAY 84:阅读 Driver API和CUDA Context
而且这里还需要有明确的PTX和CUBIN之分（这个下次说）。虽然很麻烦，但也换来了好处。
3.7K40发布于 2018-11-23
来自专栏GPUS开发者
DAY32：阅读local Memory
though if they find it consumes too much register space for the targeted architecture: Inspection of the cubin
85231发布于 2018-06-25

DAY3：阅读CUDA C编程接口

BASIC语言实现CUDA Tile GPU编程

nvcc简介

显卡，显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn到底是什么？

DAY83：阅读Compute Capability 7.x

Titan V做计算真的这么不靠谱么？

显卡，显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn区别？

DAY58:阅读Launch Bounds

NVIDIA Blackwell RTX GPU与CUDA 12.8框架更新指南

【论文解读】基于MLIR生成矩阵乘法的高性能GPU代码，性能持平cuBLAS

内核启动前，GPU已完成九层初始化：揭秘英伟达GPU完整固件栈

DAY5:阅读 CUDA C编程接口之CUDA C runtime

DAY67：阅读阅读Events、Synchronization和Device Management

每个程序员都应该了解的GPU工作原理：从硬件到架构

DAY34:阅读算术指令

PyTorch v2.8.0 正式发布：量化推理、编译优化与分布式检查点等多项重大更新

DAY 84:阅读 Driver API和CUDA Context

DAY32：阅读local Memory

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐