首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GPUS开发者

    DAY3:阅读CUDA C编程接口

    host code and then: · compiling the device code into an assembly form (PTX code) and/or binary form (cubin host code (if any) and use the CUDA driver API (see Driver API) to load and execute the PTX code or cubin A cubin object is generated using the compiler option -code that specifies the targeted architecture: In other words, a cubin object generated for compute capability X.y will only execute on devices of compute 为一种卡编译出来的SASS(例如cubin)只能在这种架构的卡上用。不像PTX那样通用。(二进制兼容性就像你的CPU。你的一个exe可能是10年前的。

    1.3K30发布于 2018-06-25
  • 来自专栏计算机视觉理论及其实现

    nvcc简介

    在生成可执行程序的过程中可以根据nvcc选项选择是否将ptx文本指令(x.ptx中间文件中)、二进制指令(x.cubin中间文件)嵌入到可执行程序中,一般有3种嵌入方式:只嵌入x.ptx(第二阶段被忽略 ,全部依赖just-in-time compilation);只嵌入x.cubin(无法进行just-in-time compilation);两者都嵌入(运行过程中driver找到合适二进制指令镜像则加载之

    3.3K30编辑于 2022-09-02
  • 来自专栏AutoML(自动机器学习)

    显卡,显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn到底是什么?

    .o/.obj 目标文件,编译选项--compile/-c .a/.lib 库文件,编译选项--lib/-lib .res 资源文件 .so 共享目标文件,编译选项--shared/-shared .cubin cuda的二进制文件,编译选项-cubin nvidia-smi nvidia-smi全程是NVIDIA System Management Interface ,它是一个基于前面介绍过的NVIDIA driver API也是语言独立的,因为它只处理cubin对象。 上下文管理 上下文管理可以通过driver API完成,但是在runtime API中不公开。

    4.6K31发布于 2020-06-12
  • 来自专栏AutoML(自动机器学习)

    显卡,显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn区别?

    编译选项--lib/-lib .res 资源文件 .so 共享目标文件,编译选项--shared/-shared .cubin cuda的二进制文件,编译选项-cubin nvidia-smi nvidia-smi全程是NVIDIA System Management Interface ,它是一个基于前面介绍过的 driver API也是语言独立的,因为它只处理cubin对象。 上下文管理 上下文管理可以通过driver API完成,但是在runtime API中不公开。

    16.5K114发布于 2019-11-11
  • 来自专栏GPUS开发者

    DAY83:阅读Compute Capability 7.x

    甚至NV在官网文档中强调,Turing可以几乎全效率的执行Volta的cubin,而不需要重新编译。 这说明这两者很大程度上还是有些类似的。 但是Turing能在不使用新特性的情况下(主要是新tensor core指令)可以完全无碍的全速指令Volta的cubin,说明这点的确可以。

    1.3K20发布于 2018-11-06
  • 来自专栏GPUS开发者

    Titan V做计算真的这么不靠谱么?

    因为这样的参数再运行的时候, runtime或者驱动会发现里面的cubin不能运行的,因为版本不对,会强制从PTX来一次重新动态jit编译,而此时的这种编译会自动注意到兼容问题,例如ballot的时候总是用

    3.1K20发布于 2018-09-29
  • 来自专栏GPUS开发者

    DAY58:阅读Launch Bounds

    需要注意的是, 本章的launch bounds最终的影响发生在PTX->CUBIN的工程中, 而不是发生在CUDA C -> PTX的过程中, 这是因为CUDA C层次没有寄存器的概念(只有私有变量 所以最终实际发生在CUBIN/SASS的生成中,这是为何反复本章节手册, 提到PTX中的对应的2个directive的原因,不使用PTX的用户, 可以直接暂时无视它(例如需要使用一些CUDA C中没有的功能

    1.5K10发布于 2018-08-01
  • 来自专栏GPUS开发者

    NVIDIA Blackwell RTX GPU与CUDA 12.8框架更新指南

    正常的TensorRT引擎仅包含cubin代码,而前向兼容的硬件可以考虑PTX代码。

    4.8K10编辑于 2025-02-04
  • 来自专栏GiantPandaCV

    【论文解读】基于MLIR生成矩阵乘法的高性能GPU代码,性能持平cuBLAS

    然后使用NVIDIA的编译器将PTX转换为cubin(CUDA二进制格式)。NVIDIA的编译器通过MLIR的CUDA驱动程序API调用。 MLIR中的gpu-to-cubin pass可以访问驱动程序API,并为我们执行PTX到cubin的编译和嵌入。 我们扩展了此pass以使用一些其它选项,例如优化级别和每个线程的最大寄存器数,这是将PTX编译到cubin时需要的。 执行这些最终步骤的基础设施已经存在于 MLIR 中。

    3.3K20编辑于 2022-04-06
  • 来自专栏GPUS开发者

    DAY5:阅读 CUDA C编程接口之CUDA C runtime

    例如你的代码里只有cubin,但没有为当前显卡编译过,同时没有PTX存在的时候,或者有巨大的设备端数组,而原本开发是24GB的显卡,客户运行的时候却是一个只有1GB显存的显卡,这个时候,第一次你无论神马调用函数

    1.6K40发布于 2018-06-25
  • 来自专栏GPUS开发者

    DAY67:阅读阅读Events、Synchronization和Device Management

    实际上, 本章节最后的末尾段落, 提到动态并行和多卡的时候, 说到, 你不能跨卡通过动态并行启动kernel的.主要是因为一种考虑: 多卡上的同名kernel可能具有不同的binary(cubin)表示

    50450发布于 2018-08-17
  • 来自专栏【腾讯云开发者】

    每个程序员都应该了解的GPU工作原理:从硬件到架构

    06 程序加载 - cubin loading 6.1 程序启动 操作系统加载可执行文件,CPU 开始执行主机代码。 4. cubin loading (cubin 是 CUDA binary 的缩写) a.

    4.3K21编辑于 2025-07-09
  • 来自专栏GPUS开发者

    DAY34:阅读算术指令

    multiple code paths depending on input. cuobjdump can be used to inspect a particular implementation in a cubin

    78430发布于 2018-06-22
  • 来自专栏福大大架构师每日一题

    PyTorch v2.8.0 正式发布:量化推理、编译优化与分布式检查点等多项重大更新

    custom_op_default_layout_constraint 从 inductor config 移动到 functorch config • emit_current_arch_binary 弃用 • aot_inductor.embed_cubin Intel GPU 性能分析器的功能 • 支持在 Intel GPU 上集成分布式内存跟踪器 • 改进 Intel GPU CMake 文件中的错误处理和报告 • 在 AOTI 中支持 embed_cubin

    68510编辑于 2025-12-18
  • 来自专栏GPUS开发者

    DAY 84:阅读 Driver API和CUDA Context

    而且这里还需要有明确的PTX和CUBIN之分(这个下次说)。 虽然很麻烦,但也换来了好处。

    3.6K40发布于 2018-11-23
  • 来自专栏GPUS开发者

    DAY32:阅读local Memory

    though if they find it consumes too much register space for the targeted architecture: Inspection of the cubin

    76631发布于 2018-06-25
领券