
本文基于 NVIDIA 官方 CUDA 主题演讲,系统梳理当前 GPU 计算的核心变革、CUDA 最新技术突破,以及面向数据中心与多节点场景的长期规划。

当前 GPU 计算正从传统对称并行转向确定性非对称并行,这是支撑 AI 推理、大规模并行任务的核心转变。

对称并行:一个程序占满整机资源,所有核心、节点同时执行完全相同的任务,对应 CUDA 传统的 Grid Launch 机制。

非对称并行:同一系统上同时运行多种不同任务,传统 CUDA Streams、任务图仅能实现机会主义并发,无法保证资源隔离与同时执行「4:15」。

以 AI 推理为例,Prefill 阶段是计算密集型,需要大量算力;Decode 阶段是访存密集型,需要高带宽。

若将两者分离并同时运行,性能可提升10 倍甚至更高,这也是 CUDA 推动确定性非对称并行的核心原因。
Blackwell GPU 内置 160 个 SM,单芯片算力相当于 2004 年全球顶级超算。

要在单卡上实现精细化非对称调度,NVIDIA 推出了Green Contexts。

Green Contexts 介于 CUDA Streams(动态无分区)和 MPS(有分区但动态不足)之间,支持单进程内动态 SM 资源分区,提供确定性的非对称执行能力。


低时延资源预留、重叠执行、上下文嵌套、动态分区(解耦式推理 workload 核心能力)。
现代 workload 已不再运行在单 GPU 上,CUDA 正朝着多节点、跨数据中心统一编排演进。

统一命名与拓扑:集群内所有节点、GPU 保持一致标识,避免大规模系统调度冲突。

多节点 CUDA Graph:单点启动、跨全数据中心 GPU 执行,支持任务强依赖约束,把机会主义并发变为确定性并发。

全局内存管理:跨节点统一内存视图、细粒度可见性控制,降低大规模集群的同步开销。

Dynamo:NVIDIA 解耦式推理编排系统

GPU Direct Storage + cuFile:GPU 与存储低时延直连

检查点机制:从容灾扩展到弹性扩缩容

Nsight Cloud:云端大规模调试与 profiling 工具、

CUDA Tile 于去年发布、12 月正式上线,是超越传统 SIMT 的张量 / 数组级编程抽象。

开发者面向数据块(Tile)编写逻辑,而非逐线程操作,编译器自动优化线程映射与 Tensor Core 调用。
跨架构无码移植:同一代码可在 Ampere、Hopper、Blackwell、RTX 等架构运行,性能保留80%~90%。

开发效率大幅提升:78 行 Tile 核函数可替代 12 个传统核函数(约 1000 行代码),稀疏矩阵场景性能超越专业库 KSPARSE。

生产级性能验证:FlashInfer 内核迁移至 Tile 后,性能保持90% 以上;DeepSeek R1 Prefill 基准测试可实现17% 性能提升。
已支持 Python(CUDATilePy),下一次 CUDA 发布将上线 C++ 版本

集成 NVSHMEM 支持多节点通信,多节点 FFT 性能提升超 10%

完整接入 Nsight Compute 调试工具链、


新增 Tile 级编译器 + CuTe(Tensor Core 编译器),恢复复杂张量代码的便携性
NVVM 向上游合并至 LLVM,CUDA 13.2 开始 Blackwell 编译器接入 LLVM 21

Compile IQ:基于机器学习的编译器自动调优,可带来5%~10% 免费性能提升,Meta 实际业务已验证

CUDA Python 1.0 即将正式发布

nvMath Python:统一 CPU/GPU/ 设备端库,支持 JIT 算子融合,性能最高提升 3 倍。

支持 Python 核函数调试、Nsight profiling,补齐 Python 并行开发工具短板。

Nsight Copilot:VS 扩展,支持 CUDA 代码生成、性能分析辅助

推出 250 个基准测试集,标准化评估 CUDA 代码生成 AI 质量

CUDA 正经历三大维度的关键升级:
这些技术将持续支撑 AI、高性能计算、云原生场景的算力需求,巩固 CUDA 在并行计算领域的核心地位。