0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA CUDA 13.1版本的新增功能与改进

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-12-13 10:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA CUDA 13.1 是自 CUDA 二十年前发明以来,规模最大、内容最全面的一次更新。

最新的版本包含一系列新功能与改进,旨在提升性能并推动加速计算,主要包括:

推出NVIDIA CUDA Tile:它是基于 tile 的全新编程模型,对包括 Tensor Cores 在内的专用硬件做了抽象

暴露了绿色上下文运行时的 API

在 NVIDIA cuBLAS 中实现双精度与单精度仿真功能

全新编写的CUDA 编程指南,面向 CUDA 初学者到资深开发者

CUDA Tile 编程

为了帮助开发者开发适配当前及未来的 GPU 开发软件,NVIDIA CUDA 13.1 推出了CUDA Tile。该编程模型允许开发者在 SIMT 编程模型之上更高层级编写 GPU 内核。在 SIMT 编程中,开发者实现一个内核需要手动划分数据,并为每个线程指定执行路径。而在 CUDA Tile 编程中,你可以用更高的抽象层级实现内核,直接对称为“Tile”的数据块指定执行路径:只需指定要在这些 Tile 上执行的数学运算,编译器和运行时会自动决定如何将任务最优地分配给各个线程。这种 Tile 编程模型隐藏了 Tensor Cores 等专用硬件的具体细节,使 Tile 代码能够兼容未来的 GPU 架构。

CUDA 13.1 发布了 Tile 编程的两大组件

CUDA Tile IR:用于 NVIDIA GPU 编程的全新虚拟指令集架构(ISA)。

cuTile Python:全新领域特定的编程语言(DSL),用于在 Python 中编写基于数组和 Tile 的内核。

如需了解更多关于 CUDA Tile IR 与cuTile Python的信息,请查看相关详细介绍。

CUDA软件更新

本次 CUDA 版本还包括以下重要软件更新。

运行时暴露绿色上下文

CUDA 中的绿色上下文是传统 CUDA 上下文的一种轻量级替代方案,旨在为开发者提供一种对 GPU 进行更细颗粒度的空间划分和资源分配的机制。自 CUDA 12.4 起,该功能可在驱动 API 中使用;而从本版本开始,绿色上下文也正式支持运行时 API。

绿色上下文使用户可以定义并管理 GPU 资源(主要是 Streaming Multiprocessors,SMs)的不同分区,并将特定的 SM 集合分配给某个上下文。随后,在该绿色上下文该所拥有的资源范围内启动中 CUDA 内核并管理 CUDA 流。一个典型应用场景是:当应用程序包含对延迟敏感的代码,且其优先级高于所有其他 GPU 任务时,可以将一部分 SM 资源分配给一个专用于此代码的绿色上下文,其余 SM 分配给处理其他任务的另一个绿色上下文,即可确保关键计算始终拥有可用的 SM 资源。

CUDA 13.1 还引入了可定制程度更高的 split() API。开发者可以构建此前需要多次 API 调用才能完成的 SM 分区,并能够配置工作队列,以减少在不同绿色上下文中提交任务时可能产生的伪依赖。

有关这些功能及绿色上下文运行时的更多信息,请参阅CUDA Programming Guide。

CUDA 多进程服务(MPS)更新

CUDA 13.1 为多进程服务新增了多项功能特性。有关这些新功能的完整信息,请参阅MPS 文档。其中的重点内容包括:内存局部性优化分区、静态流多处理器分区、cuBLAS 中的双精度与单精度仿真。

开发者工具

开发者工具是 CUDA 平台至关重要的一环,本次发布带来了多项创新与功能优化。

CUDA Tile 内核性能分析工具

NVIDIA Nsight Compute 2025.4 现可对 CUDA Tile 内核进行性能分析。相关更新包括:在摘要页面新增“结果类型”列,用于区分内核属于 Tile 还是 SIMT 类型;详情页面新增“Tile 统计信息”区域,汇总 Tile 维度及关键流程的利用率情况;源页面也支持将性能指标映射到高级别的 cuTile 内核源代码。此外,本次 Nsight Compute 版本还新增了两项功能:支持对设备端启动的 CUDA 图节点进行性能分析;同时改进了源页面导航,现在无论是编译器生成的标签还是用户自定义的标签,都支持以可点击链接的形式快速跳转。

编译时修补

NVIDIA Compute Sanitizer 2025.4 现可通过编译器标志 -fdevice-sanitize=memcheck 对 NVIDIA CUDA 编译器进行编译时修补。此功能增强了内存错误检测能力并提升了 Compute Sanitizer 的运行性能。编译时插桩可将错误检测直接集成到 NVCC 中,这样不仅运行速度更快,还能通过先进的基址-边界分析捕捉到更隐蔽的如相邻分配非法访问的内存问题。这意味着开发者可以在不牺牲调试速度的前提下,排查内存问题,运行更多测试,从而保持开发效率。目前,该功能仅支持 memcheck。有关编译时插桩的完整信息,请参阅 compute-sanitizer文档。

NVIDIA Nsight Systems

NVIDIA Nsight Systems 2025.6.1 与 CUDA Toolkit 13.1 同步发布,新增多项剖析功能,主要包括:

系统级 CUDA 剖析:新增 -cuda-trace-scope 参数,支持跨进程树或整个系统进行剖析。

CUDA 主机函数剖析:支持剖析 CUDA Graph 主机函数节点及 cudaLaunchHostFunc();该函数在主机端执行,并会阻塞所在流。

绿色上下文时间轴:现在其提示信息会显示 SM 分配情况,帮助用户了解 GPU 资源利用率。

数学函数库

本次核心 CUDA 工具包的数学函数库引入了多项新功能,主要包括:NVIDIA cuBLAS、NVIDIA cuSPARSE、NVIDIA cuFFT。

NVIDIA CUDA 核心计算库

NVIDIA CUDA 核心计算库(CCCL)为CUB库带来了多项创新与增强:

确定性浮点数缩减:作为 CUDA 13.1 一部分, NVIDIA CCCL 3.1 提供了两种额外的浮点确定性选项,以便在确定性和性能之间进行权衡:

Not-guaranteed:使用原子操作进行单轮归约。此选项不保证为多次运行提供位级相同的结果。

GPU-to-GPU:基于 Kate Clark 在 NVIDIAGTC 2024演讲中提出的可复现归约算法。其结果始终是位级相同的。

更便捷的单阶段CUB API:CCCL 3.1 为部分 CUB 算法新增了重载函数,它们可以直接接受内存资源参数,从而省去查询、分配、释放临时存储的步骤。

了解更多

CUDA 13.1 带来了众多新功能,并开启了以 CUDA Tile 为核心的GPU 编程新时代,了解更多关于 CUDA 13.1 的更新。

欢迎探索CUDA Tile相关资源,下载CUDA Toolkit 13.1,立即开始体验。

关于作者 —

Jonathan Bentz

领导 NVIDIA 的 CUDA 技术营销工程团队,其团队专注于创建和提供引人入胜的内容,并与 CUDA 开发者建立联系。Jonathan 拥有爱荷华州立大学化学博士学位和计算机科学硕士学位。

Tony Scudiero

是 CUDA 平台的技术营销工程师。他致力于将 CUDA 带给各种类型和能力的开发者。在 NVIDIA 任职期间,他曾使用过大型 HPC 系统和应用、实时声学模拟 (VRWorks Audio) 和 Omniverse RTX 渲染器。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5509

    浏览量

    109139
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5108

    浏览量

    134503
  • 编程语言
    +关注

    关注

    10

    文章

    1960

    浏览量

    38986
  • CUDA
    +关注

    关注

    0

    文章

    126

    浏览量

    14408

原文标题:NVIDIA CUDA 13.1 引入 NVIDIA CUDA Tile 等新功能,为下一代 GPU 编程提供更强动力

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA
    的头像 发表于 12-13 10:12 476次阅读
    在Python中借助<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile简化GPU编程

    AMD Vivado Design Suite 2025.2版本现已发布

    AMD Vivado Design Suite 2025.2 版本现已发布,新增对 AMD Versal 自适应 SoC 的设计支持,包含新器件支持、QoR 功能及易用性增强。
    的头像 发表于 12-09 15:11 338次阅读

    开鸿Bot系列大版本更新:体验稳定升级,乐享高效协同!

    V5.0.1.22版本开鸿Bot系列今日,开鸿Bot系列迎来第二次大版本更新——V5.0.1.22。此次版本更新致力于进一步提升系统稳定性与用户体验,新增多项实用
    的头像 发表于 09-26 17:06 1140次阅读
    开鸿Bot系列大<b class='flag-5'>版本</b>更新:体验稳定升级,乐享高效协同!

    NVIDIA RAPIDS 25.06版本新增多项功能

    RAPIDS 是一套面向 Python 数据科学的 NVIDIA CUDA-X 库,最新发布的 25.06 版本引入了多项亮眼新功能,其中包括 Polars GPU 流执行引擎——这是
    的头像 发表于 09-09 09:54 755次阅读

    匠芯创发布新版GUI开发工具 新增多国语言设置等功能

    。此次版本更新,为用户带来了诸多实用的新功能,进一步提升了设计体验和开发效率。在V1.3.0版本中,AiUIBuilder新增了多国语言切换功能
    的头像 发表于 08-07 15:36 912次阅读
    匠芯创发布新版GUI开发工具 <b class='flag-5'>新增</b>多国语言设置等<b class='flag-5'>功能</b>

    NVIDIA DOCA 3.0版本的亮点解析

    NVIDIA DOCA 框架已发展成为新一代 AI 基础设施的重要组成部分。从初始版本到备受期待的 NVIDIA DOCA 3.0 发布,每个版本都扩展了
    的头像 发表于 07-04 14:27 975次阅读
    <b class='flag-5'>NVIDIA</b> DOCA 3.0<b class='flag-5'>版本</b>的亮点解析

    【文章转载】CANoe产品体系19版本功能(下) - 基础功能与XIL测试

    版本持续为智能电动网联汽车软件开发测试带来全新功能,IDE开发环境支持.NET8.0、Python、MATLAB2024b,VisualStudioCode集成测试开发和调试功能,支持
    的头像 发表于 06-25 10:03 1367次阅读
    【文章转载】CANoe产品体系19<b class='flag-5'>版本</b>新<b class='flag-5'>功能</b>(下) - 基础<b class='flag-5'>功能与</b>XIL测试

    CANoe产品体系19版本新特性及新增Option(上)

    版本持续助力当前车辆E/E架构中ECU开发验证,同时赋能后续智能网联电动车型预研验证。新版本CANoe产品体系新增数据驱动的DDS、车辆互联服务和高效电机模型库,进一步支持CANXL
    的头像 发表于 06-11 10:03 2560次阅读
    CANoe产品体系19<b class='flag-5'>版本</b>新特性及<b class='flag-5'>新增</b>Option(上)

    借助NVIDIA技术加速半导体芯片制造

    NVIDIA Blackwell GPU、NVIDIA Grace CPU、高速 NVIDIA NVLink 网络架构和交换机,以及诸如 NVIDIA cuDSS 和
    的头像 发表于 05-27 13:59 900次阅读

    NVIDIA虚拟GPU 18.0版本的亮点

    NVIDIA 虚拟 GPU(vGPU)技术可在虚拟桌面基础设施(VDI)中解锁 AI 功能,使其比以往更加强大、用途更加广泛。vGPU 通过为各种虚拟化环境中的 AI 驱动工作负载提供动力,提高了
    的头像 发表于 04-07 11:28 1159次阅读

    使用NVIDIA CUDA-X库加速科学和工程发展

    NVIDIA GTC 全球 AI 大会上宣布,开发者现在可以通过 CUDA-X 与新一代超级芯片架构的协同,实现 CPU 和 GPU 资源间深度自动化整合与调度,相较于传统加速计算架构,该技术可使计算工程工具运行速度提升至原来的 11 倍,计算规模增加至 5 倍。
    的头像 发表于 03-25 15:11 1229次阅读

    Altium Designer 25.4.2版本的新功能

    在原理图元件的属性中,新增了对动态(条目级)参数的可见性支持。这些动态参数的值可以在源数据库 / PLM系统中进行更改,并同步到已放置的工作区库元件中,而无需创建这些元件的新修订版本。现在,当在
    的头像 发表于 03-24 11:34 1628次阅读
    Altium Designer 25.4.2<b class='flag-5'>版本</b>的新<b class='flag-5'>功能</b>

    ABViewer 15.2版本现已发布

    我们的团队很高兴宣布ABViewer 15.2版本现已发布。新版本对软件的所有主要功能进行了改进。下面您将找到我们所做更改的详细列表。 PDF转DWG
    的头像 发表于 02-11 11:49 856次阅读

    新思科技LucidShape 2024.09新增功能

    LucidShape的最新版本2024.09带来了一系列新功能与增强功能,旨在解决光学开发者面临的最常见和最复杂的挑战。从微透镜阵列(MLA)的自动掩模计算,到高级分析功能
    的头像 发表于 01-21 09:16 981次阅读
    新思科技LucidShape 2024.09<b class='flag-5'>新增</b><b class='flag-5'>功能</b>

    SOLIDWORKS 2025引入了多项新增工具和增强功能

    在工程设计领域,SOLIDWORKS一直以其强大的功能和灵活的操作性赢得了广泛的认可。随着SOLIDWORKS 2025版本的发布,这款三维CAD设计软件再次以一系列令人瞩目的新增工具和增强
    的头像 发表于 12-17 15:23 1126次阅读