cuBLAS 库可提供基本线性代数子程序(BLAS)的 GPU 加速实现。cuBLAS 利用针对 NVIDIA GPU 高度优化的插入式行业标准 BLAS API,加速 AI 和 HPC 应用。cuBLAS 库包含用于批量运算、跨多个 GPU 的执行以及混合精度和低精度执行的扩展程序。通过使用 cuBLAS,应用将能自动从定期性能提升及新的 GPU 体系架构中受益。cuBLAS 库包含在 NVIDIA HPC SDK 和 CUDA 工具包中。
cuBLAS 多 GPU 扩展
cuBLASMg 提供了先进的多 GPU 矩阵间乘法,您可在多台设备间以 2D 块循环方式分发每个矩阵。cuBLASMg 目前已加入 CUDA 数学库抢先体验计划。
cuBLAS 性能
cuBLAS 库针对 NVIDIAGPU 上的性能进行了高度优化,并利用 Tensor Core 对低精度和混合精度矩阵乘法进行加速。



cuBLAS 的主要特性
全面支持 152 个标准 BLAS 例程
支持半精度和整数矩阵乘法
GEMM 和 GEMM 扩展程序针对 Volta 及 Turing Tensor Core 进行了优化
针对各种深度学习模型中使用的规模调整 GEMM 性能
支持用于并发操作的 CUDA 流
您将能够使用最基本的 CUDA 工具和技术,加速和优化仅适用于 CPU 的 C/C++ 应用程序。您将了解 CUDA 开发的迭代风格,这将帮助您快速发布加速应用程序。
加速计算基础——CUDA Python
您将了解使用 CUDA 和 Numba 编译器在大规模并行 GPU 上加速运行 Python 应用程序的基本工具和技能。
通过 CUDA C++ 在多个 GPU 之间扩展工作负载
您将学习如何在单个节点上使用多个 GPU,构建强大高效的 CUDA C++ 应用程序。
通过并发流加速 CUDA C++ 应用程序
您将在 CUDA C++ 应用程序中,学习利用 CUDA Streams 进行复制/计算重叠。
审核编辑:刘清
-
gpu
+关注
关注
28文章
5099浏览量
134471 -
矩阵
+关注
关注
1文章
441浏览量
35816 -
HPC
+关注
关注
0文章
342浏览量
24826
原文标题:DevZone | NVIDIA cuBLAS库
文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
利用NVIDIA Cosmos开放世界基础模型加速物理AI开发
NVIDIA RTX PRO 2000 Blackwell GPU性能测试
Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台库,加速 AI 数据中心部署与运营
NVIDIA RTX PRO 4500 Blackwell GPU测试分析
NVIDIA桌面GPU系列扩展新产品
借助NVIDIA技术加速半导体芯片制造
使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发
使用NVIDIA CUDA-X库加速科学和工程发展
英伟达GTC2025亮点:Oracle与NVIDIA合作助力企业加速代理式AI推理
Oracle 与 NVIDIA 合作助力企业加速代理式 AI 推理
利用NVIDIA DPF引领DPU加速云计算的未来

NVIDIA cuBLAS库加速BLAS的GPU设计实现
评论