0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA cuBLAS库加速BLAS的GPU设计实现

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达 2022-08-07 15:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

cuBLAS 库可提供基本线性代数子程序(BLAS)的 GPU 加速实现。cuBLAS 利用针对 NVIDIA GPU 高度优化的插入式行业标准 BLAS API,加速 AI 和 HPC 应用。cuBLAS 库包含用于批量运算、跨多个 GPU 的执行以及混合精度和低精度执行的扩展程序。通过使用 cuBLAS,应用将能自动从定期性能提升及新的 GPU 体系架构中受益。cuBLAS 库包含在 NVIDIA HPC SDKCUDA 工具包中。

cuBLAS 多 GPU 扩展

cuBLASMg 提供了先进的多 GPU 矩阵间乘法,您可在多台设备间以 2D 块循环方式分发每个矩阵。cuBLASMg 目前已加入 CUDA 数学库抢先体验计划。

cuBLAS 性能

cuBLAS 库针对 NVIDIAGPU 上的性能进行了高度优化,并利用 Tensor Core 对低精度和混合精度矩阵乘法进行加速。

07805336-14c8-11ed-ba43-dac502259ad0.png07bae154-14c8-11ed-ba43-dac502259ad0.png07ed0fee-14c8-11ed-ba43-dac502259ad0.png

cuBLAS 的主要特性

全面支持 152 个标准 BLAS 例程

支持半精度和整数矩阵乘法

GEMM 和 GEMM 扩展程序针对 Volta 及 Turing Tensor Core 进行了优化

针对各种深度学习模型中使用的规模调整 GEMM 性能

支持用于并发操作的 CUDA 流

加速计算基础——CUDA C/C++

您将能够使用最基本的 CUDA 工具和技术,加速和优化仅适用于 CPU 的 C/C++ 应用程序。您将了解 CUDA 开发的迭代风格,这将帮助您快速发布加速应用程序。

加速计算基础——CUDA Python

您将了解使用 CUDA 和 Numba 编译器在大规模并行 GPU 上加速运行 Python 应用程序的基本工具和技能。

通过 CUDA C++ 在多个 GPU 之间扩展工作负载

您将学习如何在单个节点上使用多个 GPU,构建强大高效的 CUDA C++ 应用程序。

通过并发流加速 CUDA C++ 应用程序

您将在 CUDA C++ 应用程序中,学习利用 CUDA Streams 进行复制/计算重叠。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5321

    浏览量

    136211
  • 矩阵
    +关注

    关注

    1

    文章

    451

    浏览量

    36334
  • HPC
    HPC
    +关注

    关注

    0

    文章

    351

    浏览量

    25107

原文标题:DevZone | NVIDIA cuBLAS库

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    eIQ 工具包在 Ubuntu 22.04 中不起作用怎么解决?

    ] E0000 00:00:1754033795.14806924023 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting
    发表于 04-22 06:54

    NVIDIA向Kubernetes社区捐赠动态资源分配GPU驱动程序

    此外,NVIDIA 在 KubeCon Europe 大会上宣布推出适用于 GPU 加速工作负载的机密容器解决方案、NVIDIA KAI Scheduler 更新,以及用于
    的头像 发表于 04-01 09:10 878次阅读

    Oracle和NVIDIA合作加速向量搜索和企业数据处理

    Oracle 和 NVIDIA 正在与客户合作,将 GPU 加速的向量索引构建应用于实际工作负载。Oracle Private AI Services Container 初期支持 CPU 执行,现
    的头像 发表于 03-23 15:26 541次阅读

    NVIDIA推出cuEST量子化学加速

    本周,NVIDIA 发布了 NVIDIA cuEST。这是一款全新的 NVIDIA CUDA-X ,可将电子结构计算迁移到 GPU 上执行
    的头像 发表于 03-23 15:11 626次阅读

    KIOXIA单服务器实现48亿高维向量搜索数据,借助GPU实现索引构建时间加速7.8倍

    通过NVIDIA cuVS利用GPU加速,显著缩短索引构建时间的成果。这两项成果标志着检索增强生成(RAG)搜索解决方案取得了重大进展。目前公司正持续开发,以支持超过48亿向量的更大规模部署。 大规模
    的头像 发表于 03-18 16:57 1133次阅读

    借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程

    NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,从而释放 GPU 的极限性能。CUDA Tile 的
    的头像 发表于 02-10 10:31 630次阅读

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU 加速工作流的
    的头像 发表于 01-06 09:51 4907次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度评测

    NVIDIA RTX PRO 4000 Blackwell GPU性能测试

    作为 NVIDIA 专业显卡产品线中单槽性能的巅峰之作,NVIDIA RTX PRO 4000 Blackwell 在各项核心指标上均实现对前代 NVIDIA RTX 4000 Ada
    的头像 发表于 12-29 15:30 2112次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 Blackwell <b class='flag-5'>GPU</b>性能测试

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用
    的头像 发表于 12-13 10:12 1564次阅读
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile简化<b class='flag-5'>GPU</b>编程

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI 模型的测试与验证数据生成。借助 NVIDIA Omniverse
    的头像 发表于 12-01 09:25 1624次阅读

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 7296次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能测试

    Cadence 借助 NVIDIA DGX SuperPOD 模型扩展数字孪生平台加速 AI 数据中心部署与运营

    [1]  利用搭载 DGX GB200 系统的 NVIDIA DGX SuperPOD[2] 数字孪生系统实现的重大扩展 。借助 NVIDIA 高性能
    的头像 发表于 09-15 15:19 1738次阅读

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA RTX 450
    的头像 发表于 08-28 11:02 4595次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的头像 发表于 08-18 11:50 1745次阅读

    借助NVIDIA技术加速半导体芯片制造

    NVIDIA Blackwell GPUNVIDIA Grace CPU、高速 NVIDIA NVLink 网络架构和交换机,以及诸如 NVIDI
    的头像 发表于 05-27 13:59 1355次阅读