0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA cuBLAS库加速BLAS的GPU设计实现

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达 2022-08-07 15:46 次阅读

cuBLAS 库可提供基本线性代数子程序(BLAS)的 GPU 加速实现。cuBLAS 利用针对 NVIDIA GPU 高度优化的插入式行业标准 BLAS API,加速 AI 和 HPC 应用。cuBLAS 库包含用于批量运算、跨多个 GPU 的执行以及混合精度和低精度执行的扩展程序。通过使用 cuBLAS,应用将能自动从定期性能提升及新的 GPU 体系架构中受益。cuBLAS 库包含在 NVIDIA HPC SDKCUDA 工具包中。

cuBLAS 多 GPU 扩展

cuBLASMg 提供了先进的多 GPU 矩阵间乘法,您可在多台设备间以 2D 块循环方式分发每个矩阵。cuBLASMg 目前已加入 CUDA 数学库抢先体验计划。

cuBLAS 性能

cuBLAS 库针对 NVIDIAGPU 上的性能进行了高度优化,并利用 Tensor Core 对低精度和混合精度矩阵乘法进行加速。

07805336-14c8-11ed-ba43-dac502259ad0.png07bae154-14c8-11ed-ba43-dac502259ad0.png07ed0fee-14c8-11ed-ba43-dac502259ad0.png

cuBLAS 的主要特性

全面支持 152 个标准 BLAS 例程

支持半精度和整数矩阵乘法

GEMM 和 GEMM 扩展程序针对 Volta 及 Turing Tensor Core 进行了优化

针对各种深度学习模型中使用的规模调整 GEMM 性能

支持用于并发操作的 CUDA 流

加速计算基础——CUDA C/C++

您将能够使用最基本的 CUDA 工具和技术,加速和优化仅适用于 CPU 的 C/C++ 应用程序。您将了解 CUDA 开发的迭代风格,这将帮助您快速发布加速应用程序。

加速计算基础——CUDA Python

您将了解使用 CUDA 和 Numba 编译器在大规模并行 GPU 上加速运行 Python 应用程序的基本工具和技能。

通过 CUDA C++ 在多个 GPU 之间扩展工作负载

您将学习如何在单个节点上使用多个 GPU,构建强大高效的 CUDA C++ 应用程序。

通过并发流加速 CUDA C++ 应用程序

您将在 CUDA C++ 应用程序中,学习利用 CUDA Streams 进行复制/计算重叠。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4343

    浏览量

    126300
  • 矩阵
    +关注

    关注

    0

    文章

    404

    浏览量

    34231
  • HPC
    HPC
    +关注

    关注

    0

    文章

    272

    浏览量

    23410

原文标题:DevZone | NVIDIA cuBLAS库

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA将在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”

    根据各方信息和路线图,NVIDIA预计会在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”。
    的头像 发表于 03-04 09:33 500次阅读
    <b class='flag-5'>NVIDIA</b>将在今年第二季度发布Blackwell架构的新一代<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>器“B100”

    如何选择NVIDIA GPU和虚拟化软件的组合方案呢?

    NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地方工作的创意和技术专业人员能够访问虚拟化工作
    的头像 发表于 01-12 09:26 221次阅读
    如何选择<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>和虚拟化软件的组合方案呢?

    OpenHarmony开源GPUMesa3D适配说明

    接口。 OpenGL(Open Graphics Library) 开放图形,是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口(仅定义了接口及规范,没有实现)。OpenGL的高效性
    发表于 12-25 11:38

    NVIDIA 初创加速计划 Omniverse 加速

    新的 AI 技术和迅速发展的应用正在改变各行各业,生成式 AI 已经展示出在艺术、设计、影视动画、互娱、建筑等领域加速内容创作的价值,助力实现高质量、高效率、多样化的内容生产,成为推动数字生产力变革
    的头像 发表于 12-04 20:35 364次阅读
    <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划 Omniverse <b class='flag-5'>加速</b>营

    NVIDIA GPU的核心架构及架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此
    发表于 11-21 09:40 348次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架构及架构演进

    创新企业云福利:腾讯云 × NVIDIA 初创加速计划

    助力生成式 AI、大模型训练与推理、自动驾驶、图像处理等场景初创企业加速成长,最高获赠 10 万元扶持基金、NVIDIA 深度学习培训中心(DLI)优惠课程,以及免费的 GPU 技术支持。 腾讯
    的头像 发表于 11-13 20:40 360次阅读
    创新企业云福利:腾讯云 × <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划

    177倍加速NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的库。计算速度非常快,相较CPU计算TSDF甚至快了177倍。更重要的是,因为所有数据都已经存储在GPU
    的头像 发表于 11-09 16:46 459次阅读
    177倍<b class='flag-5'>加速</b>!<b class='flag-5'>NVIDIA</b>最新开源 | <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>各种SDF建图!

    NVIDIA与NTT DOCOMO联手打造全球首个GPU加速5G网络,欧盟要求苹果开放生态

    大家好,欢迎收看河套IT WALK第113期。 NVIDIA与NTT DOCOMO合作推出了全球首个GPU加速的5G网络,这一突破性技术将改变我们对5G网络的认知和使用方式。欧盟对苹果提出了一个灵魂
    的头像 发表于 09-27 21:20 478次阅读
    <b class='flag-5'>NVIDIA</b>与NTT DOCOMO联手打造全球首个<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>5G网络,欧盟要求苹果开放生态

    Oracle 云基础设施提供新的 NVIDIA GPU 加速计算实例

    。为了帮助满足这一需求,Oracle 云基础设施(OCI)于近日宣布,在 OCI Compute 上全面提供 NVIDIA H100 Tensor Core GPU ,同时 NVIDIA L40S
    的头像 发表于 09-25 20:40 275次阅读
    Oracle 云基础设施提供新的 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> <b class='flag-5'>加速</b>计算实例

    DolphinDB加入NVIDIA初创加速计划

    近日,DolphinDB 正式加入“NVIDIA 初创加速计划(NVIDIA Inception)”,该项目是 NVIDIA 提供的一个加速
    的头像 发表于 08-27 01:08 634次阅读

    一个使用Java语言实现的向量化BLAS库VectorBLAS

    VectorBLAS是一个使用Java语言实现的向量化BLAS高性能库,目前已在openEuler社区开源。
    的头像 发表于 08-16 10:40 515次阅读
    一个使用Java语言<b class='flag-5'>实现</b>的向量化<b class='flag-5'>BLAS</b>库VectorBLAS

    Arm RAN加速资料

    Arm RAN加速(ArmRAL)包含一组用于加速电信应用的功能,例如但不限于5G无线电接入网络(RAN)。 Arm RAN加速23.0
    发表于 08-08 07:46

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗

    NVIDIA虚拟GPU技术推动快速无痛的牙科治疗
    的头像 发表于 08-01 14:46 267次阅读

    NVIDIA Hopper GPU上的新cuBLAS12.0功能和矩阵乘法性能

    NVIDIA Hopper GPU 上的新 cuBLAS 12.0 功能和矩阵乘法性能
    的头像 发表于 07-05 16:30 1619次阅读
    <b class='flag-5'>NVIDIA</b> Hopper <b class='flag-5'>GPU</b>上的新<b class='flag-5'>cuBLAS</b>12.0功能和矩阵乘法性能

    NVIDIA GPU 助力三维家打造 3D 垂类大模型,引领家居设计变革

    案例简介 广东三维家信息科技有限公司(以下简称“三维家”),通过采用 NVIDIA GPUNVIDIA 推理加速引擎 TensorRT,提升了家装设计效率,使超分渲染整体时间比常
    的头像 发表于 05-17 05:55 288次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> 助力三维家打造 3D 垂类大模型,引领家居设计变革