创作

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

使用NVIDIA A30 GPU加速AI推理工作负载

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-05-16 09:25 次阅读

NVIDIA A30 GPU 基于最新的 NVIDIA Ampere 体系结构,可加速各种工作负载,如大规模人工智能推理、企业培训和数据中心主流服务器的 HPC 应用程序。 A30 PCIe 卡将第三代 Tensor 内核与大容量 HBM2 内存( 24 GB )和快速 GPU 内存带宽( 933 GB / s )组合在一个低功耗外壳中(最大 165 W )。

A30 支持广泛的数学精度:

双精度( FP64 )

单精度( FP32 )

半精度( FP16 )

脑浮 16 ( BF16 )

整数( INT8 )

它还支持 Tensor Float 32 ( TF32 )和 Tensor Core FP64 等创新技术,提供了一个单一的加速器来加速每个工作负载。

图 1 显示了 TF32 ,其范围为 FP32 ,精度为 FP16 。 TF32 是 PyTorch 、 TensorFlow 和 MXNet 中的默认选项,因此在上一代 NVIDIA Volta 架构中实现加速不需要更改代码。

A30 的另一个重要特点是多实例 GPU ( MIG )能力。 MIG 可以最大限度地提高从大到小工作负载的 GPU 利用率,并确保服务质量( QoS )。单个 A30 最多可以被划分为四个 MIG 实例,以同时运行四个应用程序,每个应用程序都与自己的流式多处理器( SMs )、内存、二级缓存、 DRAM 带宽和解码器完全隔离。有关更多信息,请参阅 支持的 MIG 配置文件 。

对于互连, A30 支持 PCIe Gen4 ( 64 GB / s )和高速第三代 NVLink (最大 200 GB / s )。每个 A30 都可以支持一个 NVLink 桥接器与一个相邻的 A30 卡连接。只要服务器中存在一对相邻的 A30 卡,这对卡就应该通过跨越两个 PCIe 插槽的 NVLink 桥接器连接,以获得最佳桥接性能和平衡的桥接拓扑。

性能和平衡的桥接拓扑。

poYBAGKBqBmALH-VAABBLLMJLWQ255.png

除了表 1 中总结的硬件优势外, A30 可以实现比 T4 GPU 更高的每美元性能。 A30 还支持端到端软件堆栈解决方案:

图书馆

GPU 加速了 PyTorch 、 TensorFlow 和 MXNet 等深度学习框架

优化的深度学习模型

可从 NGC 和[2000]以上的容器中获得

性能分析

为了分析 A30 相对于 T4 和 CPU 的性能改进,我们使用以下数据集对 MLPerf 推断 v1.1 。 中的六个模型进行了基准测试

ResNet-50v1 。 5 ( ImageNet )

SSD 大尺寸 ResNet-34 ( COCO )

3D Unet (布拉茨 2019 )

DLRM ( 1TB 点击日志,离线场景)

BERT (第 1.1 版,第 384 小节)

RNN-T (图书馆语言)

MLPerf 基准测试套件 涵盖了广泛的推理用例,从图像分类和对象检测到推荐,以及自然语言处理( NLP )。

图 2 显示了 A30 与 T4 和 BERT 在人工智能推理工作负载上的性能比较结果。对于 CPU 推断, A30 比 CPU 快约 300 倍。

与T4相比,A30在使用这六种机型进行推理时提供了大约3-4倍的性能加速比。性能加速是由于30个较大的内存大小。这使得模型的批量更大,内存带宽更快(几乎是3倍T4),可以在更短的时间内将数据发送到计算核心。

pYYBAGKBqAaAZWaAAACGpnmS5vk955.png

图 2 使用 MLPerf 比较 A30 与 T4 和 CPU 的性能。

CPU:8380H (不在 3D Unet 上提交)

除了人工智能推理之外, A30 还可以快速预训练人工智能模型,例如 BERT 大型 TF32 ,以及使用 FP64 张量核加速 HPC 应用。带有 TF32 的 A30 Tensor Cores 的性能比 T4 高出 10 倍,无需对代码进行任何更改。它们还提供了自动混合精度的额外 2 倍提升,使吞吐量增加了 20 倍。

硬件解码器

在构建视频分析或视频处理管道时,必须考虑以下几个操作:

计算模型或预处理步骤的需求。 这取决于 Tensor 内核、 GPU DRAM 和其他硬件组件,它们可以加速模型或帧预处理内核。

传输前的视频流编码。 这样做是为了最小化网络上所需的带宽。为了加快这一工作量,请使用 NVIDIA 硬件解码器。

pYYBAGKBqAmAUZqIAACM1qWslYA962.png

图 3 在不同 GPU 上处理的流的数量

使用 DeepStream 5.1 测试性能。它代表了 e2e 在视频捕获和解码、预处理、批处理、推理和后处理方面的性能。已关闭输出渲染以获得最佳性能,运行 ResNet10 、 ResNet18 和 ResNet50 网络以推断 H.264 1080p30 视频流。

A30 旨在通过提供四个视频解码器、一个 JPEG 解码器和一个光流解码器来加速智能视频分析( IVA )。

要使用这些解码器和计算资源来分析视频,请使用 NVIDIA DeepStream SDK ,它为基于人工智能的多传感器处理、视频、音频和图像理解提供了一个完整的流分析工具包。有关更多信息,请参阅 TAO 工具包与 DeepStream 的集成 或者 使用 NVIDIA DeepStream 构建实时编校应用程序,第 1 部分:培训 。

接下来呢?

A30 代表了数据中心最强大的端到端人工智能和 HPC 平台,使研究人员、工程师和数据科学家能够交付真实世界的结果,并将解决方案大规模部署到生产中。有关更多信息,请参阅 NVIDIA A30 Tensor Core GPU 数据表 和 NVIDIA A30 GPU 加速器产品简介 。

关于作者

Maggie Zhang 是 NVIDIA 的深度学习工程师,致力于深度学习框架和应用程序。她在澳大利亚新南威尔士大学获得计算机科学和工程博士学位,在那里她从事 GPU / CPU 异构计算和编译器优化。

Tanay Varshney 是 NVIDIA 的一名深入学习的技术营销工程师,负责广泛的 DL 软件产品。他拥有纽约大学计算机科学硕士学位,专注于计算机视觉、数据可视化和城市分析的横断面。

Davide Onofrio 是 NVIDIA 的高级深度学习软件技术营销工程师。他在 NVIDIA 专注于深度学习技术开发人员关注内容的开发和演示。戴维德在生物特征识别、虚拟现实和汽车行业担任计算机视觉和机器学习工程师已有多年经验。他的教育背景包括米兰理工学院的信号处理博士学位。Ivan Belyavtsev 是一名图形开发工程师,主要致力于开发人员支持和优化基于虚拟引擎的游戏。他还是 Innopolis 大学游戏开发领域的计算机图形学导师。

Shar Narasimhan 是 AI 的高级产品营销经理,专门从事 NVIDIA 的 Tesla 数据中心团队的深度学习培训和 OEM 业务。

审核编辑:郭婷

  • NVIDIA
    +关注

    关注

    14

    文章

    2569

    浏览量

    94753
  • 人工智能
    +关注

    关注

    1534

    文章

    35969

    浏览量

    214593
  • 深度学习
    +关注

    关注

    70

    文章

    4004

    浏览量

    112246
收藏 人收藏

    评论

    相关推荐

    东数西算建设工程助力人工智能产业高质量发展

    随着信息技术的不断发展,云计算、移动互联网、大数据、人工智能等技术的快速创新与应用,数字经济已成为全....
    的头像 科技绿洲 发表于 06-28 11:52 103次 阅读

    工作日街道空无一人!华强北封控三天,商家:早已做好应对措施

    电子发烧友网报道(文/梁浩斌)时隔3个多月,全国最大的电子元器件交易市场和集散地华强北再次因为疫情被....
    的头像 Hobby观察 发表于 06-28 09:37 370次 阅读
    工作日街道空无一人!华强北封控三天,商家:早已做好应对措施

    壁仞科技在国产GPU芯片研发上获得的突破性进展

    上海市经信委人工智能发展处相关负责人,壁仞科技联席CEO李新荣,壁仞科技联合创始人、总裁徐凌杰一同参....
    的头像 科技绿洲 发表于 06-27 16:44 211次 阅读

    IBM陈旭东受邀参加第六届世界智能大会

    IBM 大中华区总经理陈旭东受邀参加在天津举行的第六届世界智能大会(World Intelligen....
    的头像 IBM中国 发表于 06-27 16:20 307次 阅读

    中科曙光全面布局智能计算 推出5A级智算中心

    以“智能新时代:数字赋能 智赢未来”为主题的第六届世界智能大会在天津拉开帷幕。作为核心信息基础设施领....
    的头像 中科曙光 发表于 06-27 16:11 127次 阅读

    浅谈人工智能机器人领域的趋势分析

    在新旧需求拉动下,我国工业机器人产量放量增长。MIR数据显示,今年一季度国内工业机器人出货量为6.6....
    发表于 06-27 15:52 98次 阅读

    旷视科技基于河图系统实现“群体智能”提高仓储空间利用率

     未来,人工智能将呈现两条发展路径:一是如何让物理世界变得更美好,二是如何让人类在虚拟世界里更好地享....
    的头像 科技绿洲 发表于 06-27 15:12 213次 阅读

    通过医疗物联网改善患者护理和组织健康

      与大流行加速的许多行为和实践一样,医疗物联网将继续存在。远程传感器、5G 和人工智能等技术将继续....
    的头像 星星科技指导员 发表于 06-27 15:01 174次 阅读

    曙光5A级智算中心加速AI与实体产业的深度融合

    6月24日,以“智能新时代:数字赋能 智赢未来”为主题的第六届世界智能大会在天津拉开帷幕。作为核心信....
    的头像 科技绿洲 发表于 06-27 15:00 265次 阅读

    渊亭科技全栈AI+行业解决方案及亮点优势

    6月,新疆昌吉回族自治州工业和信息化局等各部门领导莅临渊亭科技厦门总部参观调研,渊亭科技政企中心总监....
    的头像 科技绿洲 发表于 06-27 14:50 85次 阅读

    首届NVIDIA DPU中国黑客松圆满收官

    2022 年 4 月 17 日,首届 NVIDIA DPU 中国黑客松圆满收官。本次比赛有 4 只队....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-27 14:44 45次 阅读

    边缘人工智能和云计算的演进

      如前所述,物联网正在发生变化并变得更加优化,以实现大规模且具有成本效益的扩展。不断开发新的连接技....
    的头像 星星科技指导员 发表于 06-27 14:35 54次 阅读
    边缘人工智能和云计算的演进

    NVIDIA T4 GPU和TensorRT提高微信搜索速度

    腾讯公司深耕模型量化开发,且长期与 NVIDIA 团队合作,成功将深度学习模型精度从 FP32 压缩....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-27 14:34 42次 阅读

    NVIDIA RTX A6000和 NVIDIA Omniverse助力天问一号“发射”

    为纪念天问一号火星探测器成功着陆火星一周年,国家航天局和中央广播电视总台(China Media G....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-27 14:30 78次 阅读

    海康威视与济南高新将合作共建“智慧大健康联合实验室”

    6月24日,杭州海康威视数字技术股份有限公司(以下简称海康威视)和济南高新发展股份有限公司(以下简称....
    的头像 科技绿洲 发表于 06-27 14:29 200次 阅读

    NVIDIA Jetson赋能智骋致想智惠农业平台

    NVIDIA Jetson 赋能智骋致想智惠农业平台,助力 AI 在农业领域的不断发展。
    的头像 NVIDIA英伟达企业解决方案 发表于 06-27 14:27 53次 阅读

    NVIDIA与合作伙伴利于AI技术推动气候灾害管理

    联合国的一个项目使用 NVIDIA 技术和面向全球数据科学家的免费深度学习培训中心课程推动气候灾害管....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-27 14:23 172次 阅读

    NVIDIA EGX 平台能改进洪水预测GPU 加速模型

    为了推动改善气候行动,创造健康的全球环境,NVIDIA 正与联合国卫星中心(UNOSAT)合作,发挥....
    的头像 科技绿洲 发表于 06-27 14:21 160次 阅读

    壁仞科技与平安科技正式签署战略合作协议

    近日,壁仞科技与平安科技正式签署战略合作协议,强强联手打造领先的国产高性能算力基础设施落地标杆,共同....
    的头像 科技绿洲 发表于 06-27 10:35 210次 阅读

    【STM32中国线上技术周】聚焦五大主题、47+方案展示及答疑,全面展示STM32嵌入式技术创新和生态战略!

    ▌STM32中国线上技术周简介 在STM32诞生15周年之际,意法半导体将首次举办 “STM32中国线上技术周”。通过本次线上技术...
    发表于 06-27 09:47 662次 阅读
    【STM32中国线上技术周】聚焦五大主题、47+方案展示及答疑,全面展示STM32嵌入式技术创新和生态战略!

    5G和数字化转型将如何影响存储

      5G 将在我们如何旅行、照顾我们的健康和消费娱乐方面发挥重要作用。然而,在实现这些可能性之前,成....
    的头像 星星科技指导员 发表于 06-27 09:10 137次 阅读

    热度连年增高,今年95所高校新增人工智能专业!

    电子发烧友网报道(文/李弯弯)近日消息,今年,普通高校新增本科专业31种,包括碳储科学与工程、空天智....
    的头像 Carol Li 发表于 06-25 07:57 1516次 阅读
    热度连年增高,今年95所高校新增人工智能专业!

    基于RK3399 + RK1808的人工智能平台项目实战

    云计算与边缘计算 云计算 端侧仅负责发送输入数据,并接收计算结果 计算资源集中管理和分配,借助服务器的强大性能,可以实现...
    发表于 06-24 17:44 1917次 阅读

    工业运营商需要5G URLLC以及他们如何实现

    5G 网络最大的架构差异是核心网络从集中位置移动到边缘的分布式点。网络功能虚拟化 (NFV) 和软件....
    发表于 06-24 16:43 209次 阅读
    工业运营商需要5G URLLC以及他们如何实现

    为什么5G对物联网和高科技很重要

      5G 可以成为商业物联网用例子集的主要推动力。这是一个广泛使用的标准,背后有足够的基础设施可以扩....
    的头像 星星科技指导员 发表于 06-24 16:27 390次 阅读
    为什么5G对物联网和高科技很重要

    微软以数字技术演绎可持续发展“四则运算”

    2022世界环境日(6月5日)恰逢第一届联合国人类环境会议举办50周年。联合国为今年的环境日赋予了一....
    的头像 微软科技 发表于 06-24 16:00 305次 阅读

    NVIDIA Riva 2.0的功能亮点有哪些

    NVIDIA Riva 可提供经过全面优化的流程,用于部署实时 AI 语音应用(例如转录和虚拟助理)....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-24 15:33 130次 阅读

    艺术家使用NVIDIA Omniverse创造出照明效果逼真的3D模型

    创意人员使用 Autodesk、Adobe Substance 3D 应用和 NVIDIA Omni....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-24 15:27 82次 阅读

    使用AI技术推动精准医疗的发展

    来自英国的 NVIDIA 初创加速计划成员 PrecisionLife 使用 AI 主导的数据分析确....
    的头像 NVIDIA英伟达 发表于 06-24 15:21 602次 阅读

    NLP的工作原理是什么 有哪些用例

    自然语言处理是一项利用计算机和软件获取人类语言(书面或口语)含义的技术。
    的头像 NVIDIA英伟达 发表于 06-24 15:19 84次 阅读

    NVIDIA DOCA数据处理器软件正式开放

    NVIDIA 联合发起 Linux 基金会项目,致力于实现数据中心创新的大众化;进一步向软件提供商、....
    的头像 NVIDIA英伟达 发表于 06-24 15:00 103次 阅读

    旷视以AI技术助力数字乡村快发展

    从远程问诊,到智能公交,再到智慧教育,随着 5G、云计算、人工智能等技术的飞速发展,如今的乡村也和城....
    的头像 旷视MEGVII 发表于 06-24 14:59 254次 阅读

    拓维信息与湖南工商大学签署校企战略合作协议

    6月22日上午,拓维信息及旗下湘江鲲鹏与湖南工商大学正式签署校企战略合作协议,拓维信息党委与学校前沿....
    的头像 科技绿洲 发表于 06-24 14:35 179次 阅读

    华为携手移动打造算网协同新型数字经济基础设施

    近日,由中国移动主办的“2022科技周暨移动信息产业链创新大会“以线上线下相结合形式召开,本次主论坛....
    的头像 科技绿洲 发表于 06-24 10:56 226次 阅读

    NVIDIA DRIVE助力小马智行控制器大规模量产

    6 月 22 日,领先自动驾驶企业小马智行宣布正式对客户交付基于 NVIDIA DRIVE Hype....
    的头像 科技绿洲 发表于 06-24 10:50 1141次 阅读

    NVIDIA DOCA库API已向开发者公开提供

    本周,NVIDIA 成为 Linux 基金会开放可编程基础设施(OPI – Open Program....
    的头像 科技绿洲 发表于 06-24 10:38 260次 阅读

    Brouhaha iOS深度学习框架

    ./oschina_soft/gitee-Brouhaha.zip
    发表于 06-24 10:34 6次 阅读
    Brouhaha iOS深度学习框架

    AUTO插件和自动批处理的最佳实践

    一般来说,批尺寸(batch size) 越大的推理计算,推理效率和吞吐量就越好。自动批处理执行将用....
    的头像 OpenCV学堂 发表于 06-24 10:06 124次 阅读

    工业富联提出“数据驱动、绿色发展”战略

     6月23日,工业富联召开2021年度股东大会,100亿分红方案、20亿员工持股计划以及新董事选举等....
    的头像 科技绿洲 发表于 06-24 10:04 235次 阅读

    Linux系统下的安装与使用

    然而,开源并不意味着能用、好用。其实,AlphaFold2 软件系统的部署难度极大,并且对硬件的要求....
    的头像 OpenCV学堂 发表于 06-24 10:03 506次 阅读

    在宇宙的眼眸下如何正确地关心东数西算

    掩体纪元 67 年,宇宙,歌者文明。 “我需要一块二向箔,清理用“,一位歌者敏锐地从数据中发现了一种....
    的头像 脑极体 发表于 06-23 18:30 811次 阅读

    RK1808计算棒Rock-X demo相关资料分享

    1、RK1808人工智能计算棒全平台RockX支持 Rock-X SDK是一组快捷AI组件库,支持RK3399Pro和RK1808平台。开发者仅...
    发表于 06-23 18:11 2929次 阅读

    阿里云分布式深度学习框架帮助千亿多模态训练模型快速迭代训练

    凭借达摩院领先的AI算法和阿里云丰富的产品体系,继2021年入围远见者象限之后,阿里云进一步跃升至挑....
    的头像 科技绿洲 发表于 06-23 16:53 434次 阅读

    云从科技助力广西打造全国人工智能领域合作标杆与典范

    6月20日,云从科技与北投信创集团联合共建的“迈特高”AI智慧城市创新实验室暨云从科技东盟发展中心等....
    的头像 科技绿洲 发表于 06-23 16:46 357次 阅读

    NVIDIA RTX GPU产品能够支持4K大屏渲染和扩展内容渲染

    此前,七维科技帮助河南广播电视台完成了演播室改造项目,打造了 XR 沉浸式 4K 超高清演播室。这一....
    的头像 科技绿洲 发表于 06-23 15:11 270次 阅读

    NVIDIA正在建造一台AI超级计算机来驱动地球的数字孪生

    元宇宙是互联网向 3D 网络进化过程中的下一个重要阶段,将为娱乐、汽车、制造业、机器人等各个行业带来....
    的头像 科技绿洲 发表于 06-23 15:06 233次 阅读

    NVIDIA 3D MoMa技术可为虚拟爵士乐队调校乐器

    爵士乐的精髓在于即兴演奏, NVIDIA 正在通过 AI 研究向这一流派致敬。也许有一天,图形创作者....
    的头像 科技绿洲 发表于 06-23 14:53 196次 阅读

    片上光学深度神经网络

    虽然目前在数字芯片上的消费级图像分类技术每秒可以执行数十亿次计算(GHz),这使得它对于大多数场景来....
    的头像 中科院长春光机所 发表于 06-23 14:27 236次 阅读

    商汤科技助力通用人工智能基础研究和生态构建

    近日,计算机视觉领域顶级国际会议CVPR 2022(Computer Vision and Patt....
    的头像 商汤科技SenseTime 发表于 06-23 14:03 210次 阅读

    NVIDIA RTX A6000助力实现高效渲染输出高质量画面

    电视演播室作为电视节目制作的重要场所,承担了除外拍节目外的大部分节目录制和制作任务,随着设备技术突飞....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-23 12:06 182次 阅读

    NVIDIA在自动驾驶领域取得的新突破

    此前,NVIDIA 中国区软件解决方案总监卓睿代表 NVIDIA 参加了视频采访,针对 NVIDIA....
    的头像 NVIDIA英伟达企业解决方案 发表于 06-23 12:03 575次 阅读

    TB-RK1808S0 AI 计算棒开发指南

    1、TB-RK1808S0 AI 计算棒开发介绍RK1808 人工智能计算棒是瑞芯微旗下 Toybrick 系列产品中的一员,计算棒搭载瑞芯微的...
    发表于 06-21 18:11 2478次 阅读

    英码RK3588开发套件限量首发!6大亮点内外兼修,超高性价比

    在“十四五”规划推动下,AIoT加快与产业融合并逐步落地,AI场景应用落地过程中,IoT终端硬件的智能化需求日益突出,芯片...
    发表于 06-07 11:07 1120次 阅读
    英码RK3588开发套件限量首发!6大亮点内外兼修,超高性价比

    很好的一本书,适合初学者

    发表于 06-05 18:49 4316次 阅读

    RK3399开发板AI人工智能深度学习之TensorFlow 测试

    硬件平台:迅为-RK3399开发板 系统:ubuntu项目:TensorFlow 测试 配套资料在网盘资料的“iTOP-3399 开发资料汇总(不含...
    发表于 05-13 15:41 1606次 阅读
    RK3399开发板AI人工智能深度学习之TensorFlow 测试

    如何用人工智能来解决摄影中照片出现人像模糊不清的问题

          每个人毕竟都不是专业摄影师,因为一些取景以及构图或者外在环境的因素,一些人像照片总会产生不很清...
    发表于 05-01 13:18 6316次 阅读
    如何用人工智能来解决摄影中照片出现人像模糊不清的问题

    Sipeed M2DOCK:全志V831 开源 人工智能 神经网络 视觉 AI Python开发板

    作者@Sipeed 原文链接:
    发表于 04-29 15:06 2712次 阅读

    如何设计智能型水杯

    使用单片机、ESP8266、PWM驱动器、以及半导体加热片制作一个水温控制系统。 使用钢制器皿作为容器,最少容量100ml。 通过...
    发表于 04-27 22:11 1184次 阅读