0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过全栈创新推动高性能计算

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-06-21 15:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

高性能计算(HPC)已成为科学发现的基本工具。

无论是发现新的拯救生命的药物,对抗气候变化,还是创建精确的世界模拟,这些解决方案都需要巨大且快速增长的处理能力。它们越来越超出传统计算方法的范围。

这就是为什么业界接受 NVIDIA GPU加速计算的原因。与人工智能相结合,它为科学进步带来了性能上百万倍的飞跃。如今,2700个应用程序可以从 NVIDIA GPU 的加速中受益,而且这个数字在不断增长的300万开发者社区的支持下继续上升。

HPC 应用程序性能改进

要在整个 HPC 应用程序范围内实现数倍的加速,需要在堆栈的各个级别进行不懈的创新。这从芯片和系统开始,一直到应用程序框架本身。

NVIDIA 平台每年都在继续提供显著的性能改进,在体系结构和整个 NVIDIA 软件堆栈方面都取得了不懈的进步。与六年前发布的 P100 相比, H100 Tensor Core GPU 预计性能将提高 26 倍,比摩尔定律快 3 倍多。

pYYBAGKxbzWACbucAAB-hWVUDoU496.png

图 1 NVIDIA HPC + AI 平台性能从 P100 到 H100

图 2 NVIDIA HPC SDK 为每个功能提供了开发人员资产。

NVIDIA 平台的核心是功能丰富且高性能的软件堆栈。为了促进 GPU 在最广泛的 HPC 应用中的加速,该平台包括 NVIDIA HPC SDK 。 SDK 提供了无与伦比的开发人员灵活性,支持使用标准语言、指令和 CUDA 创建和移植 GPU 加速的应用程序。

NVIDIA HPC SDK 的强大功能在于一整套高度优化的 GPU 加速数学库 ,使您能够充分发挥 NVIDIA GPU 的性能潜力。为了获得最佳的多 GPU 和多节点性能, NVIDIA HPC SDK 还提供了功能强大的通信库:

NVSHMEM 为跨越多个 GPU 内存的数据创建全局地址空间。

NVIDIA 集体通信库( NCCL ) 优化了 GPU 之间的通信。

总之,该平台提供了最高的性能和灵活性,以支持不断增长的 GPU 加速 HPC 应用程序。

HPC 性能和能效

为了展示 NVIDIA 全栈创新如何转化为 accelerated HPC 的最高性能,我们比较了 HPE 服务器与四个 NVIDIA GPU 服务器的性能,以及基于其他供应商同等数量加速器模块的类似配置服务器的性能。

我们使用各种数据集测试了一组五个广泛使用的 HPC 应用程序。虽然 NVIDIA 平台可以加速 2700 个跨行业的应用程序,但我们在比较中可以使用的应用程序受到其他供应商加速器可用软件和应用程序版本选择的限制。

对于除分子动力学模拟软件 NAMD 以外的所有工作负载,我们的结果是使用多个数据集的结果几何平均值计算的,以最小化异常值的影响,并代表客户体验。

我们还在多 GPU 和单 GPU 场景中测试了这些应用程序。

在多 GPU 场景中,测试系统中的所有加速器都用于运行单个模拟,基于 A100 Tensor Core GPU 的服务器提供的性能比备选方案高出 2.1 倍。

poYBAGKxbzyATqPHAABoKvu2OeU771.png

图 3 NVIDIA A100 four- GPU 性能比较

在计算性能不断进步的推动下,分子动力学领域正朝着在更长的模拟时间内模拟更大的原子系统的方向发展。这些进展使研究人员能够模拟越来越多的生化机制,如光合电子传递和视觉信号转导。这些和其他过程长期以来一直是科学辩论的主题,因为它们已经超出了模拟的范围,模拟是验证的主要工具。这是由于完成模拟所需的时间过长。

然而,我们认识到,并非所有这些应用程序的用户在每次模拟时都使用多个 GPU 来运行它们。为了获得最佳吞吐量,最佳执行方法通常是为每个模拟分配一个 GPU 。

当在 NVIDIA A100上的单个加速器模块上运行这些相同的应用程序时,基于 NVIDIA A100的系统的性能提高了1.9倍。

poYBAGKxb0KAC18OAABliRdEc-I637.png

图 4 NVIDIA A100 单 – GPU 性能比较

能源成本占数据中心和超级计算中心总体拥有成本( TCO )的很大一部分,这突出了节能计算平台的重要性。我们的测试表明, NVIDIA 平台提供的每瓦吞吐量比其他产品高出 2.8 倍。

pYYBAGKxb0qARA-FAABX2KZXRmk192.png

图 5 NVIDIA A100 能效比较

显示 A100 与 MI250 的效率比– NVIDIA 的效率越高越好。对每个应用程序的多个数据集(不同)进行 Geomean 。效率是指 GPU 使用 NVIDIA SMI 和 ROCm 中的等效功能测量的性能/功耗(瓦特)|

AMD MI250 在千兆字节 M262-HD5-00 上测量,具有( 2 )个 AMD EPYC 7763 和 4 个 AMD Instinct ™ MI250 OAM ( 128 GB HBM2e ) 500W GPU 带 AMD Infinity 结构™ 技术 NVIDIA 在 ProLiant XL645d Gen10 Plus 上运行,使用双 EPYC 7713 CPU 和 4x A100 ( 80 GB ) SXM4

LAMMPS develop \ u db00b49 ( AMD ) develop \ u 2a35ec2 ( NVIDIA )数据集 ReaxFF / c 、 Tersoff 、 Leonard Jones 、 SNAP | NAMD 3.0alpha9 数据集 STMV \ u NVE | OpenMM 7.7.0 数据集的集成运行: amber20 STMV 、 amber20 Cellular 、 apoa1pme 、 pme |

GROMACS 2021.1 ( AMD ) 2022 ( NVIDIA )数据集 ADH-Dodec (氢键), STMV (氢键)|琥珀色 20 。 xx \ U rocm \ U mr \ U 202108 ( AMD )和 20.12-AT \ U 21.12 ( NVIDIA )数据集 Cellular \ u NVE 、 STMV \ u NVE | 1x MI250 有 2x GCD

NVIDIA A100 GPU 卓越的性能和电源效率是多年不懈的软硬件协同优化的结果,以最大限度地提高应用程序性能和效率。

A100 还以单处理器的形式出现在操作系统中,只需要启动一个 MPI 列即可充分利用其性能。而且,由于节点中所有 GPU 之间的 600 GB / s NVLink 连接 , A100 在规模上提供了优异的性能。

AI 和 HPC 融合

正如加速计算为建模和仿真应用带来了数倍的加速一样, AI 和 HPC 的结合将带来性能的下一步功能提升,开启下一波科学发现。

关于作者

Ashraf Eassa 是NVIDIA 加速计算集团内部的高级产品营销经理。

Chris 是 NVIDIA HPC 和 AI 的高级技术营销经理。此前,他在 IBM 担任聚合 HPC 和 AI 的产品经理,将 HPC 、 AI 和优化产品推向市场,专注于电子设计、航空航天和汽车行业。 Chris 拥有航空工程硕士学位,专注于设计优化。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电源
    +关注

    关注

    185

    文章

    18969

    浏览量

    264427
  • 处理器
    +关注

    关注

    68

    文章

    20325

    浏览量

    254692
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110095
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Vibe Coding AI开发实战

    Coding AI开发模式凭借其独特的优势,正成为开发者们提升效率、加速创新的新利器。(搜星 课it。top) Vibe Coding:重新定义开发范式 Vibe Coding,字面意思是“氛围编程
    发表于 04-15 16:02

    中科曙光助力海南师范大学国产超智融合计算平台正式上线

    近日,由中科曙光提供技术支撑的海南师范大学国产超智融合计算平台正式上线。该平台由人工智能学院承建,旨在构建“智慧教育—智慧生态—AI”三位一体研究体系,为海南自贸港科研创新注入强劲
    的头像 发表于 04-10 17:13 1078次阅读

    国产高性能ONFI IP解决方案解析

    1. 什么是ONFI IP?其在AI时代的作用是什么?ONFI (Open NAND Flash Interface) 是连接闪存控制器与NAND颗粒的关键高速接口协议。在AI和高性能计算(HPC
    发表于 01-13 16:15

    摩尔线程在MDC 2025重磅发布创新成果

    12月20日,在首届MUSA开发者大会上,摩尔线程创始人、董事长兼CEO张建中发表主题演讲,系统展示了以自主MUSA统一架构为核心的创新成果,全面展现公司在技术和生态上的关键突破与前瞻布局。
    的头像 发表于 12-22 18:04 1562次阅读

    AMD携式AI解决方案亮相进博会,赋能人工智能+

    2025年11月5日,上海: 第八届中国国际进口博览会在上海正式启幕。作为全球高性能与自适应计算领导者,AMD连续五年亮相进博会。今年,以“AMD赋能人工智能+”为主题,AMD全面展示贯穿云、端
    的头像 发表于 11-06 12:53 357次阅读
    AMD携<b class='flag-5'>全</b><b class='flag-5'>栈</b>式AI解决方案亮相进博会,赋能人工智能+

    数据复用高性能池化层设计思路分享

    大家好,本团队此次分享的内容为可实现数据复用高性能池化层设计思路,核心部分主要由以下3个部分组成; 1.SRAM读取模块;——池化使用的存储为SRAM 基于SRAM读与写时序,约束池化模块读与写
    发表于 10-29 07:10

    自动驾驶中常提的“”是个啥?有必要“”吗?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,越来越多车企公布了自己的自动驾驶方案,在很多车企的宣传中,会使用“自研”的说法来证明自己的实力。所谓“”,字面意思是全套技术
    的头像 发表于 08-27 09:43 1381次阅读
    自动驾驶中常提的“<b class='flag-5'>全</b><b class='flag-5'>栈</b>”是个啥?有必要“<b class='flag-5'>全</b><b class='flag-5'>栈</b>”吗?

    黑芝麻智能AI机器人计算平台荣膺国际大奖

    黑芝麻智能AI机器人计算平台荣膺新加坡年度"GO! Technology Utilisation Winner",作为面向新一代机器人实时AI推理打造的
    的头像 发表于 08-07 17:35 2360次阅读

    AI应用创新技术融合分论坛即将召开

    2025开放原子开源生态大会即将启幕,其中 “AI应用创新技术融合分论坛”将于 7月24日重磅亮相。论坛聚焦人工智能技术与开源生态的深度融合,邀请各领域用户、技术专家、开发者分享AI应用
    的头像 发表于 07-23 09:54 1073次阅读

    知合计算:RISC-V架构创新,阿基米德系列剑指高性能计算

    在2025 RISC-V中国峰会上,知合计算处理器设计总监刘畅就高性能RISC-V处理器架构探索与实践进行了精彩分享。 在以X86和ARM为代表的处理器架构之下,RISC-V在高性能计算
    的头像 发表于 07-18 14:17 2953次阅读
    知合<b class='flag-5'>计算</b>:RISC-V架构<b class='flag-5'>创新</b>,阿基米德系列剑指<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>

    高性能计算集群在AI领域的应用前景

    随着人工智能技术的飞速发展,高性能计算集群(HPC)在AI领域的应用前景日益受到关注。HPC提供的计算能力与AI的智能分析能力相结合,为解决复杂问题和推动科学研究提供了新的动力。1、H
    的头像 发表于 06-23 13:07 1414次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>集群在AI领域的应用前景

    使用树莓派构建 Slurm 高性能计算集群:分步指南!

    在这篇文章中,我将分享我尝试使用树莓派构建Slurm高性能计算集群的经历。一段时间前,我开始使用这个集群作为测试平台,来创建一个更大的、支持GPU计算高性能
    的头像 发表于 06-17 16:27 1940次阅读
    使用树莓派构建 Slurm <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>集群:分步指南!

    佑驾创新获长安汽车量产定点 为其提供高性能辅助驾驶域控制器产品

    佑驾创新(2431.HK)近日宣布,与长安汽车达成重要合作,获得其旗下新能源自主品牌主力车型的定点项目。佑驾创新作为选定供应商,将为其提供高性能辅助驾驶域控制器产品,共同助推全场景辅助驾驶技术
    的头像 发表于 06-06 09:54 1672次阅读

    高性能计算面临的芯片挑战

    高性能计算(简称HPC)听起来像是科学家在秘密实验室里才会用到的东西,但它实际上是当今世界上最重要的技术之一。从预测天气到研发新药,甚至训练人工智能,高性能计算系统都能帮助解决普通
    的头像 发表于 05-27 11:08 1217次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>计算</b>面临的芯片挑战

    Synaptics发布高性能AI MCU,推动边缘计算新突破

    新突思科技发布SR系列高性能自适应微控制器(MCU),基于Astra™原生AI平台,专为边缘AI情境感知设计。该系列支持三种功耗模式(性能、超低功耗、持续运行),搭载Arm Cortex-M55内核
    的头像 发表于 04-23 10:00 926次阅读
    Synaptics发布<b class='flag-5'>高性能</b>AI MCU,<b class='flag-5'>推动</b>边缘<b class='flag-5'>计算</b>新突破