在法兰克福举办的全球超级计算大会上,重磅消息传来,NVIDIA宣布CUDA支持Arm CPU,为高性能计算开辟全新途径,以构建具有极高能效水平的百万兆级AI超级计算机。北京时间6月17日下午四点,NVIDIA与媒体召开电话会议。下文将详解双方合作始末,以及<电子发烧友>独家求证后获知的信息。
NVIDIA携手Arm意欲何在?
随着传统计算规模扩展步伐的停止,功率将成为所有超级计算机的限制因素。对于与Arm的携手,NVIDIA创始人兼首席执行官黄仁勋表示:“NVIDIA CUDA加速的计算和Arm的高能效CPU架构的相结合,将助力HPC社区实现大幅提升,以达到百万兆级。”双方合作的原因主要有两方面:首先,客户需要更多选择,一旦完成堆栈优化,Nvidia将加速所有主要CPU架构,包括x86、Power和ARM;其次,通过将NVIDIA软件栈引入Arm生态系统,将进一步助推在HPC服务器市场的创新。
年底前,NVIDIA将向Arm生态系统提供全堆栈的AI和HPC软件,该堆栈为600多个HPC应用程序和所有AI框架提供加速,其中包括了所有NVIDIA CUDA-X AI和HPC库、GPU加速的AI框架和软件开发工具,如支持OpenACC的PGI编译器和性能分析器。
NVIDIA解决方案架构与工程团队副总裁Marc Hamilton透露,NVIDIA和Arm已为这个计划准备了两年左右,认为现在是最佳的发布时机。建立在双方超过10年的合作基础之上,此前,NVIDIA几款用于便携式游戏、自动驾驶汽车、机器人和嵌入式AI计算的系统级芯片产品都采用了Arm。全球众多涉及超级计算的项目或单位都在寻求Arm的加入,包括欧洲处理器计划(European Processor Initiative)、日本先进情报项目中心 (RIKEN)、美国能源部的先锋项目(DOE Vanguard project)等。
合作仅止于HPC软件方面?还是会进一步影响到某些应用市场?NVIDIA表示,合作同时也是对于其他平台的补充,例如Jetson Xavier,并将进一步拓展在数据中心和HPC平台的合作。
超算竞争再加剧
在超级计算机中使用基于Arm的体系结构是值得注意的,和其他架构相比,Arm的一大特色在于出色的能效,能够为超级计算提供开放式架构,用户可以实现更为高度的集成。对于需要快速处理和分析大型数据集的研究密集型任务,能够满足内存容量和可扩展性需求。Arm已经在世界各地的许多HPC中心获得了越来越多的关注,NVIDIA支持Arm CPU后,将为研发超算的研究人员们提供了除英特尔和IBM外的第三种选择,并使得研发者可以通过这种方式获得更多的自主控制能力。对于已经选择了Arm CPU的用户来说,他们同时可以获得NVIDIA GPU加速计算选项。CUDA强大的软件能力,将能够和Arm的软件生态无缝衔接,强强联合。
一直以来,Arm并没有放弃将其处理器扩展至高性能计算领域的坚持。近年来大的举动有:2016年8月宣布将与日本富士通公司合作,开发一个以64位ARMv8-A驱动的Post K超级计算机,并于当年12月宣布收购Allinea Software公司,后者主要为超级计算机提供性能分析工具。在2018年11月的TOP500列表上,首次出现了Arm的身影,而且是安装在大名鼎鼎的美国桑迪亚国家实验室。与此同时,Cray于2018年11月在英国气象局交付了一台基于Arm的超级计算机"Isambard",而日本的下一代超级计算机"Post-K"也同样基于Arm架构。
超算未来将更为注重能耗
超算届有两个重要排名:TOP500和Green500。TOP500主要按照性能基准,提供通用高端应用的系统排名。而相比TOP500,Green500除了追求运算速度,更加重视超算的能耗问题。根据今年刚刚发布的Green500排行榜,在全球最节能的25款超级计算机中,有22款都得益于NVIDIA的支持。关键因素在于:采用NVIDIA GPU的超级计算机能够将繁重的处理作业卸载至更为节能的并行处理CUDA GPU之上;NVIDIA与Mellanox合作优化整体超级计算集群的处理;以及NVIDIA发明的SXM 3D封装和可实现极密集型扩展节点的NVIDIA NVLink互连技术。
携手打造超豪华“朋友圈”
包括超算中心和系统提供商以及系统级芯片制造商等在内的众多HPC行业及Arm生态系统中的全球领先企业,都表达了其对于NVIDIA携手Arm的支持。对于超算百万兆级时代的愿景,Cray认为主要在于将AI和分析与建模、仿真相结合的系统,这些系统能够支持、也经常需要为科学、工程和数字化转型所需的数据密集型工作负载构建的多种处理器架构和系统。Cray系统管理和编程环境(编译器、库和工具)已经能够在XC和未来的Shasta超级计算机上支持Arm处理器,将CUDA和CUDA-X HPC和AI软件堆栈用于Arm平台,并将其与Cray系统管理和编程环境紧密集成,能够助力其超级计算机实现最终愿景。
“欧洲处理器计划(European Processor Initiative,EPI)总经理Philippe Notton则表示,打造欧盟自己的高端、低功耗、通用和加速器解决方案,EPI和其工业合作伙伴SiPearl非常看好NVIDIA所带来的全新可能性。将EPI基于Arm的微处理器与NVIDIA加速器相结合,能够匹配未来欧洲百万兆级模块化超级计算机中的构建模块。”
考虑到未来几年内百万兆级系统和大规模AI计算的兴起,Jülich超算中心负责人Thomas Lippert表示, NVIDIA对Arm处理器的支持是非常令人兴奋的发展,对于实现未来超级计算机和可组合数据中心的真正模块化至关重要。
在HPC网络方面处于领先地位的Mellanox Technologies,其InfiniBand和以太网技术连接了全球多款大型的超级计算机,其中就包括第一代基于Arm的各系统。该公司创始人兼首席执行官Eyal Waldman希望通过持续合作,部署200Gb/s HDR和计算网络技术,以优化HPC和AI工作负载,并实现新一代基于Arm的超级计算机的超级连接。
百万兆级意义何在?
全球超级计算机竞赛正朝着“百万兆级计算”这个里程碑似的目标前进着。百万兆级意味着什么?一个百万兆级的计算机一瞬间进行的计算量,相当于地球上所有人每天每秒都不停地计算四年。
这种非凡的力量将使研究人员能够进行大规模复杂的模拟,从而在许多领域取得进展,从气候科学到基因组学、可再生能源和人工智能。田纳西大学的超级计算机专家Jack Dongarra曾说过:“百万兆级的计算机是一项有力的科学工具,就像粒子对撞机或巨型望远镜一样。”这些机器在工业上也很有用,它们可以被用于加速产品设计和识别新材料。军方和情报机构也渴望这样的超级计算机能够将被用于维护国家安全。超级计算机是促进科学发现的重要工具,建立百万兆级超级计算将能够极大地扩展人类知识的边界。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
ARM
+关注
关注
135文章
9614浏览量
394425 -
NVIDIA
+关注
关注
14文章
5729浏览量
110301 -
超级计算
+关注
关注
1文章
45浏览量
11597 -
HPC
+关注
关注
0文章
351浏览量
25113 -
CUDA
+关注
关注
0文章
128浏览量
14576
发布评论请先 登录
相关推荐
热点推荐
借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程
NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,从而释放 GPU 的极限性能。CUDA Tile 的
中科曙光scaleX万卡超集群重塑超大规模算力基础设施
在“人工智能+”行动深入推进的当下,算力基础设施已成为国家战略竞争力的核心,而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX万卡超集群打造的智能管理体系,正以“能管住-管得稳-用得好”的进阶逻辑,重塑超大规模
如何在NVIDIA CUDA Tile中编写高性能矩阵乘法
本博文是系列课程的一部分,旨在帮助开发者学习 NVIDIA CUDA Tile 编程,掌握构建高性能 GPU 内核的方法,并以矩阵乘法作为核心示例。
在Python中借助NVIDIA CUDA Tile简化GPU编程
NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用比 SIMT
NVIDIA CUDA 13.1版本的新增功能与改进
NVIDIA CUDA 13.1 是自 CUDA 二十年前发明以来,规模最大、内容最全面的一次更新。
Arm Neoverse平台集成NVIDIA NVLink Fusion
新闻重点 Arm 与 NVIDIA 持续深化合作,在 AI 时代推动协同设计与合作迈向新高度。 生态系统合作伙伴可将高效的 Arm 架构计算能力集成至 NVIDIA NVLink Fu
NVIDIA在Hot Chips 2025大会展示创新技术
本周在加利福尼亚州帕洛阿尔托(Palo Alto)举行的 Hot Chips 大会上,NVIDIA 专家详细介绍了 NVIDIA NVLink 和Spectrum-X 以太网技术、Blackwell 以及 CUDA 如何为全球数
AI MCU#兆易创新GD32H7系列MCU解读
兆易创新GD32H7系列MCU是中国首款基于Arm® Cortex®-M7内核的超高性能微控制器,主打高算力与多场景适配能力,以下从核心特性应用场景及开发生态三方面深度解析: 一核心性能与架构
软通智算完成超亿级A轮融资,加速AI算力产业布局
北京 2025年6月18日 /美通社/ -- 近日,软通动力旗下软通智算科技(广东)集团有限公司(以下简称"软通智算")完成超亿级A轮融资,本轮融资由盛景嘉成创投领投,广发信德、毅达资
NVIDIA B30芯片的核心解读
以下是关于NVIDIA B30芯片的核心解读,综合最新行业信息与分析: 一、 产品定位:中国特供的“精准阉割版” 设计目标 专为中国市场定制,旨在规避美国出口管制(如H20芯片被禁
Arm 公司面向 PC 市场的 Arm Niva 深度解读
面向 PC 市场的 Arm Niva 深度解读 Arm Niva 是 Arm 公司为 PC 市场推出的核心计算平台,属于其“平台优先”战略的关键布局。作为
Arm 公司面向汽车市场的 Arm Zena 深度解读
面向汽车市场的 Arm Zena 深度解读 Arm Zena 是 Arm 公司面向智能汽车领域推出的核心计算平台,属于其“平台优先”战略的关键布局。作为
借助NVIDIA技术加速半导体芯片制造
NVIDIA Blackwell GPU、NVIDIA Grace CPU、高速 NVIDIA NVLink 网络架构和交换机,以及诸如 NVIDIA cuDSS 和
独家解读NVIDIA CUDA支持Arm——百万兆级超算竞争再加剧?
评论