0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LANL与NVIDIA合作打造出云原生超级计算平台

科技绿洲 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-06-01 14:33 次阅读

在欧洲和美国,HPC 开发者正在利用 NVIDIA BlueField-2 DPU 内的 Arm 核和加速器的强大功能为超级计算机提供强大助力。

美国洛斯阿拉莫斯国家实验室(LANL)正在与 NVIDIA 进行一项为期多年的广泛合作,这项合作旨在将计算型多物理应用的性能提高 30 倍。

LANL 研究人员预计,使用在 NVIDIA Quantum InfiniBand 网络上运行的 DPU(数据处理器)可显著提升性能。这将使利用 BlueField 以及 NVIDIA DOCA 软件框架在计算存储、模式匹配等领域实现技术创新。

面向 DPU 的开放式 API

这些努力还将有助于进一步定义 OpenSNAPI ,任何人都可通过该应用接口来控制 DPU 。这是统计计算框架(Unified Communication Framework)的一个项目,Unified Communication Framework 是一个旨在实现 HPC 应用异构计算的联盟,成员包括 Arm 、IBM 、NVIDIA 、美国国家实验室和美国的一些大学。

LANL 已经感受到网络计算的强大功能,这要归功于其创建的 DPU 赋能的存储系统。

加速闪存盒(ABoF,如下图所示)将固态存储与 DPU 和 InfiniBand 加速器相结合,可为 Linux 文件系统的关键性能部分提供加速。它的性能高达同类存储系统的 30 倍,并将成为 LANL 基础架构中的关键组件。

一位研究人员在近期的 LANL 博客中表示:“ABoF 让计算靠近存储,可更大限度减少数据移动,从而提高仿真和数据分析工作流程的效率。”

德克萨斯州打造出云原生超级计算平台

德克萨斯高级计算中心(TACC)近期也开始在 Dell PowerEdge 服务器中采用 BlueField-2 。它将在 InfiniBand 网络上使用 DPU,使其 Lonestar6 系统成为云原生超级计算的开发平台。

TACC 的 Lonestar6 为德州农工大学、德州理工大学和北德克萨斯大学的众多 HPC 开发者,以及一些研究中心和教职人员提供服务。

MPI 获得加速

在距 TACC 东北部 1200 英里的地方,俄亥俄州立大学的研究人员展示了 DPU 如何将一个 HPC 热门编程模型的运行速度提高 26%。

他们通过卸载消息传递接口(MPI)的关键部分,加速了 P3DFFT ,这是一个用于众多大规模 HPC 仿真的数学库。

俄亥俄州立大学计算机科学与工程专业的教授 Dhabaleswar K. (DK) Panda 在其带领的 MVAPICH 开源软件团队推动 DPU 工作,他表示:“DPU 就像是为忙碌的高管处理工作的助手,它们将成为主流,因为它们可以加速运行各种工作负载。”

HPC 中心和云中的 DPU

对于运行药物研发或飞机设计等 HPC 仿真应用的超级计算机而言,高达两位数的性能加速是惊人的。Panda 表示,云服务可以利用这些加速提高客户的生产力,他已收到多个 HPC 中心的代码请求。

Quantum InfiniBand 网络以及 NVIDIA SHARP 特性,助力他高效完成工作。

他说:“其他人还在谈论网络计算,而 InfiniBand 已经在为它提供支持。”

达勒姆开发负载均衡

欧洲的多个研究团队正利用 BlueField DPU 加速 MPI 和其他 HPC 工作负载。

例如,英格兰北部的达勒姆大学正在开发一款软件,用于在 16 个节点的 Dell PowerEdge 集群上使用 BlueField DPU 以实现 MPI 作业的负载均衡。该项目的首席调查员 Tobias Weinzierl 表示,该软件将为全球各地的 HPC 设施更高效地处理更好算法铺平道路。

剑桥大学和慕尼黑的 DPU 应用

剑桥大学、伦敦和慕尼黑的研究人员也在使用 DPU 。

伦敦大学学院正在探索如何在 BlueField-2 DPU 上为主机系统调度作业。例如,可以使用它的能力在主机处理器之间移动数据,以便在需要时数据已然就位。

Dell PowerEdge 服务器内的 BlueField DPU 可为 Cambridge Service for Data Driven Discovery 服务卸载主机 CPU 的安全策略、存储框架和其他作业,从而更大限度地提高系统性能。

与此同时,慕尼黑工业大学计算机体系架构和并行系统组的研究人员正在寻找方法,使用 DPU 来卸载 MPI 和操作系统任务,这是 EuroHPC 项目的一部分。

在美国,佐治亚理工学院的研究人员正在与桑迪亚国家实验室合作,利用 BlueField-2 DPU 加速分子动力学研究。一篇论文描述了他们目前的工作成果,其中表明,算法可以加速高达 20% ,且不会损失模拟的准确性。

不断扩展的网络

本月早些时候,日本研究人员宣布将推出一款采用新版 NVIDIA H100 Tensor Core GPU 的系统,该系统将搭载速度更快、更智能的 NVIDIA Quantum-2 InfiniBand 网络平台。

NEC 将使用 H100 的为筑波大学计算科学中心构建算力大约为 6 PFLOPS 超级计算机。研究人员将使用该系统实现气候学、天体物理学、大数据、AI 和更多方面的研究。

与此同时,Panda 等研究人员已经开始考虑如何使用 BlueField-3 DPU 的核心功能。

他打趣道:“这就像雇佣拥有大学学位的行政助理,而不是那些拥有高中文凭的行政助理一样,所以我希望能够完成越来越多的工作卸载。”

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18219

    浏览量

    221943
  • NVIDIA
    +关注

    关注

    14

    文章

    4579

    浏览量

    101640
  • 软件
    +关注

    关注

    67

    文章

    4336

    浏览量

    85582
  • 大数据
    +关注

    关注

    64

    文章

    8632

    浏览量

    136568
收藏 人收藏

    评论

    相关推荐

    云原生是大模型“降本增效”的解药吗?

    云原生AI正当时
    的头像 发表于 02-20 09:31 125次阅读

    米哈游大数据云原生实践

    近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为例,在云上运行
    的头像 发表于 01-09 10:41 252次阅读
    米哈游大数据<b class='flag-5'>云原生</b>实践

    鸿蒙千帆起】《开心消消乐》完成鸿蒙原生应用开发,创新多端联动用户体验

    技术还为用户打造出创新的分布式游戏玩法。通过与 HarmonyOS 分布式有机结合,可实现多设备协同的分布式 PK 场景。在此场景下,用户操作各自的 HarmonyOS 设备,使用智慧屏实时显示对战
    发表于 01-03 10:22

    亚马逊云科技与 NVIDIA 宣布开展战略合作,为生成式 AI 提供全新超级计算基础架构、软件和服务

    NVL32 的 NVIDIA DGX 云 即将登陆亚马逊云科技。 两家公司联合开展“Project Ceiba”合作项目,即全球最快的 GPU 驱动 AI 超级计算机和最新
    的头像 发表于 11-29 21:00 384次阅读
    亚马逊云科技与 <b class='flag-5'>NVIDIA</b> 宣布开展战略<b class='flag-5'>合作</b>,为生成式 AI 提供全新<b class='flag-5'>超级</b><b class='flag-5'>计算</b>基础架构、软件和服务

    ABI发布电信云原生平台及运维白皮书

    近日,由Informa Tech主办的5G核心网峰会在伊斯坦布尔举行。ABI Research高级分析师 Don Alusha在峰会上发布了《云原生平台和管理趋势:标准和容器展望》白皮书。该白皮书
    的头像 发表于 11-17 19:40 309次阅读
    ABI发布电信<b class='flag-5'>云原生平台</b>及运维白皮书

    中国移动网络云原生演进技术白皮书

    云原生是近几年云计算领域炙手可热的话题。目前,无论互联网企业还是传统企业,都在拥抱云原生云原生是包含系列技术体系、系统设计理念、组织管理方法的全面系统变革,其核心要素包含基础设施
    发表于 08-30 12:15 426次阅读
    中国移动网络<b class='flag-5'>云原生</b>演进技术白皮书

    Arm正与云原生软件生态系统建立坚实的合作关系

    Arm 正在与云原生软件生态系统建立坚实的合作关系,以确保开源项目能够为开发者带来更多原生多架构的支持。此外,Arm 还积极与社区成员和代码贡献者合作,旨在为其提供无缝的软件开发体验。
    的头像 发表于 08-30 10:13 373次阅读
    Arm正与<b class='flag-5'>云原生</b>软件生态系统建立坚实的<b class='flag-5'>合作</b>关系

    NVIDIA 与 Hugging Face 将连接数百万开发者与生成式 AI 超级计算

    合作将使开发者能够使用 Hugging Face 平台内的 NVIDIA DGX™ Cloud AI 超级计算为高级 AI 模型进行训练及调
    发表于 08-09 11:41 108次阅读
    <b class='flag-5'>NVIDIA</b> 与 Hugging Face 将连接数百万开发者与生成式 AI <b class='flag-5'>超级</b><b class='flag-5'>计算</b>

    牵手新希望乳业打造云原生联合创新实验室 打造乳制品行业数字化最佳解决方案

    云原生应用联合创新实验室暨战略合作签约仪式。 新希望集团 CDO 兼新希望数科集团 CEO 李旭昶、新希望乳业 CIO 兼创元致知总经理胡柳通及「DaoCloud 道客」CTO 兼联合创始人郭峰、西区销售总经理杨熙等人共同出席仪式。 在会上,双方共同
    的头像 发表于 07-25 13:30 519次阅读

    Ampere的192核云原生CPU首度导入Chiplet设计

    Ampere Computing以自有IP打造的192核云原生CPU——AmpereOne系列处理器的技术细节陆续曝光。
    的头像 发表于 06-21 18:03 742次阅读
    Ampere的192核<b class='flag-5'>云原生</b>CPU首度导入Chiplet设计

    探索NVIDIA AI和Omniverse加速设计创作

    面对这个时代的发展机遇,NVIDIA 带来的是 Omniverse 平台NVIDIA Omniverse 是一个启用多 GPU 的开放式云原生平台,由
    的头像 发表于 06-13 15:40 346次阅读

    探索云原生技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会云原生分论坛即将启幕

    随着开源成为软件技术创新和协同发展的重要模式,企业对云原生的认知日益强化,越来越多的企业应用云原生技术与产品解决实际问题,云原生进入落地爆发的关键期。IDC报告显示,2023年企业云原生
    的头像 发表于 06-01 14:48 313次阅读
    探索<b class='flag-5'>云原生</b>技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会<b class='flag-5'>云原生</b>分论坛即将启幕

    探索云原生技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会云原生分论坛即将启幕

    随着开源成为软件技术创新和协同发展的重要模式,企业对云原生的认知日益强化,越来越多的企业应用云原生技术与产品解决实际问题,云原生进入落地爆发的关键期。IDC报告显示,2023年企业云原生
    的头像 发表于 05-30 01:40 364次阅读
    探索<b class='flag-5'>云原生</b>技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会<b class='flag-5'>云原生</b>分论坛即将启幕

    NVIDIA Grace 掀起新型节能 Arm 超级计算机的新浪潮

    英国科研联盟 GW4 打造能效提升 6 倍的超级计算机,用于气候科学、医学研究等领域 德国汉堡 - 国际超算大会(ISC)- 2023 年 5 月 21 日 - NVIDIA 今天
    的头像 发表于 05-23 07:10 375次阅读

    了解云原生和边缘计算

    云原生和边缘计算这两个名词都是比较新的,在这里我们先来大致了解一下它们是干嘛的。 首先从万物互联的概念提出,随着网络技术的发展,当然其中主要是以5g技术的日益发展作为爆发点,可以毫无疑问的说,我们
    发表于 05-18 17:23 1次下载
    了解<b class='flag-5'>云原生</b>和边缘<b class='flag-5'>计算</b>