0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用Magnum IO用于云本机超级计算架构

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-15 14:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

超级计算机是一项重要的投资,但对于研究人员和科学家来说,它们是极其宝贵的工具。为了有效和安全地共享这些数据中心的计算能力, NVIDIA 引入了云本地超级计算架构。它结合了裸机性能、多租户和超级计算的性能隔离。

Magnum IO是数据中心的 I / O 子系统,它引入了新的增强功能,以加速支持多租户数据中心的 I / O 和通信。我们将这些增强功能称为 Magnum IO ,用于云本机超级计算架构。

它们由 NVIDIA Quantum-2 InfiniBand 平台提供,该平台包括 NVIDIA Quantum-2 交换机系列、BlueField-3 DPU 和 ConnectX-7 网络适配器。

这种进化环境的挑战是什么?

基于 GPU 的高性能计算已经通过机器学习模拟改变了科学并增强了实验。运行这些深度学习框架和模拟工具的 GPU 会消耗数 PB 的数据,并在整个数据中心造成拥塞和瓶颈。使事情进一步复杂化的是,这些应用程序的多个实例在共享超级计算基础设施中同时运行会对每个应用程序的性能产生不利影响,从而导致无法预测的运行时间。

Magnum IO for Cloud 本机超级计算体系结构具有新的和改进的功能,以减轻在多租户环境中运行对最终用户性能的负面影响。它提供确定性的性能级别,就好像它们的应用程序是网络上唯一运行的应用程序一样。

第三代 NVIDIA SHARP (可扩展分层聚合和缩减协议)

夏普技术通过消除端点之间多次发送数据的需要,将集合操作从主机 CPU 卸载到交换机网络,从而提高了 MPI 操作的性能。这种方法减少了到达聚合节点时通过网络的数据量,并显著减少了 MPI 操作时间。

在网络中实现集体通信算法还有其他好处,例如释放宝贵的 CPU 资源用于计算,而不是使用它们来处理通信。

图 1 NVIDIA SHARP 聚合架构框图。

最近发布的 NVIDIA Quantum-2 InfiniBand 交换机为通过网络的大型数据聚合提供了几乎无限的可扩展性。由于支持无限的小消息缩减和每个交换机的多个大消息缩减流,跨共享系统运行应用程序的多个租户现在可以充分利用 SHARP 的优势。

Watch the In-Network Computing with NVIDIA SHARP Video.

性能隔离

多租户超级计算涉及许多在共享基础设施上运行的用户应用程序,可能会重复使用物理服务器、存储、网络以及这些应用程序生成的 I / O 流量模式。

NVIDIA Quantum InfiniBand 在检测到网络拥塞时管理网络拥塞,并在源位置实施控制以减少网络拥塞。但使用多租户,用户应用程序可能不知道对相邻应用程序流量的任意干扰,因此需要隔离以提供预期的性能级别。

借助最新的 NVIDIA Quantum-2 InfiniBand 平台和 Magnum IO ,创新的主动监控和拥塞管理提供了所需的流量隔离。这几乎消除了性能抖动,并确保了预期的预测性能,就像应用程序在专用系统上运行一样。

pYYBAGJZFsmAYudXAABgOQ0GTXg079.png

图 2 性能隔离的好处。

专为安全、多租户、裸机性能而打造

NVIDIA Cloud-Native Supercomputing体系结构使用 Magnum IO 在多租户环境中实现最高性能、安全性和编排。

poYBAGJZFtCAc_hCAAECd4tBFts823.png

图 3 使用 DPU 迁移到云本机超级计算体系结构。

此外,实现这种架构转换的另一个核心元素是数据处理单元( DPU ),也称为 BlueField 。作为一个完全集成的片上数据中心平台, BlueField 卸载和管理数据中心基础设施,而不是主机处理器,实现超级计算机的安全和协调。它还能够提供额外的通信框架卸载,产生 100% 的通信计算重叠,同时实现 MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。当结合 NVIDIA Quantum-2 的最新进展时,该体系结构在安全的多节点体系结构中展示了裸机性能的性能隔离。

Magnum IO 消除了 I / O 瓶颈,并公开了硬件级加速引擎、网络计算和拥塞控制方面的最新技术,这些技术是支持当今具有裸机性能的多租户数据中心所必需的。

关于作者

Scot Schultz 是 HPC 技术专家,专注于人工智能和机器学习系统。 Scot 在分布式计算、操作系统、人工智能框架、高速互连和处理器技术方面拥有广泛的知识。在他的整个职业生涯中,拥有超过 25 年的高性能计算系统经验,他的职责包括各种工程和领导角色,包括战略 HPC 技术生态系统支持。 Scot 在众多行业标准组织的成长和发展中发挥了重要作用。

Harry Petty 是一位经验丰富的数据中心营销人员和技术专家,曾在大型科技公司担任领导职务,为混合云、存储解决方案、网络处理器和服务器产品线推广 SDN 产品。他曾与许多客户合作,在多个数据中心部署应用程序。当 Harry 不讨论 HPC 数据中心的 IO 子系统时,他喜欢在北加利福尼亚州附近的 Sierra 山麓和湖泊中进行户外活动。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    18

    文章

    5767

    浏览量

    75205
  • 人工智能
    +关注

    关注

    1820

    文章

    50324

    浏览量

    266937
  • 机器学习
    +关注

    关注

    67

    文章

    8564

    浏览量

    137222
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    计算行业科普:从基础概念到未来趋势全解析

    支撑。本文将从基础定义、核心架构、发展历程、产业链条、行业特征到未来趋势,全方位拆解计算行业,带你读懂这一数字时代的核心技术领域。一、计算
    的头像 发表于 03-11 14:28 659次阅读
    <b class='flag-5'>云</b><b class='flag-5'>计算</b>行业科普:从基础概念到未来趋势全解析

    什么是企业服务器-计算

    企业服务器是指为企业提供的基于计算技术的服务器解决方案。华纳是一家计算服务提供商,为企业
    的头像 发表于 12-29 17:57 1069次阅读

    融合:创新计算架构的全面解析与应用

    在当今数字化的时代,计算已经成为推动企业创新和发展的关键技术。随着企业需求的多样化和技术环境的不断变化,单一的计算模式已无法满足企业对灵活性、可扩展性以及智能化服务的需求。融合
    的头像 发表于 12-23 14:17 476次阅读

    探秘MAGNUM RF Ganged RF组件:SMPM至65 GHz的卓越设计

    探秘MAGNUM RF Ganged RF组件:SMPM至65 GHz的卓越设计 在电子工程领域,高频组件的性能和可靠性至关重要。今天,我们就来深入了解一下MAGNUM RF Ganged RF组件
    的头像 发表于 12-18 11:30 418次阅读

    为什么要网融合?

    架构已不适应这些需求。计算服务需要强大的网络能力来保证稳定运行和通信质量,而网络资源优化也需借鉴计算理念。这些因素促进了“
    的头像 发表于 12-03 09:59 602次阅读

    NVIDIA NVQLink技术被全球十余家超级计算中心广泛采用

    NVIDIA NVQLink 被全球十余家超级计算中心广泛采用,与多家实验室及量子制造商共同推动量子计算发展。
    的头像 发表于 11-25 11:10 1016次阅读

    NVIDIA推出NVQLink高速互连架构

    NVIDIA 推出 NVIDIA NVQLink,这是一种开放式系统架构,可将 GPU 计算的极致性能与量子处理器紧密结合,以构建加速的量子超级计算机。
    的头像 发表于 11-03 14:53 889次阅读

    STM32 Nucleo IO-Link开发套件技术解析

    和X-NUCLEO-DO40A1扩展板组成。该Nucleo套件可用于评估目的和用作开发环境。P-NUCLEO-IOD5A1套件用于开发IO-Link和SIO应用,用于评估具有STM32
    的头像 发表于 10-16 10:01 1102次阅读
    STM32 Nucleo <b class='flag-5'>IO</b>-Link开发套件技术解析

    干货分享 | TSMaster IO功能使用指南—基于同星带IO设备的配置与操作步骤

    IO模块是一种用于连接计算机系统或控制系统与外部设备之间的接口模块。数字IO模块用于处理二进制信号的输入和输出,它们可以接收和发送数字信号,
    的头像 发表于 08-09 20:04 1214次阅读
    干货分享 | TSMaster <b class='flag-5'>IO</b>功能使用指南—基于同星带<b class='flag-5'>IO</b>设备的配置与操作步骤

    中国信通院发布“2025计算十大关键词”

    、大模型工程化交付、大模型一体机、终端、智能混合卓越架构、央国企“+AI”、
    的头像 发表于 07-30 10:53 3349次阅读
    中国信通院发布“2025<b class='flag-5'>云</b><b class='flag-5'>计算</b>十大关键词”

    曙光率先发布交通智能体参考架构

    当前,交通基础设施数字化转型正成为我国交通强国战略的重要落地路径。面对交通行业的新变化和长期存在的老问题,曙光率先发布“交通智能体”参考架构,即以为基础、以AI为核心、以可信计算
    的头像 发表于 06-30 13:46 953次阅读

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    ,研究人员用个人电脑构建了强大的集群,甚至改造游戏显卡,把它们用于科学研究。 当今的高性能计算系统专为高速计算而设计,其中许多都采用了 NVIDIA 加速计算技术。在 ISC 2025
    的头像 发表于 06-26 19:39 1429次阅读
    NVIDIA驱动的现代<b class='flag-5'>超级</b><b class='flag-5'>计算</b>机如何突破速度极限并推动科学发展

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨超算中心(LRZ)将迎来全新超级计算机 Blue Lion,其算力比该中心现有的 SuperMUC-NG 高性能计算机提升了约 30 倍。这台新的超级
    的头像 发表于 06-12 15:39 1352次阅读

    NVIDIA技术赋能欧洲最快超级计算机JUPITER

    NVIDIA 宣布,搭载 NVIDIA Grace Hopper 平台的 JUPITER 超级计算机成为欧洲最快超级计算机,其运行 HPC 和 AI 工作负载的速度是第二名的两倍以上。
    的头像 发表于 06-12 15:33 1652次阅读

    Arm架构何以成为现代计算的基础

    2025 年 4 月,Arm 架构迎来了问世 40 周年。这个始于英国剑桥一隅、怀揣雄心壮志的项目,如今已成为全球广泛采用的计算架构。从传感器、智能手机、笔记本电脑,到汽车、数据中心等诸多领域,有数十亿设备如今运行在 Arm
    的头像 发表于 05-20 10:02 1364次阅读