0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA引入云原生超级计算架构

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2021-11-21 10:43 次阅读

超级计算机是一项重要的投资,对于研究人员和科学家来说,它们是必不可少的宝贵工具。为了有效和安全地共享这些数据中心的计算能力, NVIDIA 引入了云原生超级计算架构。它结合了裸机性能、多租户和性能隔离统一为超级计算服务。

Magnum IO 是数据中心的 I / O 子系统,它引入了新的增强功能,以加速多租户数据中心的 I / O 和通信。我们将这些增强功能称为 Magnum IO ,用于云原生超级计算架构。

它由 NVIDIA Quantum-2 InfiniBand 平台提供,该平台包括 NVIDIA Quantum-2 交换机系列、BlueField-3 DPU 和 ConnectX-7 网卡。

这种进化环境的挑战是什么?

基于 GPU 的高性能计算已经通过机器学习模拟计算大幅改变了科学和实验。在GPU 上运行的这些深度学习框架和模拟工具可能会消耗 PB 级的数据,并在整个数据中心内造成拥塞和瓶颈。更复杂的是,这些应用程序的多个实例在共享的超级计算设施上常常同时运行并互相影响,因而造成运行性能的抖动,从而导致无法预测的运行时间。

面向云原生超级计算体系结构设计的 Magnum IO 带来新的增强功能,以减轻最终用户在多租户环境中运行应用带来的性能负面影响。它提供确定性的性能,就好像它们的应用程序是独占网络运行。

第三代 NVIDIA SHARP

(可扩展分层聚合和规约协议)

通过将集合操作从主机 CPU 卸载到交换机网络,SHARP 技术有效消除了端点之间多次发送数据的需求,从而提高了 MPI 操作的性能。这种方法大幅减少了到达聚合节点的网络流量,并显著减少了 MPI 操作时间。

在网络中实现集合通信算法还有其他好处,例如释放宝贵的 CPU 资源用于计算,而不是使用它们来处理通信。

最近发布的 NVIDIA Quantum-2 InfiniBand 交换机为大型数据聚合提供了强大的可扩展性。由于每个交换机支持几乎无限的小消息聚合和多个大消息聚合流,在共享系统上运行多租户应用程序可以充分利用 SHARP 的优势。

性能隔离

多租户超级计算实现在共享资源上运行很多用户的应用程序,可能造成物理服务器、存储、网络以及I / O流量模型的复用 。

NVIDIA Quantum InfiniBand 一直以来支持拥塞控制管理,当检测到网络拥塞时在源端实施控制以缓解拥塞。但在多租户场景,用户应用可能无意识地与相邻用户流量产生干扰,因此需要隔离以提供可预期的性能级别。

借助最新的 NVIDIA Quantum-2 InfiniBand 平台和 Magnum IO ,创新的主动监控和拥塞管理提供了良好的流量隔离。这几乎完全消除了性能抖动,并确保了预期的性能,就像应用程序运行在专用系统上一样。

专为安全、多租户、裸机性能而打造

NVIDIA Cloud-Native Supercomputing 体系结构使用 Magnum IO 在多租户环境中实现最高的性能、安全性和编排。

此外,实现这种架构转换的另一个核心元素是数据处理器( DPU ),也即 BlueField 。作为一个完全集成的片上数据中心平台, BlueField 从主机处理器卸载和管理数据中心基础设施,实现超级计算机的安全和编排。

它还能够提供额外的通信框架卸载,可达到 100% 的通信计算重叠,实现 MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。当结合最新的 NVIDIA Quantum-2 平台时,该体系结构在安全的多节点体系结构中展示性能隔离实现裸金属性能。

Magnum IO 消除了 I / O 瓶颈,拓展了硬件级加速引擎、网络计算和拥塞控制等最新技术,成为支持当今高性能裸金属多租户数据中心的必备利器。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4585

    浏览量

    101694
  • 云计算
    +关注

    关注

    38

    文章

    7343

    浏览量

    135701
  • 人工智能
    +关注

    关注

    1776

    文章

    43796

    浏览量

    230570

原文标题:使用 Magnum IO 加速云原生超级计算

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA 推出 Blackwell 架构 DGX SuperPOD,适用于万亿参数级的生成式 AI 超级计算

    日 ——  NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级
    发表于 03-19 10:56 106次阅读
    <b class='flag-5'>NVIDIA</b> 推出 Blackwell <b class='flag-5'>架构</b> DGX SuperPOD,适用于万亿参数级的生成式 AI <b class='flag-5'>超级</b><b class='flag-5'>计算</b>

    云原生是大模型“降本增效”的解药吗?

    云原生AI正当时
    的头像 发表于 02-20 09:31 129次阅读

    米哈游大数据云原生实践

    近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为例,在云上运行
    的头像 发表于 01-09 10:41 260次阅读
    米哈游大数据<b class='flag-5'>云原生</b>实践

    云原生技术前沿落地实践分论坛圆满举办

    12 月 16 日,2023 开放原子开发者大会【云原生技术前沿落地实践】分论坛在无锡成功举办。论坛将聚焦云原生的泛在化、Serverless 化以及智能化等前沿发展趋势,与一线技术专家及最终用户
    的头像 发表于 12-22 09:20 560次阅读
    <b class='flag-5'>云原生</b>技术前沿落地实践分论坛圆满举办

    ABI发布电信云原生平台及运维白皮书

    通过研究云原生平台的发展和演变,对云原生平台在标准和容器化的演进方向进行了展望,并建议运营商跟上行业变化,拥抱新技术,无缝过渡到云原生网络架构。 云化一直是电信行业数字化转型的驱动力,
    的头像 发表于 11-17 19:40 315次阅读
    ABI发布电信<b class='flag-5'>云原生</b>平台及运维白皮书

    一图读懂英特尔云原生开源技术

    作为KubeCon China 2023 大会的钻石赞助商,9月26日-28日,英特尔在现场会有一个大的技术展示厅,其中包含10个现场展示,涵盖云原生基础设施,安全,人工智能以及可持续计算等。 欢迎
    的头像 发表于 09-23 10:10 382次阅读
    一图读懂英特尔<b class='flag-5'>云原生</b>开源技术

    中国移动网络云原生演进技术白皮书

    云原生是近几年云计算领域炙手可热的话题。目前,无论互联网企业还是传统企业,都在拥抱云原生云原生是包含系列技术体系、系统设计理念、组织管理方法的全面系统变革,其核心要素包含基础设施
    发表于 08-30 12:15 429次阅读
    中国移动网络<b class='flag-5'>云原生</b>演进技术白皮书

    Arm正与云原生软件生态系统建立坚实的合作关系

    Arm 成熟的云原生软件生态系统[1]构建应用程序,以实现高性价比及高能效等优势。云原生应用程序对计算的要求各不相同。有些需要持续的高吞吐量,而有些如 Web 服务器和开发生成环境则并不一定需要全天候的 CPU 满负荷性能,而
    的头像 发表于 08-30 10:13 381次阅读
    Arm正与<b class='flag-5'>云原生</b>软件生态系统建立坚实的合作关系

    探索云原生技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会云原生分论坛即将启幕

    随着开源成为软件技术创新和协同发展的重要模式,企业对云原生的认知日益强化,越来越多的企业应用云原生技术与产品解决实际问题,云原生进入落地爆发的关键期。IDC报告显示,2023年企业云原生
    的头像 发表于 06-01 14:48 315次阅读
    探索<b class='flag-5'>云原生</b>技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会<b class='flag-5'>云原生</b>分论坛即将启幕

    探索云原生技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会云原生分论坛即将启幕

    随着开源成为软件技术创新和协同发展的重要模式,企业对云原生的认知日益强化,越来越多的企业应用云原生技术与产品解决实际问题,云原生进入落地爆发的关键期。IDC报告显示,2023年企业云原生
    的头像 发表于 05-30 01:40 368次阅读
    探索<b class='flag-5'>云原生</b>技术发展与应用实践,赋能企业数字化转型 | 2023开放原子全球开源峰会<b class='flag-5'>云原生</b>分论坛即将启幕

    NVIDIA Grace 掀起新型节能 Arm 超级计算机的新浪潮

    英国科研联盟 GW4 打造能效提升 6 倍的超级计算机,用于气候科学、医学研究等领域 德国汉堡 - 国际超算大会(ISC)- 2023 年 5 月 21 日 - NVIDIA 今天
    的头像 发表于 05-23 07:10 379次阅读

    了解云原生和边缘计算

    云原生和边缘计算这两个名词都是比较新的,在这里我们先来大致了解一下它们是干嘛的。 首先从万物互联的概念提出,随着网络技术的发展,当然其中主要是以5g技术的日益发展作为爆发点,可以毫无疑问的说,我们
    发表于 05-18 17:23 1次下载
    了解<b class='flag-5'>云原生</b>和边缘<b class='flag-5'>计算</b>

    边缘计算架构分析

    边缘计算架构分析 2021云计算十大关键词分别是:云原生、高性能、混沌工程、混合云、边缘计算、零信任、优化治理、数字政府、低碳云、企业数字化
    发表于 05-18 15:44 0次下载
    边缘<b class='flag-5'>计算</b><b class='flag-5'>架构</b>分析

    RISC-V入云!赛昉科技联合中国电信完成首个RISC-V云原生轻量级虚拟机验证

    适配优化,结合RISC-V精简指令集特性,裁剪了冗余功能,实现了既保证用户应用安全隔离,同时降低资源消耗并提升响应速度,适用于可信云原生、Serverless、函数计算等新型弹性云计算业务场景。 作为
    发表于 05-11 14:08

    中国电信自研 RISC-V 云原生轻量级虚拟机 TeleVM 成功运行,内存开销降低约 90%

    精简指令集特性,裁剪冗余功能,实现了应用安全隔离,同时降低资源消耗并提升响应速度,适用于可信云原生、Serverless、函数计算等新型弹性云计算业务场景。” 赛昉科技表示,已交付支持虚拟化指令扩展
    发表于 05-05 09:46