0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA引入云原生超级计算架构

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2021-11-21 10:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

超级计算机是一项重要的投资,对于研究人员和科学家来说,它们是必不可少的宝贵工具。为了有效和安全地共享这些数据中心的计算能力, NVIDIA 引入了云原生超级计算架构。它结合了裸机性能、多租户和性能隔离统一为超级计算服务。

Magnum IO 是数据中心的 I / O 子系统,它引入了新的增强功能,以加速多租户数据中心的 I / O 和通信。我们将这些增强功能称为 Magnum IO ,用于云原生超级计算架构。

它由 NVIDIA Quantum-2 InfiniBand 平台提供,该平台包括 NVIDIA Quantum-2 交换机系列、BlueField-3 DPU 和 ConnectX-7 网卡。

这种进化环境的挑战是什么?

基于 GPU 的高性能计算已经通过机器学习模拟计算大幅改变了科学和实验。在GPU 上运行的这些深度学习框架和模拟工具可能会消耗 PB 级的数据,并在整个数据中心内造成拥塞和瓶颈。更复杂的是,这些应用程序的多个实例在共享的超级计算设施上常常同时运行并互相影响,因而造成运行性能的抖动,从而导致无法预测的运行时间。

面向云原生超级计算体系结构设计的 Magnum IO 带来新的增强功能,以减轻最终用户在多租户环境中运行应用带来的性能负面影响。它提供确定性的性能,就好像它们的应用程序是独占网络运行。

第三代 NVIDIA SHARP

(可扩展分层聚合和规约协议)

通过将集合操作从主机 CPU 卸载到交换机网络,SHARP 技术有效消除了端点之间多次发送数据的需求,从而提高了 MPI 操作的性能。这种方法大幅减少了到达聚合节点的网络流量,并显著减少了 MPI 操作时间。

在网络中实现集合通信算法还有其他好处,例如释放宝贵的 CPU 资源用于计算,而不是使用它们来处理通信。

最近发布的 NVIDIA Quantum-2 InfiniBand 交换机为大型数据聚合提供了强大的可扩展性。由于每个交换机支持几乎无限的小消息聚合和多个大消息聚合流,在共享系统上运行多租户应用程序可以充分利用 SHARP 的优势。

性能隔离

多租户超级计算实现在共享资源上运行很多用户的应用程序,可能造成物理服务器、存储、网络以及I / O流量模型的复用 。

NVIDIA Quantum InfiniBand 一直以来支持拥塞控制管理,当检测到网络拥塞时在源端实施控制以缓解拥塞。但在多租户场景,用户应用可能无意识地与相邻用户流量产生干扰,因此需要隔离以提供可预期的性能级别。

借助最新的 NVIDIA Quantum-2 InfiniBand 平台和 Magnum IO ,创新的主动监控和拥塞管理提供了良好的流量隔离。这几乎完全消除了性能抖动,并确保了预期的性能,就像应用程序运行在专用系统上一样。

专为安全、多租户、裸机性能而打造

NVIDIA Cloud-Native Supercomputing 体系结构使用 Magnum IO 在多租户环境中实现最高的性能、安全性和编排。

此外,实现这种架构转换的另一个核心元素是数据处理器( DPU ),也即 BlueField 。作为一个完全集成的片上数据中心平台, BlueField 从主机处理器卸载和管理数据中心基础设施,实现超级计算机的安全和编排。

它还能够提供额外的通信框架卸载,可达到 100% 的通信计算重叠,实现 MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。当结合最新的 NVIDIA Quantum-2 平台时,该体系结构在安全的多节点体系结构中展示性能隔离实现裸金属性能。

Magnum IO 消除了 I / O 瓶颈,拓展了硬件级加速引擎、网络计算和拥塞控制等最新技术,成为支持当今高性能裸金属多租户数据中心的必备利器。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109091
  • 云计算
    +关注

    关注

    39

    文章

    8003

    浏览量

    143099
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261513

原文标题:使用 Magnum IO 加速云原生超级计算

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA在ISC 2025分享最新超级计算进展

    NVIDIA DGX Spark 到 NVIDIA BlueField-4 DPU,新一代网络和量子技术实现了飞跃。在 SC25 上展示的加速系统突显了全球超级计算和 AI 的进展
    的头像 发表于 11-25 10:59 484次阅读
    <b class='flag-5'>NVIDIA</b>在ISC 2025分享最新<b class='flag-5'>超级</b><b class='flag-5'>计算</b>进展

    NVIDIA推出NVQLink高速互连架构

    NVIDIA 推出 NVIDIA NVQLink,这是一种开放式系统架构,可将 GPU 计算的极致性能与量子处理器紧密结合,以构建加速的量子超级
    的头像 发表于 11-03 14:53 479次阅读

    云原生环境里Nginx的故障排查思路

    本文聚焦于云原生环境下Nginx的故障排查思路。随着云原生技术的广泛应用,Nginx作为常用的高性能Web服务器和反向代理服务器,在容器化和编排的环境中面临着新的故障场景和挑战。
    的头像 发表于 06-17 13:53 639次阅读
    <b class='flag-5'>云原生</b>环境里Nginx的故障排查思路

    Blue Lion超级计算机将在NVIDIA Vera Rubin上运行

    德国莱布尼茨超算中心(LRZ)将迎来全新超级计算机 Blue Lion,其算力比该中心现有的 SuperMUC-NG 高性能计算机提升了约 30 倍。这台新的超级
    的头像 发表于 06-12 15:39 830次阅读

    NVIDIA技术赋能欧洲最快超级计算机JUPITER

    NVIDIA 宣布,搭载 NVIDIA Grace Hopper 平台的 JUPITER 超级计算机成为欧洲最快超级
    的头像 发表于 06-12 15:33 1039次阅读

    云原生在汽车行业的优势

    近年来,“云原生”已成为科技领域的高频热词。从企业数字化转型到智能化产业布局,各行各业对云原生技术的需求呈现爆发式增长,向云计算转型已成为一大趋势。根据Gartner的预测,到2025年,超过95%的新数字工作负载将迁移至云端,
    的头像 发表于 02-21 09:20 1474次阅读

    利用NVIDIA DPF引领DPU加速云计算的未来

    DPU 的强大功能,并优化 GPU 加速计算平台。作为一种编排框架和实施蓝图,DPF 使开发者、服务提供商和企业能够无缝构建 BlueField 加速的云原生软件平台。
    的头像 发表于 01-24 09:29 1274次阅读
    利用<b class='flag-5'>NVIDIA</b> DPF引领DPU加速云<b class='flag-5'>计算</b>的未来

    云原生AI服务怎么样

    云原生AI服务,是指采用云原生的原则和技术来构建、部署和管理人工智能应用及工作负载的方法和模式。那么,云原生AI服务怎么样呢?下面,AI部落小编带您了解。
    的头像 发表于 01-23 10:47 763次阅读

    MediaTek与NVIDIA携手设计GB10 Grace Blackwell超级芯片

    MediaTek与NVIDIA近日宣布了一项重要合作,双方将共同设计NVIDIA GB10 Grace Blackwell超级芯片。这款超级芯片将被应用于
    的头像 发表于 01-13 10:48 886次阅读

    MediaTek与NVIDIA携手打造超级芯片

    的个人AI超级计算机项目NVIDIA® Project DIGITS中,标志着两家科技巨头在AI计算领域的深度合作。 MediaTek作为全球领先的芯片供应商,在智能手机、智能电视、A
    的头像 发表于 01-10 13:49 818次阅读

    联发科与NVIDIA合作 为NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片

    联发科近日宣布与NVIDIA合作设计NVIDIA GB10 Grace Blackwell超级芯片,将应用于NVIDIA 的个人AI超级
    的头像 发表于 01-07 16:26 829次阅读

    云原生LLMOps平台作用

    云原生LLMOps平台是一种基于云计算基础设施和开发工具,专门用于构建、部署和管理大型语言模型(LLM)全生命周期的平台。以下,是对云原生LLMOps平台作用的梳理,由AI部落小编整理。
    的头像 发表于 01-06 10:21 708次阅读

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器学习平台种类繁多,功能各异,如何选择云原生机器学习平台呢?下面,AI部落小编带您探讨。
    的头像 发表于 12-25 11:54 699次阅读

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一个复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 676次阅读

    什么是云原生MLOps平台

    云原生MLOps平台,是指利用云计算的基础设施和开发工具,来构建、部署和管理机器学习模型的全生命周期的平台。以下,是对云原生MLOps平台的介绍,由AI部落小编整理。
    的头像 发表于 12-12 13:13 840次阅读