0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

InfiniBand网络在企业级数据中心和公有云上被广泛使用

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-06-16 16:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在最新发布的全球最强超级计算机排名 Top500 的榜单中,InfiniBand 网络再次以绝对的数量和性能优势蝉联超级计算机互连设备数量榜首,比上次排行榜的数量又有了大幅度的增长。纵观这次的榜单,可以归纳出以下三个趋势。

基于 InfiniBand 网络的超级计算机以 197 台的数量大幅领先于其它网络技术。特别在 Top100 的系统中,基于 InfiniBand 网络的超级计算机更是遥遥领先,InfiniBand 网络已经成为了追求性能的超级计算机的标配。

NVIDIA 网络产品成为 Top500 系统中的主流互连设备,其中超过三分之二的超级计算机在使用 NVIDIA 网络互连,NVIDIA 网络的性能和技术领先性已经得到了广泛认可。

还值得一提的是,InfiniBand 网络不仅在传统的 HPC 业务,在企业级数据中心和公有云上也已被广泛使用。目前性能第一的企业级超级计算机 NVIDIA Selene 和微软公司的 Azure 公有云都在利用 InfiniBand 网络来发挥其超高的业务性能。

网络计算技术成就性能优势

为什么 InfiniBand 网络在 Top500 中受到了如此的重视?

其性能优势起到了决定性的作用。

InfiniBand 网络率先实现了通信和计算在网络中的融合,是业界第一款会计算的网络,其先进的网络计算技术,不仅大幅提升了计算性能,还通过计算的手段解决了困扰通信领域数十年的问题,如 Reduce 、Allreduce 、Barrier 等通信操作带来的网络拥塞问题。

这些操作会在网络中产生瞬间的网络流量突发,对于无损网络来说,会通过拥塞控制技术来强迫网络降速以缓解拥塞问题;对于有损网络来说,就会造成网络中的大量丢包,从而导致网络重传数据,这两种情形都会造成业务的性能下降。

由于这些通信操作是很多业务中频繁使用的通信方式,在过去几十年的时间里,众多的科研人员都在致力于优化拥塞控制的算法和优化通信法则来解决这个问题,但是一直没能有突破性的进展。

InfiniBand 网络的 SHARP 网络计算技术(In-Network Computing)的出现,为业界提供了新的思路,利用计算的手段从根本上可以解决这些通信模型造成的拥塞问题,让您的网络不必再降速或者丢包,在全线速的状态下完成数据的传输。

这项技术已经被广泛用到 Top500 的众多的机器当中。

性能隔离技术解决企业级数据中心

和云市场难题

为什么 InfiniBand 网络进入了企业级数据中心和云的市场?

InfiniBand 网络带来的性能隔离技术为其叩开了这些市场的大门。

对于业务来进行性能隔离也是困扰网络界和计算界很久的问题,现在我们已经实现了租户之间的安全隔离,租户业务和业务之间的隔离,但是当很多的租户在同时运行多个应用的时候,却无法实现应用之间的性能隔离。

即使我们通过一些先进的 QoS 技术来将计算资源和通信资源隔离开来,但却无法实现业务运行在 Bare Metal 系统上的性能。

InfiniBand 网络极先进的性能隔离技术,除了实现业务的隔离之外,更是保障了业务在云上多租户、多任务的状态下,实现和在 Bare Metal 环境下一样的性能。

这项技术已经在微软的 Azure 公有云上开始向用户提供服务。

在当前的算力成为服务,数据中心成为计算单元的新型计算平台下,网络成为决定算力性能的关键因素。

单机的性能已无法满足算力的需求,数据中心的性能以及多数据中心的综合性能才是算力保障的基础。

作为连接数据中心内的计算单元、存储单元以及各个数据中心之间的网络,成为算力保障的核心。

InfiniBand 网络凭借其极致的性能,不断创新的技术架构,在更低功耗、更少硬件设备的前提下帮助用户实现了业务性能的最大化,其进入越来越多的使用场景自是大势所趋。

原文标题:算力时代,网络决定性能

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109110
  • 数据中心
    +关注

    关注

    16

    文章

    5521

    浏览量

    74658
  • InfiniBand
    +关注

    关注

    1

    文章

    31

    浏览量

    9534
  • 公有云
    +关注

    关注

    1

    文章

    105

    浏览量

    17860

原文标题:算力时代,网络决定性能

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    当业务遭遇网络瓶颈?科技SD-WAN,交付确定性业务体验

    前言企业全面拥抱、AI与全球化时,他们的基础设施网络,是否真的准备好了?答案可能比我们想象的更复杂。智能制造、跨境出海、AI训练等前沿领域,我们看到一个共同的困境:
    的头像 发表于 11-10 13:37 403次阅读
    当业务<b class='flag-5'>上</b><b class='flag-5'>云</b>遭遇<b class='flag-5'>网络</b>瓶颈?<b class='flag-5'>云</b>边<b class='flag-5'>云</b>科技SD-WAN,交付确定性业务体验

    容量可达245.76TB,铠侠企业级数据中心级SSD迎来全面升级

    铠侠正式发布了LC9系列、CM9系列以及CD9P系列企业级数据中心级SSD,全新的系列可更好的满足AI计算存储需求,并适用于云端应用、在线交易和虚拟化等多种应用场景。
    的头像 发表于 09-02 10:33 1870次阅读
    容量可达245.76TB,铠侠<b class='flag-5'>企业级</b>与<b class='flag-5'>数据中心</b>级SSD迎来全面升级

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 AI时代,数据中心正经历从传统架构向AI工厂与AI的转型。AI工厂依赖超大规模GPU集群驱动大模型训练,要求
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    客户的共同选择 超算中心应用 :为某国家实验室提供800G OSFP SR8模块,构建E级超算互联网络 AI训练集群 :某自动驾驶企业采用我们的解决方案,GPU间通信延迟降低至1.2μs
    发表于 08-13 16:38

    华为面向拉美地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛,华为面向拉美地区发布全新升级的星河AI数据中
    的头像 发表于 08-11 10:42 2001次阅读

    中型数据中心中的差分晶体振荡器应用与匹配方案

    关键业务平台,需高IO能力、低时延响应与高并发处理,具备容灾与跨区域同步能力。 使用设备: 数据中心级交换机、光模块、RAID控制器、企业级SSD阵列、PCIe HBA/NIC、高精度差分振荡器、时间
    发表于 07-01 16:33

    数据中心和通信网络有什么区别

    数据中心和通信网络功能定位、技术架构、应用场景等方面存在显著区别,以下是详细对比: 一、功能定位 数据中心 核心功能:作为存储、处理和管理海量数据
    的头像 发表于 06-12 09:57 662次阅读
    <b class='flag-5'>数据中心</b>和通信<b class='flag-5'>网络</b>有什么区别

    小型数据中心晶振选型关键参数全解

    数据中心案例 1.企业私有数据中心 应用背景:该数据中心主要用于存储和处理企业的内部业务
    发表于 06-11 13:37

    华为面向亚太地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025亚太站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛,华为面向亚太地区发布全新升级的星河AI数据中
    的头像 发表于 06-11 11:11 1095次阅读

    华为荣获数据中心自智网络基础能力解决方案检测证书

    2025年网智联大会首日,中国信息通信研究院(简称“信通院”)向华为技术有限公司(以下简称“华为”)等首批获得《数据中心自智网络基础能力解决方案检测证书》的企业正式颁发证书。此项认证
    的头像 发表于 04-25 16:00 663次阅读

    27MHz HCSL 差分晶体振荡器在数据中心网络存储系统中的应用方案

    一、应用背景:存储系统需要高精度参考时钟保障稳定性 现代数据中心中,服务器主板、RAID控制器、企业级SSD以及高速网络存储设备(NAS、SAN等)构成了存储系统的核心。为了支持高吞
    发表于 04-14 21:19

    适用于数据中心和AI时代的800G网络

    数据中心依赖数千甚至上万个GPU集群进行高性能计算,对带宽、延迟和数据交换效率提出极高要求。 AI:以生成式AI为核心的平台,为多租户环境提供推理服务。这类
    发表于 03-25 17:35

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 852次阅读

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    广泛应用于网卡、交换机、服务器、超级计算机、计算和数据中心的短距离互连。 800G高速线缆 随着大规模和超大规模数据中心的兴起,服务器机架的功耗显著增加,垂直布线距离减少。
    发表于 03-24 14:20

    亚马逊科技发布全新数据中心组件

    设计等多个方面进行深度优化和创新,成功构建了一个更加高效节能的数据中心。这些创新不仅提升了数据中心的运行效率,更为客户AI等领域的进一步创新提供了坚实的基础。 据悉,亚马逊科技将在
    的头像 发表于 12-24 15:05 820次阅读