0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

高性能、低延迟的InfiniBand式网络并不是唯一的选择

芯片半导体 来源:半导体行业观察 2023-08-27 09:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

正如我们喜欢指出的那样,当谈到高性能、低延迟的 InfiniBand 式网络时,Nvidia 并不是唯一的选择,自 20 世纪 90 年代末 InfiniBand 互连出现以来就一直不是唯一的选择。三年前从英特尔收购了 Omni-Path 互连业务的Cornelis Networks 就是另一种选择。虽然它跳过了 200 Gb/秒一代,但仍在销售改进的 100 Gb/秒 Omni-Path Express 变体,并为未来的 400 Gb/秒一代奠定了基础。

Cornelis Networks 的高管们从 SilverStorm 和 PathScale 的 InfiniBand 开始,最终成为 QLogic 的 TruScale InfiniBand 的基础,而 QLogic 又成为来自 Mellanox Technologies 的 InfiniBand 的替代供应商。早在 2012 年 1 月,英特尔就以 1.25 亿美元的价格从 QLogic 手中收购了 TruScale InfiniBand 业务——这似乎是很久以前的事了?三个月后又斥资 1.4 亿美元从Cray 收购了“Gemini”XT 和“Aries”XC 互连业务,将它们整合起来创建 Omni-Path 互连。

从技术上讲,这是 InfiniBand 主题的三种不同变体,而 Cornelis Networks 正在做的事情在许多方面代表了第四种变体。

InfiniBand 的最初目标是取代 PCI-Express、光纤通道,或许还有以太网,并创建融合结构。TruScale 变体采用了一种称为 Performance Scale Messaging (PSM) 的技术,QLogic 当然认为该技术比 InfiniBand verbs approach更好,并且其创建者认为可以提供更好的扩展性。但 PSM 已有二十多年历史,Cornelis Networks 正在基于 libfabric 驱动程序构建新的软件堆栈,该驱动程序是 Linux 操作系统的一部分,并取代了 QLogic TruScale 和 Intel Omni-Path 中的 PSM 提供程序与Open Fabrics Interfaces 工作组的 OPX 提供商进行堆栈。

这个新堆栈经过开发,可以在 Cornelis Networks 从 Intel 购买的 100 Gb/秒 Omni-Path 硬件上运行(该公司称之为 Omni-Path Express,缩写为 OPX),并且将是未来 400 Gb 上唯一可用的堆栈/sec Omni-Path Express CN5000 系列目前正在开发中。

2ede39b2-4423-11ee-a2ef-92fbcf53809c.jpg

libfabric 库是 OFI 标准的第一个实现,它是一个位于网络接口卡和 OFI 提供程序驱动程序之上的层,位于 MPI、SHMEM、PGAS 和通常在 HPC 分布式计算系统上运行的其他内存共享协议之间和人工智能。它看起来像这样:

以下是 Omni-Path Express 主机软件堆栈现在的样子,其中第二代 PSM2 提供程序和本机 OFI 提供程序并行运行:

2ef6c8ec-4423-11ee-a2ef-92fbcf53809c.jpg

您会注意到,原始 OpenFabrics Alliance Verbs 仍然可以在 Linux 内核模式下使用,以支持旧版协议和框架的 InfiniBand verbs 提供程序,但 PSM2 和 OFI 提供程序都在 Linux 用户空间中运行,其MPI的各种实现也是如此——它们有很多。

在下一代 CN5000 平台中,紫色的 PSM2 内容将消失,我们推测 Verbs 提供程序以及运行在 Linux 内核中的 OFA Verbs 代码之上的内容也会消失。Cornelis Networks 软件工程副总裁 Doug Fuller 本周在Hot Interconnects 30 会议上发表演讲,他表示,OPX 和 Nvidia InfiniBand 之间的主要区别之一是 Cornelis Networks 使用的所有堆栈都将是开放的源并添加到内核的上游。

“我们的 Omni-Path OFI 驱动程序是 Linux 内核的一部分,”Fuller 在演讲中解释道。“我的意思是,我们在内核开发方面也首先处于上游。因此,我们所有的补丁都在上游合并,并且我们有来自 Linus 的火焰来证明这一点。然后我们合并。我们鼓励它向下游合并并集成到各种 Linux 发行版中。因此,在大多数情况下,如果您启动现代 Linux 发行版,您的驱动程序已经存在,无需安装其他软件。我们致力于上游优先开发,我们希望确保回馈我们使用的社区,并为用户提供良好的用户体验。”

三年来我们一直希望看到的,以及 Fuller 向 Hot Interconnects 观众提供的,是备受期待的 Cornelis Network 硬件路线图。话不多说,这里是:

2f1c2100-4423-11ee-a2ef-92fbcf53809c.jpg

HPC 中心、云构建商和超大规模企业都喜欢可预测的路线图,这些路线图使每一代的比特转移成本越来越低,并且还增加了网络规模,即可以通过合理的响应连接到网络的端点数量时间。这些是 Cornelis Networks 最终公开投入的赌注,众所周知,公司不会购买点产品,而是购买路线图,因为我们都生活在未来。

通过 Omni-Path 100 系列,Cornelis Networks 正在转售由英特尔创建的硬件,该硬件于 2015 年底开始在基于其“Knights”系列多核处理器的早期采用者 HPC 系统中推出。(我们认为 Cornelis 忘记将品牌的“Express”部分放入路线图中。) 该产品系列包括 100 Gb/秒适配器、48 端口边缘交换机、288 端口导向器交换机和 1,152 端口导向器交换机。Omni-Path 100 互连支持 3 米及更短的直连电缆 (DAC) 和 100 米或更短的有源光缆 (AOC)。交换机的基数在fat tree上以全二分带宽支持多达 13,800 个节点,或以半二分带宽支持 27,600 个节点,在网络逐渐变细的情况下最多支持 36,800 个节点。

考虑到其联合创始人多年来推出的产品的悠久历史,凭借 Omni-Path CN5000 CN5000 系列(Cornelis Networks 称之为第五代高性能互连),交换机和适配器中的 ASIC 正在发生变化高达 400 Gb/秒,这将是性能的巨大飞跃。将会有一个 48 端口边缘交换机(看起来像一个普通的披萨盒机器,而不是英特尔在 Omni-Path 100 上做的那种时髦的形状),并且将在导向器交换机上进行差异化,并与单个 576 端口机器一起使用。至于电缆,将支持 DAC 和 AOC,以及将铜电缆拉伸到 5 米或更短长度的有源铜电缆 (ACC),这比 DAC 长 2 米,从而提供更具创意的接线配置。

CN5000 系列将支持全二分带宽树和部分二分带宽树,例如 Omni-Path 100,还将支持 Dragonfly 和 Megafly(有时称为 Dragonfly+)拓扑,并且单个集群中最多可扩展至 330,000 个节点。(我们不知道这样的网络中有多少层和跳数,但我们的目标是找出答案。)Cornelius Networks 正在添加基于遥测的动态自适应路由和拥塞控制,这听起来可能基于一些想法是从 Cornelis Networks 通过英特尔获得的 Cray“Aries”技术中挑选出来的。(同样,我们会找到结果。)延迟(我们假设是从节点到节点)承诺低至 1 微秒以下,消息速率预计为每秒 12 亿条。CN5000 导向器交换机将提供风冷和液冷选项。

以下是 CN5000 边缘交换机的一些规格和机械结构:

2f397138-4423-11ee-a2ef-92fbcf53809c.jpg

这些是 CN5000 导向器交换机的规格:

2f567242-4423-11ee-a2ef-92fbcf53809c.jpg

最后,主机结构适配器如下所示:

2f8ef8ba-4423-11ee-a2ef-92fbcf53809c.jpg

到 2026 年,Cornelis 路线图将超越 Omni-Path CN6000,后者具有支持 800 Gb/秒的交换机和适配器 ASIC。交换机电缆选项的适配器在二等分带宽、拓扑选项以及 330,000 个节点的规模方面保持不变。这里有趣的变化是使用 RISC-V 内核的 DPU,插入 CXL 端口,并且可能会执行一些集体操作卸载以及安全和存储加速功能。某些结构功能将被卸载,并且可能在交换机和适配器中都有特定于结构的加速器。

随着第七代产品将于 2028 年推出,Cornelis Networks 将把端口速度提高到 1.6 Tb/秒,并将 HyperX 拓扑添加到网络几何结构列表中,并对 DPU 核心以及结构和应用程序卸载进行增强。

我们已经有一段时间没有看到 Nvidia 或 Mellanox 的 InfiniBand 路线图了,而且肯定不会走那么远。但节奏和减速带可能会在某个时刻或多或少同步。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    5929

    浏览量

    179601
  • 人工智能
    +关注

    关注

    1813

    文章

    49772

    浏览量

    261733
  • InfiniBand
    +关注

    关注

    1

    文章

    31

    浏览量

    9535
  • PSM
    PSM
    +关注

    关注

    1

    文章

    45

    浏览量

    14015
  • LINUX内核
    +关注

    关注

    1

    文章

    318

    浏览量

    23063

原文标题:InfiniBand的挑战者,来势汹汹

文章出处:【微信号:TenOne_TSMC,微信公众号:芯片半导体】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Amphenol 400POS 0.635MM PITCH COM - HPC 连接器:高性能嵌入应用新选择

    Amphenol 400POS 0.635MM PITCH COM - HPC 连接器:高性能嵌入应用新选择 在嵌入计算机领域,随着应用对性能
    的头像 发表于 12-11 10:30 89次阅读

    240FPS超低延迟网络相机 带宽可控

    延迟在无人设备的控制中是个很重要的指标,越是延迟越能够体现出“人机协同”。而在影响无人设备控制
    的头像 发表于 09-24 17:59 553次阅读
    240FPS超低<b class='flag-5'>延迟</b><b class='flag-5'>网络</b>相机   带宽可控

    有哪些方法可以降低分布光伏集群通信网络中的延迟

    微机小电流 降低分布光伏集群通信网络延迟,需从 接入优化、数据处理、协议适配、环境抗扰、边缘 - 云端协同 等多维度入手,结合场景特点针对性解决瓶颈。以下是具体方法: 、优化接入
    的头像 发表于 08-22 09:54 538次阅读
    有哪些方法可以降低分布<b class='flag-5'>式</b>光伏集群通信<b class='flag-5'>网络</b>中的<b class='flag-5'>延迟</b>?

    DP4363 高性能电流的Sub-GHz收发芯片

    DP4363是高性能电流收发器,覆盖119~1050MHz的Sub-GHz频段。它是完整的发射器、接收器和收发器产品系列的部分,适用于各种应用。该器件具有-126dBm的出色
    发表于 07-28 17:48

    游戏党的福音:支持ALLM自动延迟模式的HDMI线推荐

    对于游戏爱好者来说,每次操作都至关重要。毫秒之间的差异可能意味着胜利与失败的区别。因此,在构建理想的游戏环境时,除了高性能的游戏主机和显示器外,选择条合适的HDMI线缆也是提升游戏
    的头像 发表于 06-10 18:14 1132次阅读

    延迟至30ms+ LLSM流媒体传输模块延迟方案推荐

    LLSM流媒体传输模块,凭借带宽、延迟的传输特点,经推出就受到了广泛关注。由于延迟传输跟
    的头像 发表于 06-04 17:57 1180次阅读
    <b class='flag-5'>延迟</b><b class='flag-5'>低</b>至30ms+  LLSM流媒体传输模块<b class='flag-5'>低</b><b class='flag-5'>延迟</b>方案推荐

    RDMA简介1之RDMA开发必要性

    解决FPGA存储容量不足的问题。 直接内存访问技术提供了种不经过CPU的数据传输方式,其具有高性能延迟、CPU旁路等多种优势,在现代数据中心和计算机系统中得到广泛应用 。DMA技
    发表于 06-03 14:38

    适用于数据中心和AI时代的800G网络

    )作为家备受信赖的信息通信技术产品及解决方案提供商,提供高可靠性的800G光模块和解决方案,为AI工厂和AI云平台提供高性能延迟且可扩展的网络
    发表于 03-25 17:35

    在STM32L431上使用内部RTC,时间运行到23:59:59秒后,变为了24:00:00并不是00:00:00,为什么?

    大家好,我在STM32L431上使用内部RTC,时间运行到23:59:59秒后,变为了24:00:00,并不是00:00:00,并且weekday也没有加,这是为什么呢?
    发表于 03-11 06:32

    专线直播和公共网络直播相比,延迟差多少?

    网络中复杂的路由跳转和网络拥堵。例如,专线网络可以将延迟控制在毫秒级别,甚至在些优化场景下,延迟
    的头像 发表于 02-26 20:37 1050次阅读

    信道选择网络性能的影响

    在现代通信网络中,信道选择是确保数据传输效率和可靠性的关键因素之。无线通信网络,尤其是蜂窝网络,依赖于无线电波在设备之间传输信息。这些无线
    的头像 发表于 01-22 15:45 1582次阅读

    创建唯一索引的SQL命令和技巧

    在创建唯一索引时,以下是些SQL命令和技巧,可以帮助优化性能: 使用合适的索引类型:对于需要保证唯一性的列,使用UNIQUE索引来避免重复数据的插入。 这可以确保列中的值是
    的头像 发表于 01-09 15:21 809次阅读

    延迟、高效传输的网络环境中,异地组网和内网穿透哪种技术更胜筹?

    在现代企业网络架构中,异地组网和内网穿透是两种常见的网络连接技术,它们在不同场景下发挥着重要作用。然而,在追求延迟、高效传输的网络环境中,
    的头像 发表于 01-07 10:52 1207次阅读

    RUCKUS Edge简介:下网络边缘服务交付平台(上)

    部署和管理的高性能、始终在线的网络连接的需求在激增。无论是在多住户单元(MDU)中为整个园区提供无缝的流媒体服务,还是在酒店为顾客提供即时的服务,亦或在教育机构中确保对云端学习工具的致访问,都面临着需要提供高质量、
    的头像 发表于 12-20 10:16 793次阅读
    RUCKUS Edge简介:下<b class='flag-5'>一</b>代<b class='flag-5'>网络</b>边缘服务交付平台(上)

    用ADS1299-FE评估版测试时,在测试的时候VREFP是-2.45,并不是设计所说的4.5v,为什么?

    在用ADS1299-FE评估版测试时 采用内部参考,双电源供电模式 ,-2.5-2.5,但是在测试的时候 VREFP是-2.45,并不是设计所说的4.5v? 在提供的LABview测试时总得不到想看到的结果,想请问下是什么问题呢? 是10uF电容击穿了?
    发表于 12-16 06:43