0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI网络未来十年以太网交换机市场的增长动力吗?

SDNLAB 来源:SDNLAB 2023-10-19 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

根据 IDC 的数据,2022 年,AI 网络市场已达到 20亿美元,其中 InfiniBand 贡献了 75% 的收入。2023 年AI 基础设施建设投资将达到 1540亿美元,到 2026 年将增长到 3000亿美元。展望 2027 年,AI 网络的收入将飙升至超过 100亿美元,其中以太网将超过 60亿美元。以太网和 InfiniBand 都将在此期间强劲增长。与此同时,AI 工作负载的带宽每年增长将超过 100%,远高于数据中心每年 30-40% 的带宽增长。此外,AI 将成为未来十年以太网交换机市场最重要的增长动力。

随着AI 的持续火热,其工作负载也呈指数级增长,网络基础设施正面临极限。AI 基础设施建设需要支持运行在单个计算和存储节点上的大型复杂工作负载,这些节点作为逻辑集群一起工作。AI 网络通过大容量互联结构连接这些大型工作负载。

01

AI 工作负载

AI 工作负载与传统数据中心网络有着根本的不同,虽然超大规模数据中心和 AI /HPC集群之间有很多相似之处,但超大规模数据中心使用的解决方案不足以解决AI /HPC工作负载带来的额外复杂性。AI网络有着以下特征:

并行计算:AI 工作负载是运行相同应用程序、相同计算任务的多台机器之间统一的基础设施;

规模:此类任务的规模可以达到数千个计算引擎(例如GPUCPUFPGA 等);

作业类型:不同的任务在大小、运行时间、数据集大小和数量、生成答案的类型、用于编码应用程序的不同语言和运行它的硬件类型等方面有所不同,都会导致为运行AI 工作负载而构建的网络流量模式不断变化;

延迟:延迟是影响作业完成时间(JCT)的重要因素之一。然而,由于此类并行工作负载在多台机器上运行,因此延迟取决于响应最慢的机器;

无损:迟到的响应会延迟整个应用程序。在传统数据中心中,消息丢失将导致重新传输,而在AI 工作负载中,消息丢失意味着整个计算要么错误,要么卡住。正是由于这个原因,AI 网络需要无损行为;

带宽:AI 应用的数据集很大。高带宽流量需要在服务器之间运行,以便应用程序能够获取数据。在现代部署中,AI /HPC计算功能的每个计算引擎的接口速度都达到 400Gbps。

02

AI 集群网络

AI 集群通常有两个不同的网络。第一种网络,也是比较传统的,是所有服务器的外部或面向外部的“前端”网络,当它们面向公共互联网时,需要基于以太网和IP协议。AI 的主要区别在于需要将大量数据输入集群,因此管道比传统的网络服务器大得多。未来的 AI 设计将驱动每台服务器多个 112G SERDES 通道,表现为 100 G 或 400 G 端口

第二种是“后端”网络,这是一个将AI 集群资源连接在一起的独特网络。对于AI 集群来说,跨计算资源连接到其共享存储和内存,并快速且没有延迟偏差地执行这些任务,对于最大化集群性能至关重要。未来这种新网络的AI 设计将是每个计算服务器有多个 400 G、800 G 或更高端口。

AI 工作负载严重依赖于后端网络。由于一个工作负载在多台服务器上运行,因此需要高带宽、无抖动和无数据包丢失,以确保最高的 GPI 利用率。网络性能的任何下降都会影响JCT。这就需要一个可预测的、无损的后端网络解决方案,这对任何网络技术来说都是一个重大挑战。

随着AI 工作负载的快速增长,AI 集群结构中使用的网络解决方案需要不断发展,以最大限度地利用昂贵的AI 资源。

03

AI网络行业解决方案

如何设计高效的AI 集群组网方案,满足低时延、高吞吐的机间通信,从而降低多机多卡间数据同步的通信耗时,提升 GPU 有效计算时间占比(GPU 计算时间/整体训练时间),对于 AI 网络互联至关重要。下文展示了部分AI高性能网络行业解决方案。

腾讯星脉网络

6月,腾讯云首次完整披露自研星脉高性能计算网络。据称,星脉网络具备3.2T通信带宽,能提升40%的GPU利用率,节省30%~60%的模型训练成本,为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC,可支持10万卡的超大计算规模。

wKgaomUwjMyADq05AAUdt-7oRFA559.jpg

在硬件方面,星脉网络基于腾讯的网络研发平台,采用全自研设备构建互联底座,实现自动化部署和配置。在软件方面,腾讯云自研的TiTa网络协议,采用先进的拥塞控制和管理技术,能够实时监测并调整网络拥塞,满足大量服务器节点之间的通信需求,确保数据交换流畅、延时低,使集群通信效率达90%以上。

华为星河AI网络

华为新一代星河AI网络解决方案,旨在提供一种高效、可靠、安全的数据中心网络解决方案,以支持大规模数据中心的数字化转型。华为星河AI网络解决方案整体技术栈,围绕超高吞吐、长稳可靠和弹性高并发等核心目标来构建关键技术:

超高吞吐:基于华为独创的全局负载均衡NSLB算法、自动化开局和全栈可视运维技术实现算网实时协同调度,将网络有效吞吐从业界的50%提升到98%,大模型训练效率提升20%。

长稳可靠:利用全栈可视运维黑科技,实现大模型训练网络路径、流负载实时可视;结合Packet Event数据面异常感知技术和DPFR故障无感自愈技术,实现亚毫秒级故障快速收敛。

弹性高并发:基于华为独创的多路径智能调度、流感知均衡调优和自适应抗丢包技术,实现 “T级数据小时达”,转发运力提升8倍。

阿里可预期高性能网络

阿里云基础设施事业部推出的可预期网络(Predictable Network)可满足计算任务中的过程数据高效交换需求,是大规模RDMA网络部署实践中不断总结并创新而来的网络技术体系。相比于传统网络的“尽力而为”,可预期网络的概念代表了应用场景对网络服务质量更高的要求,让吞吐率、时延等关键性能指标“可预期”,具备质量保证(QoS)。

wKgaomUwjMyAAx6zAAN7SFwxaAc807.jpg

阿里云高性能可预期数据中心网络的核心技术包括:

自研High Performance Network(HPN)高性能网络架构;

基于自研交换机和智能网卡的端网融合核心技术体系;

统一的高性能网络服务平台,Network Unified Service Architecture (NUSA)。

阿里云可预期网络技术体系在架构设计、传输协议、通信库、网络资源调度、网络容器、服务化等维度展开,正在通过智能计算灵骏,为人工智能、大数据分析、高性能计算等高密度计算场景提供服务。

百度AIPod高性能网络

百度认为 AI 高性能网络有三大目标:超大规模、超高带宽以及超长稳定,基于这样的目标,百度有针对性地设计了 AI 大底座里面的 AI 高性能网络—— AIPod。

百度AI 高性能网络 AIPod有约 400 台交换机、3000 张网卡、10000 根线缆和 20000 个光模块。其中仅线缆的总长度就相当于北京到青岛的距离。AIPod 网络采用 3 层无收敛的 CLOS 组网结构。

wKgZomUwjMyAEELoAAYslus5euU770.jpg

AIPod 高性能网络也是百度智能云 AI 大底座中百度百舸的底层关键技术,决定了大模型训练的能力和效率。大规模、高带宽、长稳定的 AIPod 高性能网络能够帮助用户更高效率、更低成本的训练自己的大模型。

除此之外,像三大运营商、思科、英特尔博通、谷歌、新华三、中兴、锐捷、青云等公司都有针对AI的不同应用场景推出不同的行业解决方案,感兴趣的朋友可以阅读《盘点:AI 大模型背后不同玩家的网络支撑》。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    41

    文章

    5926

    浏览量

    179568
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5100

    浏览量

    134477
  • 交换机
    +关注

    关注

    23

    文章

    2870

    浏览量

    103938
  • HPC
    HPC
    +关注

    关注

    0

    文章

    342

    浏览量

    24829
  • SerDes
    +关注

    关注

    8

    文章

    230

    浏览量

    36573

原文标题:AI网络,未来十年以太网交换机市场的增长动力

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    KSZ8864CNX/RMNUB:高性能4端口以太网交换机的卓越之选

    KSZ8864CNX/RMNUB:高性能4端口以太网交换机的卓越之选 在当今的网络通信领域,以太网交换机扮演着至关重要的角色。对于电子工程师
    的头像 发表于 11-27 16:15 301次阅读
    KSZ8864CNX/RMNUB:高性能4端口<b class='flag-5'>以太网</b><b class='flag-5'>交换机</b>的卓越之选

    广州邮科工业级以太网交换机:严苛环境下的“网络硬核卫士

    在智能制造、轨道交通、能源电力等关键领域,网络设备的稳定性直接决定了生产系统的效率与安全。当普通交换机在高温、电磁干扰、粉尘等环境中频繁“罢工”时,广州邮科工业级以太网交换机却凭借其“
    的头像 发表于 10-15 14:01 227次阅读
    广州邮科工业级<b class='flag-5'>以太网</b><b class='flag-5'>交换机</b>:严苛环境下的“<b class='flag-5'>网络</b>硬核卫士

    NVIDIA Spectrum-X 以太网交换机助力 Meta 和 Oracle 加速网络性能

    超大规模企业广泛采用 NVIDIA 网络解决方案,驱动十亿瓦级(Giga-Scale)高性能 AI 数据中心 Meta 推出基于 NVIDIA Spectrum 以太网交换机,用于
    的头像 发表于 10-14 10:26 1451次阅读
    NVIDIA Spectrum-X <b class='flag-5'>以太网</b><b class='flag-5'>交换机</b>助力 Meta 和 Oracle 加速<b class='flag-5'>网络</b>性能

    LAN9370汽车级以太网交换机芯片技术解析

    Microchip Technology LAN937x千兆位以太网交换机是可扩展、紧凑型100BASE-T1以太网千兆位交换机,基于IEEE 802.3bw-2015规范。
    的头像 发表于 10-13 11:48 531次阅读
    LAN9370汽车级<b class='flag-5'>以太网</b><b class='flag-5'>交换机</b>芯片技术解析

    ‌LAN938x系列以太网交换机的技术解析与汽车电子应用

    Microchip Technology LAN938x 100BASE-T1千兆以太网交换机是基于IEEE 802.3bw-2015规范的可扩展紧凑型高性价比多端口交换机。 Microchip
    的头像 发表于 09-30 09:53 713次阅读
    ‌LAN938x系列<b class='flag-5'>以太网</b><b class='flag-5'>交换机</b>的技术解析与汽车电子应用

    工业以太网交换机与商用交换机的技术差异与应用场景分析

    在当今的工业自动化和网络通信领域,交换机作为网络基础设施的核心组件,扮演着至关重要的角色。然而,市场上存在两种主要类型的交换机:工业
    的头像 发表于 09-23 14:33 549次阅读

    贸泽开售Analog Devices ADIN3310和ADIN6310工业以太网交换机

    Devices, Inc. (ADI) 的ADIN3310和ADIN6310工业以太网交换机。这两款多功能3端口和6端口千兆以太网时间敏感网络 (TSN)
    发表于 07-10 00:40 2078次阅读

    贸泽开售Analog Devices ADIN3310和ADIN6310工业以太网交换机 为应用提供可靠的低延迟通信

    (ADI) 的ADIN3310和ADIN6310工业以太网交换机。这两款多功能3端口和6端口千兆以太网时间敏感网络 (TSN) 交换机可在
    发表于 07-09 14:42 1531次阅读

    以太网交换机网络世界的指挥家,90%的人不知道它的重要性!

    一、什么是以太网交换机? 简单来说, 以太网交换机(Ethernet Switch) 是一种用于局域(LAN)的数据
    的头像 发表于 05-30 17:09 1297次阅读

    Analog Devices Inc. ADIN3310/ADIN6310工业级以太网交换机数据手册

    Analog DevicesADIN3310/ADIN6310工业级以太网交换机是多功能6端口千兆位以太网时间敏感网络(TSN)交换机,设计
    的头像 发表于 05-26 10:20 869次阅读
    Analog Devices Inc. ADIN3310/ADIN6310工业级<b class='flag-5'>以太网</b><b class='flag-5'>交换机</b>数据手册

    fido5100/fido5200实时以太网多协议(REM)交换机技术手册

    fido5100和fido5200(REM交换机芯片)是可编程IEEE 802.3 10 Mbps/100 Mbps以太网互联网协议第6版(IPv6)和互联网协议第4版(IPv4)交换机芯片,支持
    的头像 发表于 05-15 10:46 1017次阅读
    fido5100/fido5200实时<b class='flag-5'>以太网</b>多协议(REM)<b class='flag-5'>交换机</b>技术手册

    工业以太网交换机:工业网络的交通枢纽

    在工业界,设备之间的数据传输如同城市交通一般复杂。 工业以太网交换机 就像一位出色的交通指挥官,负责疏导数据洪流,让工业设备之间的通信有条不紊。接下来,让我们深入探索这个 “工业网络交通枢纽
    的头像 发表于 04-08 09:37 640次阅读
    工业<b class='flag-5'>以太网</b><b class='flag-5'>交换机</b>:工业<b class='flag-5'>网络</b>的交通枢纽

    PoE交换机如何助力智慧城市基础设施建设?

    交换机? PoE技术为智慧城市的供电和连接需求提供了有效解决方案。PoE交换机是PoE系统的核心设备,能够通过标准以太网线缆同时传输数据和电力。这种方式省去了为每台设备单独布设电源线的需求,从而
    发表于 03-25 10:20

    华为位列2024度中国园区交换机市场份额第一

    近日,全球领先的IT市场研究和咨询公司IDC发布《中国以太网交换机市场跟踪报告,2024 Q4》。报告显示,华为园区交换机以出色的产品竞争力
    的头像 发表于 03-21 17:31 1459次阅读

    交换机以太网怎么连接

    在现代网络通信中,交换机以太网作为构建局域(LAN)的核心组件,其连接方式和配置对于网络的性能和稳定性至关重要。本文旨在深入探讨
    的头像 发表于 02-02 16:44 2156次阅读