0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

算力网络的“神经突触”:AI互联技术如何重构分布式训练范式

Carol Li 来源:电子发烧友网 作者:电子发烧友 2025-06-08 08:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网综合报道 随着AI技术迅猛发展,尤其是大型语言模型的兴起,对于算力的需求呈现出爆炸性增长。这不仅推动了智算中心的建设,还对网络互联技术提出了新的挑战。

AI大模型训练过程中,由于单个AI芯片的算力提升速度无法跟上模型参数的增长速率,再加上庞大的模型参数和训练数据,已远远超出单个AI芯片甚至单台服务器的能力范围。因此,需要将数据样本和模型结构分散到多个计算设备上,这导致了设备间的频繁通信需求。为了适应这一变化,智算中心服务器内部的网络互联技术变得至关重要。

芯片间互联技术

AI服务器的互联技术是保障其高性能计算能力的关键,涉及芯片间、服务器内以及服务器间等多个层面的高速数据传输。

芯片间互联技术方面,英伟达AMD英特尔都推出了相关技术,分别是NVLink、Infinity Fabric、CXL(Compute Express Link)等。NVLink是由NVIDIA开发的GPU之间的高速互连技术,能加快CPU与GPU、GPU与GPU之间的数据传输速度,提高系统性能。从2016年到2022年,NVLink历经多次迭代更新,例如基于Hopper架构的第四代NVLink,单链可实现50GB/s的双向带宽,单芯片可支持18链路,即900GB/s的总双向带宽。在NVIDIA的DGX H100服务器中,GPU(H100)之间互联主要通过NV Switch芯片来实现,而NV Switch芯片与GPU之间的数据传输就依赖于NVLink。

AMD推出的Infinity Fabric,由传输数据的Infinity Scalable Data Fabric(SDF)和负责控制的Infinity Scalable Control Fabric(SCF)两个系统组成,连接了on-die和off-die以及多路CPU间的通信。最新的AMD Instinct MI300X GPU采用5nm制程,支持客户将8个GPU整合为一个性能主导型节点,并且具有全互联式点对点环形设计,使用了第4代Infinity Fabric高速总线互联,总线带宽达到896GB/s(与英伟达H100的900GB/s带宽相当)。

CXL(Compute Express Link)是英特尔提出的一种开放性互联协议,CXL是建立在PCIe物理层之上的协议,可以实现设备之间的缓存和内存一致性。利用广泛存在的PCIe接口,CXL允许内存在各种硬件上共享:CPU、NIC和DPU、GPU和其它加速器、SSD和内存设备,从而满足高性能异构计算的要求。

服务器内互联技术有PCIe Switch、Retimer芯片。PCIe Switch,即PCIe开关或PCIe交换机,主要作用是实现PCIe设备互联。由于PCIe的链路通信是一种端对端的数据传输,需要Switch提供扩展或聚合能力,从而允许更多的设备连接到一个PCIe端口,以解决PCIe通道数量不够的问题。例如在AI服务器中,GPU与CPU连接时可能需要用到PCIe Switch,并且随着PCIe总线技术的升级,PCIe Switch每代速率提升,能提高数据传输的速度。

在AI服务器中,GPU与CPU连接时至少需要一颗Retimer芯片来保证信号质量,很多AI服务器都会配置多颗Retimer芯片。例如Astera Labs在AI加速器中配置了4颗Retimer芯片。

AI服务器间互联技术

服务器间互联技术有InfiniBand、RoCE、高速以太网。InfiniBand是一种高性能的网络互联技术,具有低延迟、高带宽的特点,能够满足AI服务器之间超低延迟、超高带宽的通信需求,适用于大规模AI模型训练时服务器之间的高效通信和数据同步。例如训练超大模型往往需要成百上千台服务器组成集群,服务器之间就需要InfiniBand这样的网络进行高效通信。

RoCE(RDMA over Converged Ethernet),基于以太网的RDMA(远程直接内存访问)技术,它允许数据在网络中直接从一台计算机的内存传输到另一台计算机的内存,而无需操作系统内核的介入,从而降低了延迟,提高了带宽利用率,可用于AI服务器间的互联,提升数据传输效率。

高速以太网,如400Gbps甚至800Gbps以太网适配器,能为AI服务器间提供高速的网络连接,保障大规模集群部署时服务器之间的数据传输性能。例如昆仑芯超节点结合百度智能云自研的基于导轨优化的HPN(High Performance Network)架构,可支撑从数百卡到上万卡的XPU集群构建,其中就涉及到高速以太网技术的应用。

小结

在AI服务器中,互联技术的作用已从数据传输通道升级为算力释放引擎。通过高带宽、低延迟、可扩展的互联架构,AI服务器能够突破单节点算力瓶颈,实现万亿参数模型的分布式训练;降低推理延迟,支撑实时AI应用的商业化落地;优化能效比,应对超大规模数据中心的能耗挑战。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38073

    浏览量

    296299
  • 算力
    +关注

    关注

    2

    文章

    1382

    浏览量

    16554
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    剖析AI分布式KVM系统的革新意义

    AI技术的深度融合,不仅解决了传统系统在复杂场景下的效率瓶颈,更通过数据驱动、场景感知与自主决策能力,重构了人机协作的底层逻辑。本文将从技术演进、行业痛点、应用价值三个维度,剖析
    的头像 发表于 11-11 11:28 616次阅读

    中科星云星平台全国首批代理商签约成功 共建分布式 AI 生态

    9月30日下午,中科星云物连科技(北京)有限公司旗下子公司—星云数智科技(深圳)有限公司,与覆盖北京、上海、成都、西安、乌鲁木齐等重点城市的20 家企业正式签约,共同推进星分布式AI
    的头像 发表于 10-09 10:34 344次阅读
    中科星云星<b class='flag-5'>算</b>平台全国首批代理商签约成功 共建<b class='flag-5'>分布式</b> <b class='flag-5'>AI</b> <b class='flag-5'>算</b><b class='flag-5'>力</b>生态

    与电力的终极博弈,填上了AIDC的“电力黑洞”

    ),专注于提供人工智能训练与推理所需的服务、数据服务和算法服务。AIDC采用异构计算架构,结合GPU、FPGA、ASIC等多种AI加速芯片,形成高并发
    的头像 发表于 09-22 02:43 7343次阅读

    华为超节点互联技术引领AI基础设施新范式

    今日,华为全联接大会2025在上海启幕,华为副董事长、轮值董事长徐直军发表题为“以开创的超节点互联技术,引领AI基础设施新范式”的主题演讲,正式发布全球最强
    的头像 发表于 09-20 16:15 1699次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    AI芯片发展的重要方向。如果利用超导约瑟夫森结(JJ)来模拟与实时突触电路相连的神经元,神经网络运行的速度要比目前的数字或模拟技术提升几
    发表于 09-17 16:43

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升还是智力

    持续发展体现在: 1、收益递减 大模型的基础的需要极大的,这首先源于昂贵的高性能AI芯片,然后是宝贵的电力、水等与环境相关的资源。 收益递减体现在: ①模型大小 ②训练数据量 ③
    发表于 09-14 14:04

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    客户的共同选择 超中心应用 :为某国家实验室提供800G OSFP SR8模块,构建E级超互联网络 AI训练集群 :某自动驾驶企业采用我
    发表于 08-13 16:38

    一键部署无损网络:EasyRoCE助力分布式存储效能革命

    分布式存储的性能瓶颈往往在于网络。如何构建一个高带宽、超低时延、零丢包的无损网络,是释放分布式存储全部潜力、赋能企业关键业务(如实时数据库、AI
    的头像 发表于 08-04 11:34 1333次阅读
    一键部署无损<b class='flag-5'>网络</b>:EasyRoCE助力<b class='flag-5'>分布式</b>存储效能革命

    重新思考 AI 时代的分布式计算

    层次的关注点在于这一效率突破揭示了传统分布式计算范式AI工作负载独特需求之间的根本不匹配。AI技术浪潮对基础设施选型带来了深层挑战:当前广
    的头像 发表于 07-31 14:25 959次阅读
    重新思考 <b class='flag-5'>AI</b> 时代的<b class='flag-5'>分布式</b>计算

    华为助力广东移动构建“九州”互联

    随着AI大模型的快速发展,社会数字化转型迈入时代。大数据搬运、AI分布式训练、视联网、数联网
    的头像 发表于 07-10 09:53 738次阅读

    AI原生架构升级:RAKsmart服务器在超大规模模型训练中的突破

    近年来,随着千亿级参数模型的崛起,AI训练的需求呈现指数级增长。传统服务器架构在应对分布式训练
    的头像 发表于 04-24 09:27 607次阅读

    RAKsmart智能架构:异构计算+低时延网络驱动企业AI训练范式升级

    AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临效率与成本的双重挑战。RAKsmart推出的智能
    的头像 发表于 04-17 09:29 595次阅读

    DeepSeek推动AI需求:800G光模块的关键作用

    随着人工智能技术的飞速发展,AI需求正以前所未有的速度增长。DeepSeek等大模型的训练与推理任务对
    发表于 03-25 12:00

    信而泰CCL仿真:解锁AI极限,智中心网络性能跃升之道

    中心RoCE网络提供精准评估方案,助力企业突破瓶颈,释放AI澎湃动力! 什么是智中心 智
    的头像 发表于 02-24 17:34 976次阅读
    信而泰CCL仿真:解锁<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>极限,智<b class='flag-5'>算</b>中心<b class='flag-5'>网络</b>性能跃升之道