0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI网络国产化破局未来可期

奇异摩尔 来源:奇异摩尔 2025-09-18 15:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,Hot Chips 2025大会聚焦高性能计算与网络技术的突破性进展,国际厂商密集发布新一代网络产品,折射出AI大模型浪潮下对算力&网络架构的迫切需求。在这场围绕高性能、高吞吐、低延时发展的性能竞赛中,AMD、NVIDIA都结合自身发展路线推出创新网络解决方案从而勾勒出AI原生网卡的主流技术路线趋势。

UEC Ready的关键功能成为主流

高性能网卡厂商的必选项

AMD作为UEC联盟的主要发起单位之一发布了AMD Pensando Pollara 400网卡,声称其是符合超以太网联盟(UEC)规范的AI NIC,全面支持UEC Ready RDMA。尽管NVIDIA并未声称其ConnectX-8 SuperNIC 参照UEC路线设计,但从网卡的性能及功能来看,两者均最终实现多路径传输、自适应路由、拥塞控制等维度的多项AI网络原生无损网络功能。

多路径传输

NVIDIA 在其AI Networking白皮书中曾重点提及传统数据中心的应用程序会产生大量的小数据流,这使得网络流量的统计平均值能够反映整体情况。在这种背景下,基于简单静态哈希的路由算法,如等价多路径(ECMP,Equal Cost Multi-Path),足以应对常见的网络流量问题。然而,人工智能工作负载的特性却截然不同。它们通常会产生少量的大数据流,被称为“大象流”(elephant flows)。这些大象流会占用大量的链路带宽,如果多个大象流被路由到同一链路,就会导致严重的拥塞和高延迟。

因此,在设计AI NIC过程中率先提出引入自适应路由算法并运用数据包喷洒技术实现AI网络的多路径传输功能。

550ba73e-8489-11f0-a18e-92fbcf53809c.png

(来源:英伟达AI Networking白皮书)

AMD 在Hotchips 2025大会上同样提及有损RDMA的ECMP Hash冲突痛点并参照UEC 1.0规范通过数据包喷洒实现多路径传输。与此同时,AMD网卡标记UDP端口号/UEC路径熵值以控制路径选择并根据ECN和修剪数据包反馈跟踪路径状态。

55208244-8489-11f0-a18e-92fbcf53809c.png

(图: AMD解释ECMP Hash冲突挑战)

5534ef7c-8489-11f0-a18e-92fbcf53809c.png

(图:AMD 使用包喷洒技术实现多路径传输)

尽管英伟达和AMD在实现流量控制过程中采用的技术存在一些差异,但最终也以数据包喷洒技术实现多路径传输为网络控制目的。多路径的存在使得具备该性能的网卡能够提供极快的丢包替换和超快的流量控制,即使在应用程序调度不佳或网络链路偶尔出现波动的情况下,也能确保流畅的流量传输。

拥塞控制

AI和HPC应用经常采用集合通信在多个节点之间同步信息,当多个发送方同时向单个接收方发送数据流,并且任何一个发送方都将发送完当前所有的数据流后,才开始发送后续的数据流。由于同时发送过多的数据流,会造成接收方的交换机缓冲区过载,使得接收方无法正常接收数据,即会产生Incast现象,而这种网络拥塞现象将大大影响并增加尾延迟。

554c71a6-8489-11f0-a18e-92fbcf53809c.png

(图:AMD 解释拥塞控制)

AMD AI 网卡采用基于UEC标准的UEC-CC拥塞控制技术从而解决拥塞控制问题。据UEC 1.0标准,UEC-CC 采用基于时间的机制,具备亚500纳秒精度的传输时延测量能力,独立测量数据包的前向路径和反向路径,这意味着网卡之间需要进行绝对时间同步。双向测量可以准确地将拥塞归因于发送方和接收方。如果启用了 UEC-CC,交换机需要支持 ECN(显式拥塞通知),并且预计将使用现代 ECN 变体:在每个流量类别上单独设置拥塞标志,并在数据包传输前立即进行测量。这种设置提供了最新的拥塞信息,并针对每个流量类别进行差异化处理,从而达到优化拥塞控制功能。

5563158c-8489-11f0-a18e-92fbcf53809c.png

英伟达的CX-8 SuperNIC 则使用RISC-V DPA processor来实现拥塞控制功能。在Transport层的Event和路由层的Event都会由DPA处理。在本次Hotchips 2025的演讲中,其并未披露其DPA的细节,但大概率集成了类似UEC的拥塞控制功能。

选择性重传

在传统传输协议,如TCP需要严格的传输顺序,会采用了Go-Back-N机制。而一个RDMA消息通常包含多个数据包,只要有一个数据包错误,就必须从这个数据包起的所有数据包都要重传。在 AI 工作负载中,大量的GPU或者Accelerator间通信是“集合”通信操作的一部分,其中 All-Reduce 和 All-to-All 是主要的集合通信类型。这类通信快速完成的关键是从 A 到 B 的快速批量传输,AI 应用程序关心给定消息的最后部分何时到达目的地。所以对AI网络而言,这让原有的丢包和其处理机制将传输错误放大,大量的重传加剧了网络拥塞,降低AI网络传输效率。

5575f1fc-8489-11f0-a18e-92fbcf53809c.png

558bf75e-8489-11f0-a18e-92fbcf53809c.png

(图: AMD 描述网络丢包及其选择性重传解决方案)

AMD AI NIC 落实了UEC中的选择性重传机制,高性能的RDMA会判断出整个消息中哪个报文被网络丢弃,基于UEC RDMA的网卡通知发送端重传这个报文,而非将所有传输包都需重传。这种选择性重传机制大大改善了AI网络的传输效率,提升AI 大模型训推效能。

上述一系列的高性能RDMA功能是面向AI大规模原生网络Scale Out的关键解决方案,也成为下一代主流AI网卡的必备功能。奇异摩尔的Kiwi SNIC 满足上述面向 AI 原生的 Adv. RDMA 功能,不限于多路径传输、选择性重传、高性能拥塞控制管理技术等。

高性能网卡的额外特性

Nvidia ConnectX-8 SuperNIC

集成PCIe Switch功能

这一代ConnectX-8 超级网卡从ConnectX-7的400G跃升至800G,并集成了PCIe Switch,与Spectrum-X Switch、NVLink协同工作。硬件性能方面,CX-8 的800 Gb/s的RDMA硬件管线和其通过内置的PCIe Gen6 Switch芯片,可支持多达48条PCIe Gen6通道,解决了多设备互联的带宽瓶颈问题。

AMD 网卡引入P4可编程架构

实现网络功能定制化

55cef914-8489-11f0-a18e-92fbcf53809c.png

(来源: AMD)

AMD网卡的P4可编程架构中,表引擎(TE)和匹配处理单元(MPU)为核心组件,提供了灵活的字段操作指令和高效的数据包处理能力。官方数据显示,在RoCEv2测试中,相较于4Q pairs和1Q pair的性能分别提升了25%和40%。

我们知道ASIC架构的网卡相较于FPGA在性能及性价比上都更适合超大规模网络的互联,但是在面向应用快速发展的情况下,灵活性有所不足。基于可编程架构的 ASIC,打破了固有架构ASIC灵活性不足的局限。通过植入可编程引擎可以灵活应对AI算法、系统对于网络持续演进的需求,重构 ASIC芯片可编程可定制的技术范式。

奇异摩尔Kiwi SNIC 超级网卡同样基于可编程ASIC架构,内置HPDE高性能可编程数据DSA。HPDE基于可定义可扩展的网络加速指令集,通过重编译来灵活支持新的协议标准和加速算法,这种高性能可编程数据处理引擎不仅支持先进拥塞控制算法,实现可编程包头识别及处理、链接跟踪功能并具有很强的灵活性来应对软硬件升级。

国产化AI网络自主自控未来可期

在2025中国算力大会上,工业和信息化部明确表示将有序引导算力设施建设,深入开展算力强基"揭榜"行动,聚焦计算、存储、网络等重点方向。这一战略部署将加速国产AI网络芯片、操作系统等核心技术的研发突破,减少对外部技术的依赖。这一政策导向为国产化AI网络产品的自主自控发展奠定了坚实基础

奇异摩尔作为AI网络互联全栈式互联产品提供商也在积极探索AI网络芯片的多元化的集成技术路径。展望未来,随着Scale out和Scale up网络的进一步融合,奇异摩尔的NDSA统一架构平台将积极发挥其网络+计算的双优优势,从而进一步实现网卡功能集成IO Die芯粒 /集成Switch等多种创新技术路径,构建更高性能、更高效能、更灵活的网络基础设施,以满足国产AI的飞速发展需求。

关于我们

AI网络全栈式互联架构产品及解决方案提供商

奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale-out网络的AI原生超级网卡、面向南向Scale-up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • amd
    amd
    +关注

    关注

    25

    文章

    5649

    浏览量

    139042
  • 网络
    +关注

    关注

    14

    文章

    8135

    浏览量

    93106
  • AI
    AI
    +关注

    关注

    89

    文章

    38163

    浏览量

    296857

原文标题:HotChips 2025启示录: AI网络国产化破局未来可期

文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ALVA打造机器视觉国产化替代新标杆

    “十五五”规划明确,到 2030 年,我国工业软件国产化率提升至 50% 以上,目标实现高端数控机床 90% 以上核心部件国产化
    的头像 发表于 11-05 11:30 655次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    生物化学计算机,它通过离子、分子间的相互作用来进行复杂的并行计算。因而未来可期的前景是AI硬件将走向AI湿件。 根据研究,估算出大脑的功率是20W,在进行智力活动时,其功率会增大到25
    发表于 09-06 19:12

    国产化自主可控低空警戒雷达波束赋形的系列产品解决方案

    国产化,自主可控,
    的头像 发表于 08-19 10:44 696次阅读
    <b class='flag-5'>国产化</b>自主可控低空警戒雷达波束赋形的系列<b class='flag-5'>化</b>产品解决方案

    国产化!这款AI智能模组很硬核

    国产操作系统构建自主生态闭环,叠加8TOPS端侧AI算力,为金融、能源、工业、交通等关键领域注入安全可信、智能高效的国产化新势能。元器件100%国产遴选:筑牢安全基
    的头像 发表于 06-16 19:15 726次阅读
    全<b class='flag-5'>国产化</b>!这款<b class='flag-5'>AI</b>智能模组很硬核

    清醒地坚持,瑞之辰等芯片企业以实践推动国产化替代

    美的高新科技企业,以实践践行国产化替代。认清差距,坚定长期主义而立近日,华为创始人任正非在面对“如何应对当前困难”的提问时直言“不去想困难,干就完了,一步一步
    的头像 发表于 06-13 11:40 834次阅读
    清醒地坚持,瑞之辰等芯片企业以实践推动<b class='flag-5'>国产化</b>替代

    扬杰IGBT七单元模块:全封装矩阵平替进口,重构国产化功率器件新生态

    国产化 重构功率器件生态 IGBT Localization 在全球供应链震荡与国产替代浪潮中,扬杰科技推出七单元IGBT全封装解决方案,以六大封装矩阵精准对标国际品牌,实现“零改
    的头像 发表于 05-30 11:50 540次阅读

    !连接器国产化替代加速逆袭

    说明中国已经做好了准备!时代呼唤国产化替代的加速前行,随着国际竞争日益激烈,技术封锁与贸易保护主义抬头,给中国经济发展带来了前所未有的挑战。在此背景下,加快国产化
    的头像 发表于 04-10 17:52 704次阅读
    <b class='flag-5'>破</b><b class='flag-5'>局</b>!连接器<b class='flag-5'>国产化</b>替代加速逆袭

    国产AI芯片国产TCB设备首次完成CoWoS封装工艺测试

    ,高端GPU的国产化制造成为中国AI产业发展的关键挑战,尤其是CoWoS先进封装制程的自主尤为紧迫,目前中国大陆产能极少,且完全依赖进口设备,这一瓶颈严重制约着国产
    的头像 发表于 03-14 11:09 1430次阅读
    <b class='flag-5'>国产</b><b class='flag-5'>AI</b>芯片<b class='flag-5'>破</b><b class='flag-5'>局</b>:<b class='flag-5'>国产</b>TCB设备首次完成CoWoS封装工艺测试

    国产化算力新标杆!卓怡恒通EPC-S4450边缘AI工控机开启工业智能新纪元

    在工业4.0与数字转型浪潮的推动下,边缘计算正加速重构工业智能版图。国内信创工业计算领域领军企业卓怡恒通今日正式发布EPC-S4450边缘AI工控机,以"全栈国产化+
    的头像 发表于 03-06 17:30 965次阅读
    <b class='flag-5'>国产化</b>算力新标杆!卓怡恒通EPC-S4450边缘<b class='flag-5'>AI</b>工控机开启工业智能新纪元

    深圳发力机器人AI芯片攻关,万年芯助推国产化替代

    人工智能和机器人产业方面展现出强大的创新活力与发展潜力,旨在引导各方资源汇聚,全力推动芯片技术迈向新高度,为国产化替代奠定坚实基础。万年芯作为半导体领域国产化替代的知
    的头像 发表于 03-04 13:54 916次阅读
    深圳发力机器人<b class='flag-5'>AI</b>芯片攻关,万年芯助推<b class='flag-5'>国产化</b>替代

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    国产化。 5.未来发展趋势• 高性能与低功耗并重:未来,FPGA将朝着更高性能、更低功耗的方向发展,以满足AI应用对算力和能效的双重需求。• 开源硬件与创新生态:FPGA技术的开放性
    发表于 03-03 11:21

    引领国产化创新,推动行业发展

    在当前全球科技竞争日益激烈的背景下,国产化成为了众多企业发展的重要方向。视美泰作为AI智能终端产品级解决方案提供商,积极投身于国产化进程,制定了全面且长远的国产化规划。一方面,致力于在
    的头像 发表于 03-03 10:02 1196次阅读
    引领<b class='flag-5'>国产化</b>创新,推动行业发展

    国产力量崛起:博尔森纯国产化磁致伸缩位移传感器方案

    博尔森科技推出纯国产化磁致伸缩位移传感器,实现波导丝、元器件BOM国产化,具有高精度、高稳定性、强抗干扰能力,广泛应用于工业领域,推动行业国产化进程,提升工业自动水平。
    的头像 发表于 02-13 17:35 1113次阅读
    <b class='flag-5'>国产</b>力量崛起:博尔森纯<b class='flag-5'>国产化</b>磁致伸缩位移传感器方案

    国产化RK3588边缘计算网关!硬件国产+系统国产

    智能转型的关键力量。当前国际形势紧张,国产化工控设备的替代工作尤为迫切,在此背景下,英康仕正式推出RK3588国产化边缘计算网关,对推动智能转型、保障产业链安全
    的头像 发表于 01-03 14:32 1700次阅读
    <b class='flag-5'>国产化</b>RK3588边缘计算网关!硬件<b class='flag-5'>国产</b>+系统<b class='flag-5'>国产</b>!

    国产化,更可控 智微工业JVC国产化系列嵌入式工控机

    随着国产化替代需求的持续增长,信息安全与自主可控已成为工业自动领域的核心关注点,如何实现国产化替代,构建稳定、安全、可靠的工控解决方案,成为企业亟待解决的问题。智微工业凭借深厚的技术积累和创新能力
    的头像 发表于 12-23 09:15 1506次阅读