0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

INT-based Routing(基于遥测的智能路由)如何重构AI集群流量调度?

星融元Asterfusion 2025-05-12 17:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

路由协议的演进史:从静态配置到AI时代的神经网

一、路由协议的诞生:静态路由时代(1960s—1970s)

互联网的雏形ARPANET诞生时,网络规模极小,节点间路径固定。工程师手动配置每一条路由表,如同在纸质地图上标注每条街道的通行规则。这种“静态路由”虽简单可靠,却完全依赖人工维护——任何链路中断或新增节点都需要重新配置,无法适应动态变化的网络环境。这种模式在小规模网络中勉强可用,但随着节点数量增加,其脆弱性暴露无遗。

局限的本质:网络被视为静态拓扑,缺乏对动态变化的感知与响应能力。

二、动态路由协议:网络学会“自我修复”(1980s—2000s)

1989年,OSPF(开放最短路径优先)和BGP(边界网关协议)的发布,标志着网络进入动态自治时代。动态路由协议通过两种核心能力彻底改变了网络:

  1. 拓扑感知:OSPF基于链路状态数据库(LSDB),实时计算最短路径;BGP通过AS-PATH属性在自治系统间传递路由信息。
  2. 故障自愈:当某条链路中断,协议自动重新计算路径,保障连通性。

技术突破:网络从“静态地图”升级为“实时导航系统”,但流量调度仍依赖固定策略(如ECMP均分流量),无法应对复杂场景。

三、SDN革命:集中控制的理想与困境(2008年—2010s)

为追求更灵活的流量控制,软件定义网络(SDN)横空出世。其核心理念是将控制平面集中化,由中央控制器全局调度流量。理论上,SDN能实现精细化的流量工程,例如为关键业务预留带宽、动态规避拥塞链路。

但在实现过程中遇到瓶颈。感知延迟:控制器依赖秒级更新的网络状态,面对AI流量的毫秒级波动,决策严重滞后。协调成本:集中式架构难以应对大规模分布式网络的复杂性,控制器成为性能瓶颈。

SDN未能取代动态路由协议,但启发了后续技术对“集中与分布”平衡的探索。

四、协同进化:动态路由与控制器联姻(2010s—2020s)

为弥补传统路由的灵活性不足,技术社区提出“协议与控制协同”方案:

  1. Segment Routing(SR):通过源路由标记路径,结合控制器实现流量工程。
  2. BGP EVPN:在数据中心多租户场景中,动态管理虚拟网络拓扑。

进步与局限:这些技术提升了流量调度的灵活性,但仍依赖预定义策略,无法实时响应突发流量。例如,ECMP均分流量时,一条“大象流”仍可能压垮某条路径,而控制器无法即时干预。

五、INT-based Routing:AI时代的“神经感知路由”(2020s—)

当AI驱动的流量彻底颠覆传统网络模型时,路由技术迎来质变——INT-based Routing通过三项革新,让网络具备“自主神经系统”:
1. 微秒级感知:数据包成为“侦察兵”

  • INT(带内网络遥测):在业务数据包中嵌入元数据(如队列深度、链路时延),逐跳收集路径状态,精度达微秒级。
  • 分布式计算:每台交换机实时分析本地INT数据,结合OSPF/BGP的全局拓扑信息,动态计算最优路径。

2. 动态负载均衡:从“均分”到“自适应”

  • WCMP(加权多路径):根据实时链路负载(而非静态权重)分配流量。例如,某路径因“大象流”导致时延上升,新流量立即切换至低负载路径。
  • Flowlet级调度:将长连接流划分为片段(flowlet),按路径状态动态分发,避免传输层乱序问题。

3. 故障自愈:从“分钟级”到“毫秒级”

传统网络中,链路故障需数秒至分钟才能恢复;而INT-based Routing通过实时感知与分布式决策,可在10ms内切换备用路径,业务完全无感。

案例:AI数据中心的性能跃迁

以一个典型的Spine-Leaf拓扑的数据中心网络为例。

wKgZO2ghuVCAS1_5AAC0gJTV304002.png

如上图所示,Server0和Server1分别连接到两个Leaf交换机,这一对Leaf交换机间存在4个路径。

在Server侧看不到这4个路径,因此智能网卡无法实现流量调度。

在Leaf交换机上,如果仅依赖OSPF,能看到4条静态的等价路径,但它们的负载实际上是不同的。

如果借助INT的感知能力,Leaf1交换机上现在就能够知道去往Server0有4条时延不相等的路径。这样Leaf1交换将能够选择更优的策略将流量分配到这4条路径上,如最小时延路径或者WCMP(Weighted Cost Multiple Path),从而实现完全自适应的路由,让网络流量和网络负载完全匹配,最大化网络的吞吐量、最小化尾部延迟,最大化网络利用率。

INT-Based Routing可以与Packet Spray和flowlet结合,实现逐包级别或逐flowlet级别的流量调度。借助OSPF和BGP的拓扑发现能力,它能够在任意拓扑的网络上应用。

相比传统的ECMP技术,INT-Based Routing可将网络利用率提升到90%以上,网络吞吐量提升20~45%, P99 tail latency 降低50%以上,从而显著提高AI训练的作业完成时间(JCT)。

OSPF擅长在链路级别感知网络拓扑,BGP则擅长在AS级别感知网络拓扑,INT通过逐跳嵌入元数据,彻底解决了原来单个交换机无法动态感知整个路径上流量和负载的问题。它们的结合释放出强大的流量调度能力。

新路由范式将带来新一轮网络设备升级

AI的发展告诉我们,当我们做更多更有效率的分布式计算,就可以改变世界。网络本身又何尝不是如此。当我们在交换机中对网络拓扑、网络流量和设备负载进行实时分布式计算后,我们就能大幅改善网络的性能。

Smart Switch的基本构成是“可编程ASIC数据平面 + DPU化的控制平面 + 控制平面到控制平面的高速数据通道”。

wKgZO2ghuZuAbzMBAACkFjGNp9U150.png

关于CX864E-N:51.2T 800G AI智算交换机软硬件系统设计全揭秘

Smart Switch 是“网络智能化”的结构性演进。它不再依赖主机上的智能网卡、也不依赖集中控制器,而是将 “实时感知 + 智能调度” 嵌入网络最核心的物理单元Switch中,使网络成为分布式计算平台,具备自感知、自调度能力,从而自适应处理毫秒级的流量变化,是网络应对AI时代的关键变革。

在此基础上,INT-Based Routing应运而生,推动网络控制面进一步走向智能化,是路由技术的最新范式。可以说,INT-Based Routing 是为AI而生的智能路由!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Int
    Int
    +关注

    关注

    0

    文章

    25

    浏览量

    16421
  • 路由技术
    +关注

    关注

    0

    文章

    13

    浏览量

    6626
  • 网络流量
    +关注

    关注

    0

    文章

    62

    浏览量

    11240
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    液冷散热时代:AI服务器如何重构磁元件设计

    随着AI服务器功率密度的快速提升,传统的风冷散热方案在热管理方面逐渐面临挑战。在此背景下,液冷散热技术正加速应用于数据中心,特别是高算力的AI集群中。 这一散热方式的变革,并不仅仅是冷却介质的简单
    的头像 发表于 11-21 11:42 202次阅读
    液冷散热时代:<b class='flag-5'>AI</b>服务器如何<b class='flag-5'>重构</b>磁元件设计

    工业AI智能重构人机结合边界

    。其中,工业AI智能体(Agent)正在渗透到工业全流程,带来的不止于效率的提升,更有可能重构人机结合的边界以及管理的边界,成为一种隐形的竞争力。
    的头像 发表于 10-15 09:50 871次阅读

    AI赋能6G与卫星通信:开启智能天网新时代

    \"天-地-空\"一体化的无缝网络: 全球覆盖:卫星提供广域覆盖,6G提供高速率、低延迟的地面接入,AI实现智能调度 无缝切换:当用户从地面网络移动到卫星覆盖区域时,AI确保切换过程平
    发表于 10-11 16:01

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    NVIDIA Quantum-2交换机等主流设备。 平滑扩展:与现有400G/100G设备无缝互通,降低数据中心升级成本。 多场景覆盖:从AI训练集群的“大象流”到AI推理的碎片化流量
    发表于 08-13 19:01

    一文看懂AI算力集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI算力集群AI的三要素,是算力、算法和数据。而
    的头像 发表于 07-23 12:18 997次阅读
    一文看懂<b class='flag-5'>AI</b>算力<b class='flag-5'>集群</b>

    AI重构实体生意:智能体如何重塑家居行业增长逻辑?

    重构实体生意·2025AI智能营销大会”现场,鸿雁电器总裁王米成、萤石网络智能算法部总经理程战战、百度家居行业高级客户经理韩仲秋、腾讯云行业解决方案专家张金繁、群
    的头像 发表于 07-16 20:46 658次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>重构</b>实体生意:<b class='flag-5'>智能</b>体如何重塑家居行业增长逻辑?

    AI智能时代重构PCB价值的核心逻辑

    AI智能时代的PCB价值重构研究 一、引言 (一)研究背景与意义 在AI技术驱动下,全球电子信息产业加速变革,PCB(印制电路板)作为电子系统的物理载体,其价值正从基础连接件向技术核心
    的头像 发表于 07-16 18:55 4.7w次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    、DDoS攻击迹象、性能劣化趋势。l 智能推送优化建议(如流量调度策略调整、安全规则预加载),将风险扼杀在萌芽状态。 方案价值:AI推理引擎带来的运维变革 信而泰融合DeepSeek
    发表于 07-16 15:29

    智能路径调度AI驱动负载均衡的异常路径治理实践

    AI驱动的数据中心网络环境中,传统的“尽力而为”和“无差别均分”负载均衡策略已力不从心。基于路径综合质量的动态WCMP机制,通过实时感知路径状态、果断剔除异常、智能调度“健康”资源,有效解决了
    的头像 发表于 07-03 16:26 1024次阅读
    <b class='flag-5'>智能</b>路径<b class='flag-5'>调度</b>:<b class='flag-5'>AI</b>驱动负载均衡的异常路径治理实践

    Path Bandwidth Extended Community:藏在BGP属性里的智能路由革命

    传统BGP协议虽能实现路由可达性,但缺乏对路径质量的动态感知能力,导致流量分配不均、高延迟链路未被规避等问题。为提升网络资源利用率,动态智能选路技术应运而生。该技术基于BGP扩展机制,通过实时收集路径质量指标,实现数据流的
    的头像 发表于 06-24 14:00 622次阅读
    Path Bandwidth Extended Community:藏在BGP属性里的<b class='flag-5'>智能</b><b class='flag-5'>路由</b>革命

    高性能计算集群AI领域的应用前景

    随着人工智能技术的飞速发展,高性能计算集群(HPC)在AI领域的应用前景日益受到关注。HPC提供的计算能力与AI智能分析能力相结合,为解决
    的头像 发表于 06-23 13:07 1051次阅读
    高性能计算<b class='flag-5'>集群</b>在<b class='flag-5'>AI</b>领域的应用前景

    AI赋能安全调度系统:智能升级与功能跃迁

    安全调度系统 通过AI技术的深度整合,实现了从传统监控到智能决策的质变升级。这种智能化转型不仅提升了系统的响应速度和处理精度,更重塑了整个安全管理的运行范式。以下是古河云科技
    的头像 发表于 04-24 12:02 502次阅读

    适用于数据中心和AI时代的800G网络

    提出了三大核心需求: 超低延迟和高带宽:确保大规模数据传输高效进行。 智能流量调度:采用自适应路由和负载均衡技术,减少网络拥塞。 性能隔离与稳定性:在多租户环境下保障带宽分配,防止性能
    发表于 03-25 17:35

    AI赋能边缘网关:开启智能时代的新蓝海

    ,准确率达到99.9%。 这一技术革新正在创造巨大的商业价值。在智慧城市领域,AI边缘网关可以实现交通流量实时分析、违章行为智能识别;在工业互联网中,能够实现设备预测性维护、生产工艺优化;在智慧能源领域
    发表于 02-15 11:41

    中科曙光以AI加速智能计算服务千行万业

    近年来,中科曙光以AI为中心,全面重构底层芯片、液冷、计算、存储、智算集群、基础软件栈、管理平台,并与AI场景有机适配、融合,加速智能计算服
    的头像 发表于 02-10 17:45 1564次阅读