0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

INT技术众多,为何IPT能成为路径性能监控的首选方案?

星融元Asterfusion 2026-02-09 17:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

什么是IPT(In-band Path Telemetry)?

IPT是 In-band Path Telemetry 的缩写,中文译为 “带内路径遥测”。IPT是INT技术的标准方案之一,也是实现网络数据平面可观测性的一种核心技术。要理解“带内”,首先要对比“带外”;

  • 带外遥测:网络设备(如交换机、路由器)会定期、主动地收集自身的性能数据(如端口计数、CPU负载),并通过独立的管理通道(如SNMP、gRPC)上报给控制平面或网管系统。数据流和业务报文是分离的。
  • 带内遥测:业务报文本身在转发过程中,会“携带”其流经路径的网络状态信息。这些信息被直接写入数据包内部,并随数据包一同被传送到目的地或指定的收集点。

所以,IPT的核心思想就是,将网络测量任务从网管设备(带外)下放到数据报文(带内)本身。让数据包在穿越网络时,像“侦探”一样,沿途自动收集每一跳设备的实时状态信息,并将这些证据(遥测数据)封装在自己体内,最终送达分析端。

IPT的技术实现

在现有报文格式(如以太网帧、IPv4/IPv6包)中插入一个INT头部和一系列INT指令,预留出空间来存放待收集的数据。需要支持INT的设备(称为“INT节点”或“Telemetry Node”)在转发该报文时,会识别INT指令,并根据指令要求,将本地的特定信息(如交换机ID、入口/出口端口、时间戳、队列深度、链路利用率等)写入报文预留的INT数据区。所有信息都在数据内部添加和传输,不需要再为遥测单独建立通道或额外发送探测报文。

IPT 报文格式

IPT报文由多层头部构成,包含L2/L3封装、GRE头部、IPT Shim头部、探针标记及各节点统计信息等字段。

IPT工作流程

IPT通过入口节点生成探测包、传输节点收集信息、出口节点封装报文发送的整理流程图,实现端到端路径信息采集。探测数据包为原始数据包的克隆(payload截断),沿与原始包相同路径传输,并在各个节点插入统计信息,最终发送至用户配置的收集器。

wKgZPGmJrkmASdDNAAalov03OBo673.png

IPT能做什么呢?

IPT提供了一种高实时性、与业务流完全同步的网络路径状态的洞察能力。

精准的故障与性能问题定位

传统定位故障问题的方法网络管理员收到告警(如“服务器A到B延迟高”),需要逐跳登录设备、查看计数器、抓包分析,耗时长,难以定位到具体哪一跳、哪个端口、哪个队列出了问题。

IPT可以直接从出问题的数据流本身的INT报告中,就能看到整条路径上每一跳的详细信息。举个例子:通过报告可以发现“在交换机3的出口端口Ethernet1/1/1上,队列2的排队延迟突增了50ms”,这样就实现秒级甚至亚秒级的根因定位。

网络性能可视化与基线建立

持续收集关键业务流的路径数据,可以绘制出网络性能的精细图谱,实现端到端性能的可视化,包括逐跳的延迟、抖动、丢包、拥塞点等。基于这些真实数据建立性能基线,任何偏离基线的异常都可以被快速检测出来,辅助运维决策。

自动化与智能运维

SDN控制器、网络分析器或AIOps平台提供高质量、实时、关联性极强的输入数据,可用于训练AI模型。使得网络能够实现基于真实流量状态的动态优化,如自动重路由(将受拥塞影响的流量切换到其他路径)、主动缓存调整、容量规划等。

服务等级协议保障与验证

对于云服务商或企业,可以针对VIP客户或关键应用(如视频会议、金融交易)的流量启用IPT。直接验证从源头到目的地的SLA指标(如端到端延迟、丢包率)是否达标,并提供无法抵赖的、逐跳的证据。

典型应用场景 - 端到端路径时延监控

在某超千卡GPU集群的大规模训练场景中,All-Reduce等集合通信操作对网络时延极度敏感,其完成速度取决于最慢的路径。传统监控手段难以精准定位网络链路中的隐患。IPT技术通过实现纳秒级精度的端到端路径时延透视,为解决此问题提供了根本性方案。

wKgZO2mJrm6AFvXAAAWCFGUeTLc958.png

训练过程中,梯度数据需经多台Leaf/Spine交换机转发。IPT通过探测数据包采集各节点转发时延,结合入口到出口的总时延,定位高延迟节点(如某Spine交换机转发时延异常升高),辅助调整流量转发路径,避免因单节点延迟导致整体训练效率下降。

通过IPT实现的端到端路径时延监控,将网络从“黑盒”变为“白盒”,把训练效率的瓶颈定位从“猜测GPU或软件问题”精确到“证实并定位网络硬件或微突发流量问题”,从而将小时级甚至天级的故障排查过程缩短至分钟级,有效保障了万卡集群的算力高效、稳定输出。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 监控
    +关注

    关注

    6

    文章

    2398

    浏览量

    59586
  • IPT
    IPT
    +关注

    关注

    0

    文章

    3

    浏览量

    8814
  • Int
    Int
    +关注

    关注

    0

    文章

    27

    浏览量

    16494
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深圳为何能成为“无人机之都”?

    深圳为何能成为“无人机之都”?过去,提到深圳,大家想到的词可能是“经济特区”、“公园之城”、“创客之都”……现在,深圳又多了个标签“无人机之都”,人们已经见识了“深圳速度”,在智能硬件的风口上,深圳
    发表于 06-21 18:37

    测试无线连接性能成为汽车研发制造的关键

    `测试无线连接性能成为汽车研发制造的关键 无论是为消费者提供更多的增值服务体验,亦或是整车厂商为通过技术升级保持市场竞争力,汽车行业中无线连接技术的应用在不断增加。汽车工业将越来越重视无线连接
    发表于 07-09 16:45

    设计U盾产品所需要的技术背景需要哪些专业知识才能成为高手?求大虾指点迷津

    计划在智能锁产品控制技术方面发挥创业:设计U盾产品所需要的技术背景需要哪些专业知识才能成为高手?求大虾指点迷津智能控制:前端是基于SMT底层单片机通信技术,需要哪些专业知识或人才,求指
    发表于 02-13 10:08

    具备哪些知识才能成为真正的嵌入式工程师???

    哪些知识的具备才能成为真正的嵌入式工程师????
    发表于 07-13 10:40

    如何才能成为一名嵌入式大牛呢?

    [td]嵌入式开发要学哪些,嵌入式可以简单分为硬件与软件,然而其中的知识体系却是异常的庞大,这也是众多新手望而却步的一个原因,那究竟要如何才能成为一名嵌入式大牛呢?  
    发表于 01-18 06:48

    完全自动驾驶车辆何时才能成为现实?

    完全自动驾驶车辆何时才能成为现实?
    发表于 02-04 07:25

    软件无线电如何才能成为开放无线电?

    软件无线电如何才能成为开放无线电?
    发表于 05-24 07:19

    MIMO-OFDM系统为什么能成为第四代移动通信领域研究的热点和重点?

    MIMO-OFDM系统为什么能成为第四代移动通信领域研究的热点和重点?
    发表于 05-27 06:39

    云计算为什么能成为物联网的秘密武器?

    云计算为什么能成为物联网的秘密武器?
    发表于 06-18 06:22

    如何才能成为一名单片机高手?

    如何才能成为一名单片机高手?学习单片机的三个步骤你都知道吗
    发表于 07-01 07:01

    如何才能成为一个数字验证工程师?

    如何才能成为一个数字验证工程师?
    发表于 09-18 09:17

    如何才能成为一个硬件工程师?

    如何才能成为一个硬件工程师?
    发表于 11-11 07:11

    如何才能成为一名单片机工程师?

    如何才能成为一名单片机工程师?
    发表于 12-23 07:56

    中国有可能成为L4技术以及相关应用的世界领导者

    本文核心观点:中国有可能成为L4技术以及相关应用的世界领导者;在2030年,中国极有可能成为世界最大的无人驾驶市场;无人驾驶L4生态会是“共生”的,价值链将趋向扁平化;传统汽车领城的公司需要转型
    的头像 发表于 02-23 11:05 5057次阅读

    AVR单片机为何能成为8位机中的佼佼者?

    AVR单片机为何能成为8位机中的佼佼者? AVR单片机是一种高性能、低功耗、高可靠性、方便编程的微控制器。它可以广泛应用于消费电子、汽车电子、通信、医疗、工业自动化等领域。为什么AVR单片机能成为8
    的头像 发表于 10-29 17:29 1534次阅读