0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TECS资源池上报网络流程异常告警的问题处理

中兴文档 来源:中兴文档 2023-06-07 09:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

某资源池TECS上报网络流程异常告警,告警单次持续15秒-4分钟之间。

涉及UDM/PCF网元OMU虚机和ISBG网元的OMP虚机,不间断出现“网络流量异常”告警。

问题分析如下:

1.告警发生在多个网元环境,涉及不通的主机以及主机集合,以及多个业务TOR,按照问题发生的规律性排除单台的硬件故障。

2.在线TECS版本和硬件组合已在多个站点使用,未发生相关情况,排除软件版本和硬件的兼容性问题。

3.结合具体现场情况,上层业务多为测试版本,需要重点定位在上层业务和TECS的配合。

4.按照问题发生的严重度,优先选择告警最频繁的网元虚拟机做抓包定位分析,同时结合历史数据做规律性排查。

本次网络流量异常告警涉及网络虚机多,但问题原因类似,以下涉及的TECS以排查一个网元虚机为例。

1.通过告警详情,TECS检查虚机对应端口性能统计,如下图所示。

59ff2850-0485-11ee-90ce-dac502259ad0.png

2.从告警详情中得知虚机NFV-R-xxx-56OMP_L的vhu599f535d-1f端口在接收的21859个包中,丢了380个包,丢包率为1.7%。随即统计了该虚机端口指标,发现虚机端口流入有丢包,端口流出没有丢包。

3.TECS网络流量异常告警产生机制,如图5所示。

5a1d3e3a-0485-11ee-90ce-dac502259ad0.png

a.虚拟机的每一个虚口,对应DVS虚交换都有两个队列缓存,用于DVS和该虚口收发包的处理。一个收队列(VM--->DVS方向,默认队列长度1024),一个发队列(DVS--->VM方向,默认队列长度1024)。该告警是对应DVS的发队列,即DVS发送报文给虚拟机的方向(图中红线示例部分)。

b.DVS收到物理口进来的报文后,根据相应的转发规则,将对应的报文向不同的虚拟机的虚口转发,发送的报文会进入发送队列。

c.DVS根据队列的标志位状态决定是否产生中断信号,通知虚拟机接收发送队列的包(队列标志位状态由虚拟机内部收包进程维护:当虚拟机内正在处理收包时,置标志位状态标记DVS为不需要发送中断信号通知虚拟机处理收包;当虚拟机内没有处理收包时,置标志位标记DVS为需要立即发送中断信号通知虚拟机处理收包)。

d.当虚拟机没能及时取走队列的数据,DVS发向虚拟机虚口的报文填满队列时,则会出现队列消息积压,超过了队列的长度,后续多余的报文就会因为无法入队列而被丢弃,丢弃的报文数统计在overrun中。

e.DVS每隔5秒检测一次overrun的统计和本周期内收包总数的比值,如果连续3次检测,overrun的报文占比达到告警门限(丢包超过千分之一),就会上报告警。

f.计算节点上可以使用统计命令dvs show-dpifstats,采集所有虚拟机虚口和物理网口的收发包历史统计信息,命令需要通过多次采集后,根据采集的结果,观察虚口是否存在tx_overrun的统计增加。如果存在虚口在采集的周期内增加现象,说明虚拟机处理DVS发送队列的报文不及时(或者处理能力不足),无法及时消费队列的报文导致报文overrun。 g.DVS处理能力如下,本次问题的核心不是DVS的处理能力,而是在于业务虚拟机的处理能力。

25G网卡带宽分配比例为0.24(DVS最大处理能力为12Gbps)。

10G网卡带宽分配比例为0.35(DVS最大处理能力为 7Gbps)。

4.由于网络流量异常告警不止一个种类的虚机,统计了4个月非凌晨操作时间的“网络流量异常”的历史告警,结果如下图所示。

5a27f582-0485-11ee-90ce-dac502259ad0.png

5.采集观察每一类虚机指标发现,丢包均为DVS 发送报文给虚拟机的方向。且同类型虚机都是入向到端口有丢包,可以判定是上层网元虚机原因,需要上层业务虚机侧协助排查。

6.UDM/PCF网元OMU虚机:

a.现场停止OMU虚机的端到端信令跟踪任务后,告警不再出现。

b.现网OMU创建大量端到端信令跟踪任务,未及时进行清理,会出现该现象,原因为:现场OMU 有N个SC。

c.当前信令跟踪任务同步机制为:每条信令跟踪任务数据约4K记录,需要全表同步,即每次信令跟踪任务激活,都会把所有信令跟踪任务数据全量同步至前台。

d.此外,MP向SC同步数据时,要乘以SC个数,即每次要同步N*4K*300的数据。大包需要进行分包,造成一次往前台同步的数据量很大,造成虚机流量过大,出现告警。

e.TIPI是立刻重传,只要接收方发现接收的消息不连续,会给发送消息方请求重传,请求方接收到重传请求,会立刻重传。

7.ISBG网元的OMP虚机:

针对资源池DVS进行抓包分析,发现存在瞬间大量包集中收发情况,5秒内瞬时冲高收发27000个包,之后立即恢复正常,如下图所示。

5a36ba68-0485-11ee-90ce-dac502259ad0.png

a.收发包峰值时刻深入分析确定,峰值收发包均由网元性能统计采集数据产生。

b.以日志采集为例,该时刻约产生27000个包,其中“SCSCF 用户数按模块统计”性能统计任务瞬间产生12596个包;“内存库占用按模块统计”性能统计任务瞬间产生13617个包。

c.两个性能统计任务瞬间合计产生26213个包(12596+13617=26213),说明资源池产生流量峰值与“SCSCF 用户数按模块统计”、“内存库占用按模块统计”两个性能统计任务有关联。

8.S-CSCF用户数按模块统计,如下图所示。

5a54c684-0485-11ee-90ce-dac502259ad0.png

9.内存库占用按模块统计,如下图所示。

5a67e48a-0485-11ee-90ce-dac502259ad0.png

10.查看“SCSCF 用户数按模块统计”、“内存库占用按模块统计”性能统计任务发现:

a.两性能统计任务勾选全量模块对象,实际应用中只需勾选真实激活的SMP模块即可(CDB、OMP以及未激活SMP模块无需勾选),按真实应用只需勾选47个SMP测量对象。

b.其余勾选的测量对象(CDB、OMP以及未激活SMP模块)为无效对象,导致处理性能统计上报的网卡上流量突增,流量突增时会影响底层资源池产生瞬时流量告警。

c.性能统计与外部信令交互区分通道执行,此性能统计流量瞬时突增不会波及VoLTE业务流程,对业务无影响。

d.此性能统计流量突增产生少量丢包情况。由于性能统计数据上报有重传机制保障,不会影响性能统计数据整粒度采集,所以对性能统计数据呈现无影响。此外,由于流量冲高是瞬时行为,因此对网元自身CPU影响不大。

11.“SCSCF 用户数按模块统计”、“内存库占用按模块统计”两个统计任务勾选了大量的无效性能统计测量对象,导致性能统计数据采集异常,单个网卡流量短暂冲高,偶发性造成短时间少量丢包,导致底层资源池产生端口流量异常告警,但不会影响网元业务及性能统计。

1.通过如下方式暂时规避该问题:

a.UDM / PCF:现场测试阶段,尽量控制信令跟踪任务在30个以下,完成测试后删除测试号码的跟踪任务。

b.ISBG:“SCSCF 用户数按模块统计”、“内存库占用按模块统计”两个统计任务去除测量对象勾选。

2.网络流量异常告警是监控上层网元运行正常的重要告警之一,例如当上层网元虚机有下电或者重启都会产生网络流量异常告警,可通过告警信息判断涉及网元、对应虚机及端口。

3.本次网络流量异常告警主要是因为上层网元有抓包或信令跟踪导致,告警本身无业务影响。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PCF
    PCF
    +关注

    关注

    0

    文章

    32

    浏览量

    21258
  • DVS
    DVS
    +关注

    关注

    0

    文章

    18

    浏览量

    9885
  • 虚拟机
    +关注

    关注

    1

    文章

    968

    浏览量

    30170
  • ToR
    ToR
    +关注

    关注

    0

    文章

    8

    浏览量

    10600
  • NFV
    NFV
    +关注

    关注

    3

    文章

    118

    浏览量

    34657

原文标题:TECS资源池上报网络流程异常告警的问题处理

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    线路保护光纤通道异常处理方法

    通道异常的 常见原因、处理步骤及预防措施 ,帮助运维人员快速定位问题,提升故障处理效率。 广州邮科光纤线路保护系统 一、光纤通道异常的常见表现 当线路保护光纤通道出现
    的头像 发表于 11-17 10:01 396次阅读
    线路保护光纤通道<b class='flag-5'>异常</b><b class='flag-5'>处理</b>方法

    如何处理电能质量在线监测装置时钟模块自动同步异常的情况?

    针对性解决方案。以下是具体处理流程和操作方法: 一、通用前置步骤:明确异常类型与核心信息 处理前需先收集关键信息,避免盲目操作: 确认同步方式 :通过装置 Web 界面或手册,明确当前
    的头像 发表于 10-27 10:16 724次阅读

    交换机光模块收发光超阈值无告警问题的处理方法

    某互联网电视CDN网络使用ZXR10 5960-56QU-HC交换机作为承载设备,通过光口与城域网设备以及CDN服务器对接,承载互联网电视视频流量。日常运行中发现设备没有上报光模块收发光超阈值告警,造成无法对互联网电视的
    的头像 发表于 10-16 09:34 386次阅读
    交换机光模块收发光超阈值无<b class='flag-5'>告警</b>问题的<b class='flag-5'>处理</b>方法

    碳化硅衬底 TTV 厚度测量数据异常的快速诊断与处理流程

    摘要 本文针对碳化硅衬底 TTV 厚度测量中出现的数据异常问题,系统分析异常类型与成因,构建科学高效的快速诊断流程,并提出针对性处理方法,旨在提升数据
    的头像 发表于 08-14 13:29 993次阅读
    碳化硅衬底 TTV 厚度测量数据<b class='flag-5'>异常</b>的快速诊断与<b class='flag-5'>处理</b><b class='flag-5'>流程</b>

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    有效降低整体运维成本l 优化人力资源:AI自动化处理大量重复性监控、初步分析与告警任务,释放高级工程师精力,使其专注于更具战略性的复杂问题与创新。l 提升资源利用率:AI可基于分析结果
    发表于 07-16 15:29

    C#上位机与运动控制卡网络通讯的周期上报

    使用C#上位机编程实现运动控制卡网络通讯的周期上报功能
    的头像 发表于 06-26 13:59 521次阅读
    C#上位机与运动控制卡<b class='flag-5'>网络</b>通讯的周期<b class='flag-5'>上报</b>

    TECS OpenStack资源池虚拟机网络二层地址无法互通的问题处理

    某运营商TECS OpenStack使用主机overlay SDN方案组网,运维人员在创建虚拟机测试虚拟机网络状态时发现问题:在其中一台主机上创建两台同网段虚拟机,虚拟机之间二层地址无法Ping通,但是可以Ping通网关地址,如图1所示。
    的头像 发表于 06-12 09:28 681次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚拟机<b class='flag-5'>网络</b>二层地址无法互通的问题<b class='flag-5'>处理</b>

    异常零流量小区检测功能介绍

    随着5G部署规模不断扩大,网管KPI的分析需求突增也日益显著,存在用户感知问题无法从告警和KPI数值中直接体现的情况;或者某些小区存在故障而网络维护工程师无法及时监控识别出来。异常零流量小区,就是指
    的头像 发表于 03-22 09:54 830次阅读
    <b class='flag-5'>异常</b>零流量小区检测功能介绍

    TECS OpenStack资源池主机磁盘分区使用率过高的问题处理

    某运营商TECS资源池上报“主机磁盘分区使用率过高”的告警,如下图所示。
    的头像 发表于 03-21 09:47 835次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池主机磁盘分区使用率过高的问题<b class='flag-5'>处理</b>

    TECS OpenStack资源池虚机写磁盘时延高告警的问题处理

    某运营商TECS资源池,在当前告警中显示“虚机写磁盘时延高告警”,如下图所示。告警统计总体平均10分钟左右自动恢复。
    的头像 发表于 03-21 09:36 814次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚机写磁盘时延高<b class='flag-5'>告警</b>的问题<b class='flag-5'>处理</b>

    能源管理移动革命:异常告警秒级响应+能效报告自动生成

    新一代能源管理系统通过移动化革命和异常告警秒级响应机制,实现能源管理实时化、智能化新纪元。它通过物联网设备采集数据,边缘计算节点进行分析,管理人员移动终端获取预警信息。通过故障预测模型,系统提前预警,避免生产事故。
    的头像 发表于 03-11 09:46 611次阅读
    能源管理移动革命:<b class='flag-5'>异常</b><b class='flag-5'>告警</b>秒级响应+能效报告自动生成

    TECS OpenStack资源池时间同步失败的故障分析

    某运营商TECS OpenStack资源池,在当前告警中显示“时钟同步失败”,以10分钟整数倍为间隔上报“时间同步失败”告警,持续时间30秒
    的头像 发表于 03-03 10:09 843次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池时间同步失败的故障分析

    TECS OpenStack资源池虚机残留导致网元异常的问题处理

    某运营商TECS资源池的一台主机内存故障,进行关机、内存更换操作,虚机自动迁移到其他主机上,同时做了其他虚拟机的手动迁移操作。后续在TECS上出现虚机内核异常
    的头像 发表于 03-03 09:42 703次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚机残留导致网元<b class='flag-5'>异常</b>的问题<b class='flag-5'>处理</b>

    排查并处理共享站点S1用户面路径不可用告警

    增多,如图1所示。 图 1  电信4G基站告警 1. 通过对基站告警进行分析后发现,出现告警的S1用户面路径不可用告警,对端IP地址为10.100.33.X,如图2所示。 图2 对端I
    的头像 发表于 01-23 11:08 1341次阅读
    排查并<b class='flag-5'>处理</b>共享站点S1用户面路径不可用<b class='flag-5'>告警</b>

    串口通讯异常处理方法 串口设备连接方式

    串口通信异常处理方法 1. 异常检测 在串口通信中,首先需要能够检测到异常情况。异常检测可以通过以下几种方式实现: 硬件检测 :利用串口硬件
    的头像 发表于 12-27 09:53 5478次阅读