0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

中兴文档 来源:中兴文档 2023-06-07 09:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

某资源池TECS上报BFD会话DOWN告警和网络流量异常告警,持续时间1秒至6分钟不等,如下图所示。

4feac93c-0485-11ee-90ce-dac502259ad0.png

同时,业务侧反馈,该资源池ISBG业务网元产生指标下降等异常情况,但已快速恢复。

物理节点上的虚拟机都通过业务面网卡和节点外部通信。当流量异常时,业务网卡上会出现很多丢弃包。

系统周期性采样网卡所有收发包总数和丢弃包总数,当丢弃包占比数连续多次超过门限时,则上报告警;当连续几个采样周期的丢弃包占比数低于门限,则恢复告警。

虚拟网络上出现较重负荷,造成报文丢弃率超过给定阈值。短暂的指标下降异常情况可能和资源相关,例如CPU、内存、网络资源不足,或者硬盘的IO读写过低导致延迟。

问题分析过程如下:

1.观察到异常情况后,对告警内容展开分析。执行dvs show-dpifstats命令,找到对应端口,查看overrun和drop统计项是否在增加。

2.观察到计算服务器NFV-D-XXX-SRV-15业务bond子接口均上报了网络流量异常告警,分析可能是端口丢包。

3.登录服务器查看DVS日志,端口丢包量在告警时刻出现上涨,如下图所示。

500e8836-0485-11ee-90ce-dac502259ad0.png

4.登录云平台查看NFV-D-XXX-SRV-15承载业务,该主机承载虚机四台,其中包含ISBG的XX-isbg-OMPIPI_2_L虚机。分析可能为DVS接收丢包影响到虚机业务。

5.分析SAR日志,确认DVS的绑定核在故障期间出现被占用的情况,时间点与网卡丢包基本一致,认定为DVS核占用导致的DVS物理网卡丢包,如下图所示。

5030ab3c-0485-11ee-90ce-dac502259ad0.png

6.分析BMC黑盒子日志,该时间(+8)在日志中大量出现ECC内存错误,内存定位DIMM11,如下图所示。

504fd5ac-0485-11ee-90ce-dac502259ad0.png

7.ECC错包出现的时间点与DVS网卡丢包时间点(DVS转发核被占用的时间点)基本重合,认定内存ECC错误与DVS的丢包强相关。

8.根据日志显示报错信息,ECC内存错误触发的内存槽位为DIMM11。

1.登录管理页面,选择“云平台管理-计算-实例”,选中该台主机上虚拟机,完成主机上虚拟机的热迁移,如下图所示。

507207b2-0485-11ee-90ce-dac502259ad0.png

2.完成迁移后,选择“云平台管理-计算-主机”,选中这台主机,设置维护模式,如下图所示。

5093f0d4-0485-11ee-90ce-dac502259ad0.png

3.下电服务器完成内存更换,完成后上电,取消“设置维护模式”。

4.迁移回虚拟机,测试正常。

5.内存ECC错误为此次异常故障根因。内存ECC错误影响DVS转发分析:

l在内存ECC错误故障期间,现有的BIOS配置会为每一个内存ECC错误产生一个SMI中断。

如果产生ECC风暴,那么影响CPU处理性能。

SMI中断在内核感知为NMI,不受内核控制,从硬件描述看内核是无法屏蔽此类中断的。内存ECC默认不告警。

SMI中断导致CPU进入SMM模式,该模式对于OS是透明的。

因此SMI中断是硬件和固件(BIOS)共同处理的,其对于CPU处理流程的打断,对OS而言是不可感知的,不会出现在OS的统计项里面。

只有当BIOS处理SMI后,并以SCI中断通知OS时,OS才能感知到SCI中断。但是BIOS是否触发SCI中断也不是OS所能控制的。

总之,SMI中断对于DVS处理核的影响是硬件和固件的行为。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAR
    SAR
    +关注

    关注

    3

    文章

    443

    浏览量

    47728
  • BIOS
    +关注

    关注

    6

    文章

    474

    浏览量

    48009
  • ECC
    ECC
    +关注

    关注

    0

    文章

    100

    浏览量

    21557
  • 虚拟机
    +关注

    关注

    1

    文章

    968

    浏览量

    30174
  • SCI
    SCI
    +关注

    关注

    1

    文章

    59

    浏览量

    20798

原文标题:TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    线路保护光纤通道异常处理方法

    通道异常的 常见原因、处理步骤及预防措施 ,帮助运维人员快速定位问题,提升故障处理效率。 广州邮科光纤线路保护系统 一、光纤通道异常的常见表现 当线路保护光纤通道出现
    的头像 发表于 11-17 10:01 398次阅读
    线路保护光纤通道<b class='flag-5'>异常</b><b class='flag-5'>处理</b>方法

    构建高可靠网络:硬件BFD的关键作用

    BFD Acceleration(BFD加速)指的是一系列通过硬件卸载或内核优化技术,将BFD报文的处理从设备的中央处理器(CPU)转移到专
    的头像 发表于 11-06 11:09 882次阅读
    构建高可靠<b class='flag-5'>网络</b>:硬件<b class='flag-5'>BFD</b>的关键作用

    交换机光模块收发光超阈值无告警问题的处理方法

    某互联网电视CDN网络使用ZXR10 5960-56QU-HC交换机作为承载设备,通过光口与城域网设备以及CDN服务器对接,承载互联网电视视频流量。日常运行中发现设备没有上报光模块收发光超阈值
    的头像 发表于 10-16 09:34 390次阅读
    交换机光模块收发光超阈值无<b class='flag-5'>告警</b>问题的<b class='flag-5'>处理</b>方法

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    ,还是工业协议时序混乱,均可完整还原端到端业务会话链条,为智能分析提供坚实基础。2.AI根因定位:推理引擎驱动秒级精准诊断l 知识图谱驱动:将网络拓扑、流量统计、历史趋势、会话日志、
    发表于 07-16 15:29

    TECS OpenStack资源池虚拟机网络二层地址无法互通的问题处理

    某运营商TECS OpenStack使用主机overlay SDN方案组网,运维人员在创建虚拟机测试虚拟机网络状态时发现问题:在其中一台主机上创建两台同网段虚拟机,虚拟机之间二层地址无法Ping通,但是可以Ping通网关地址,如图1所示。
    的头像 发表于 06-12 09:28 681次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚拟机<b class='flag-5'>网络</b>二层地址无法互通的问题<b class='flag-5'>处理</b>

    曙光网络发布网络流量回溯分析平台SUNA

    AI时代,日益复杂的网络环境正给运维带来严峻挑战。业务系统卡顿、异常流量难溯源、故障定位如大海捞针等问题频发,传统运维手段已难应对海量数据洪流的需求。
    的头像 发表于 05-22 14:28 817次阅读

    异常流量小区检测功能介绍

    随着5G部署规模不断扩大,网管KPI的分析需求突增也日益显著,存在用户感知问题无法从告警和KPI数值中直接体现的情况;或者某些小区存在故障而网络维护工程师无法及时监控识别出来。异常流量
    的头像 发表于 03-22 09:54 833次阅读
    <b class='flag-5'>异常</b>零<b class='flag-5'>流量</b>小区检测功能介绍

    TECS OpenStack资源池主机磁盘分区使用率过高的问题处理

    某运营商TECS资源池上报“主机磁盘分区使用率过高”的告警,如下图所示。
    的头像 发表于 03-21 09:47 837次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池主机磁盘分区使用率过高的问题<b class='flag-5'>处理</b>

    TECS OpenStack资源池虚机写磁盘时延高告警的问题处理

    某运营商TECS资源池,在当前告警中显示“虚机写磁盘时延高告警”,如下图所示。告警统计总体平均10分钟左右自动恢复。
    的头像 发表于 03-21 09:36 818次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚机写磁盘时延高<b class='flag-5'>告警</b>的问题<b class='flag-5'>处理</b>

    高效流量复制汇聚,构建自主可控的网络安全环境

    随着大数据监测、流量分析以及网络安全监管等核心业务需求的日益增长,网络环境对高性能、高可靠性的流量监控和分析提出了更高的要求。流量复制汇聚平
    的头像 发表于 03-10 14:29 774次阅读
    高效<b class='flag-5'>流量</b>复制汇聚,构建自主可控的<b class='flag-5'>网络</b>安全环境

    TECS OpenStack资源池时间同步失败的故障分析

    某运营商TECS OpenStack资源池,在当前告警中显示“时钟同步失败”,以10分钟整数倍为间隔上报“时间同步失败”告警,持续时间30秒
    的头像 发表于 03-03 10:09 846次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池时间同步失败的故障分析

    TECS OpenStack资源池虚机残留导致网元异常的问题处理

    某运营商TECS资源池的一台主机内存故障,进行关机、内存更换操作,虚机自动迁移到其他主机上,同时做了其他虚拟机的手动迁移操作。后续在TECS上出现虚机内核异常
    的头像 发表于 03-03 09:42 705次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚机残留导致网元<b class='flag-5'>异常</b>的问题<b class='flag-5'>处理</b>

    排查并处理共享站点S1用户面路径不可用告警

    增多,如图1所示。 图 1  电信4G基站告警 1. 通过对基站告警进行分析后发现,出现告警的S1用户面路径不可用告警,对端IP地址为10.100.33.X,如图2所示。 图2 对端I
    的头像 发表于 01-23 11:08 1344次阅读
    排查并<b class='flag-5'>处理</b>共享站点S1用户面路径不可用<b class='flag-5'>告警</b>

    交换机MC-LAG场景下单臂BFD无法UP问题

    作为源IP地址做BFD,VEG上配置静态路由打通loopback连通性(注:直连地址在MC-LAG场景只有一边互通)。 版本:9900X V1.00.20.02P16   图1 MC-LAG单臂BFD场景组网示意图 单臂BFD
    的头像 发表于 01-17 11:43 1241次阅读
    交换机MC-LAG场景下单臂<b class='flag-5'>BFD</b>无法UP问题

    网络流量监控与网关优化

    在当今数字化时代,网络流量的监控和管理对于任何组织来说都是至关重要的。随着数据量的激增和网络攻击的日益复杂,有效的网络流量监控和网关优化变得尤为重要。 网络流量监控的重要性 1. 识别
    的头像 发表于 01-02 16:14 1004次阅读