0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

中兴文档 来源:中兴文档 2023-06-07 09:49 次阅读

某资源池TECS上报BFD会话DOWN告警和网络流量异常告警,持续时间1秒至6分钟不等,如下图所示。

4feac93c-0485-11ee-90ce-dac502259ad0.png

同时,业务侧反馈,该资源池ISBG业务网元产生指标下降等异常情况,但已快速恢复。

物理节点上的虚拟机都通过业务面网卡和节点外部通信。当流量异常时,业务网卡上会出现很多丢弃包。

系统周期性采样网卡所有收发包总数和丢弃包总数,当丢弃包占比数连续多次超过门限时,则上报告警;当连续几个采样周期的丢弃包占比数低于门限,则恢复告警。

虚拟网络上出现较重负荷,造成报文丢弃率超过给定阈值。短暂的指标下降异常情况可能和资源相关,例如CPU、内存、网络资源不足,或者硬盘的IO读写过低导致延迟。

问题分析过程如下:

1.观察到异常情况后,对告警内容展开分析。执行dvs show-dpifstats命令,找到对应端口,查看overrun和drop统计项是否在增加。

2.观察到计算服务器NFV-D-XXX-SRV-15业务bond子接口均上报了网络流量异常告警,分析可能是端口丢包。

3.登录服务器查看DVS日志,端口丢包量在告警时刻出现上涨,如下图所示。

500e8836-0485-11ee-90ce-dac502259ad0.png

4.登录云平台查看NFV-D-XXX-SRV-15承载业务,该主机承载虚机四台,其中包含ISBG的XX-isbg-OMPIPI_2_L虚机。分析可能为DVS接收丢包影响到虚机业务。

5.分析SAR日志,确认DVS的绑定核在故障期间出现被占用的情况,时间点与网卡丢包基本一致,认定为DVS核占用导致的DVS物理网卡丢包,如下图所示。

5030ab3c-0485-11ee-90ce-dac502259ad0.png

6.分析BMC黑盒子日志,该时间(+8)在日志中大量出现ECC内存错误,内存定位DIMM11,如下图所示。

504fd5ac-0485-11ee-90ce-dac502259ad0.png

7.ECC错包出现的时间点与DVS网卡丢包时间点(DVS转发核被占用的时间点)基本重合,认定内存ECC错误与DVS的丢包强相关。

8.根据日志显示报错信息,ECC内存错误触发的内存槽位为DIMM11。

1.登录管理页面,选择“云平台管理-计算-实例”,选中该台主机上虚拟机,完成主机上虚拟机的热迁移,如下图所示。

507207b2-0485-11ee-90ce-dac502259ad0.png

2.完成迁移后,选择“云平台管理-计算-主机”,选中这台主机,设置维护模式,如下图所示。

5093f0d4-0485-11ee-90ce-dac502259ad0.png

3.下电服务器完成内存更换,完成后上电,取消“设置维护模式”。

4.迁移回虚拟机,测试正常。

5.内存ECC错误为此次异常故障根因。内存ECC错误影响DVS转发分析:

l在内存ECC错误故障期间,现有的BIOS配置会为每一个内存ECC错误产生一个SMI中断。

如果产生ECC风暴,那么影响CPU处理性能。

SMI中断在内核感知为NMI,不受内核控制,从硬件描述看内核是无法屏蔽此类中断的。内存ECC默认不告警。

SMI中断导致CPU进入SMM模式,该模式对于OS是透明的。

因此SMI中断是硬件和固件(BIOS)共同处理的,其对于CPU处理流程的打断,对OS而言是不可感知的,不会出现在OS的统计项里面。

只有当BIOS处理SMI后,并以SCI中断通知OS时,OS才能感知到SCI中断。但是BIOS是否触发SCI中断也不是OS所能控制的。

总之,SMI中断对于DVS处理核的影响是硬件和固件的行为。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAR
    SAR
    +关注

    关注

    3

    文章

    358

    浏览量

    45591
  • BIOS
    +关注

    关注

    5

    文章

    455

    浏览量

    45005
  • ECC
    ECC
    +关注

    关注

    0

    文章

    90

    浏览量

    20375
  • 虚拟机
    +关注

    关注

    1

    文章

    855

    浏览量

    27378
  • SCI
    SCI
    +关注

    关注

    1

    文章

    53

    浏览量

    19950

原文标题:TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    网络监控工具有哪些 网络监控用几芯网线

    网络监控工具有很多种,根据不同的监控目标和需求,可以选择适合的监控工具。下面将介绍一些常见的网络监控工具,并对其功能和特点进行详细的介绍。 网络流量监控工具 网络流量监控工具可以实时监
    的头像 发表于 01-24 10:00 335次阅读

    虹科分享 | 实现网络流量的全面访问和可视性——Profitap和Ntop联合解决方案

    这次和大家分享如何捕捉、分析和解读网络数据,从而更有效地监控网络流量,实现网络性能的最大化。首先来看一个实际的问题——“网速太慢”。
    的头像 发表于 01-18 10:40 166次阅读
    虹科分享 | 实现<b class='flag-5'>网络流量</b>的全面访问和可视性——Profitap和Ntop联合解决方案

    网络流量对PLC控制过程的影响测试内容

    在测试中,我们令所有的PLC在其最大性能下运行(最短循环时间)并输出周期信号。测试以PLC正常状况下的输出作为参考信号,如果网络流量对PLC的电气输出造成影响,则实际输出信号相对参考信号将会产生偏移。
    发表于 12-27 14:12 211次阅读
    <b class='flag-5'>网络流量</b>对PLC控制过程的影响测试内容

    AWTK 串口屏开发(3) - 告警信息

    告警信息是一个常用的功能。在AWTK开源串口屏中,内置告警信息模型,只需设计用户界面即可实现告警信息的显示和管理。1.功能告警信息是一个常用的功能,MCU在设备
    的头像 发表于 12-23 08:24 179次阅读
    AWTK 串口屏开发(3) - <b class='flag-5'>告警</b>信息

    华为RIP与BFD联动实验

    双向转发检测BFD是一种用于检测邻居路由之间链路故障的检测机制,他通常与路由协议联动,通过快速感知链路故障并通告使得路由协议能够快速的重新收敛,从而减少由于拓扑变化导致的流量丢失。
    的头像 发表于 10-08 16:12 408次阅读
    华为RIP与<b class='flag-5'>BFD</b>联动实验

    资源池虚拟机时钟跳变异常的问题处理

    资源池在运行过程中一台虚拟机出现业务异常,通过查看日志和异常记录,判断为虚拟机发生时钟跳变问题,如下图所示。
    的头像 发表于 09-20 11:08 592次阅读
    <b class='flag-5'>资源</b>池虚拟机时钟跳变<b class='flag-5'>异常</b>的问题<b class='flag-5'>处理</b>

    资源池后端存储服务状态异常的问题处理

    故障现象某资源池在巡检过程中检查服务状态,其中云盘后端的服务状态为down,如下图所示,影响虚拟机云盘的生命周期管理操作。
    的头像 发表于 09-20 11:06 358次阅读
    <b class='flag-5'>资源</b>池后端存储服务状态<b class='flag-5'>异常</b>的问题<b class='flag-5'>处理</b>

    服务器nova-compute down告警的问题处理

    某运营商Provider界面有服务器nova-compute down告警,如下图所示。
    的头像 发表于 09-20 11:02 758次阅读
    服务器nova-compute <b class='flag-5'>down</b><b class='flag-5'>告警</b>的问题<b class='flag-5'>处理</b>

    如何通过ntopng流量规则来监控网络流量

    让我们假设您有一个网络,其中本地主机生成恒定数量的流量。你如何发现他们是否行为错误?碰巧,一些本地主机行为开始异常,与它们之前相比,有一个异常流量
    的头像 发表于 08-07 11:46 364次阅读
    如何通过ntopng<b class='flag-5'>流量</b>规则来监控<b class='flag-5'>网络流量</b>

    福禄克的网络测试仪还很好用福禄克 FLUKE EtherScope II(ES2-PRO) 网络分析仪参数

    LAN 分析 802.11a/b/g 无线 LAN 分析,带 802.11n AP 草案的发现功能 监控网络流量和交换机接口 发现有线和无线基础设施设备及配置 验证 LAN 服务的可用性和响应性 使用 RFC 2544 和高级测试来测量以太网性能 测试宽带网速自己用过
    发表于 08-01 15:44

    用户语音业务异常的问题处理

    用户反馈在语音呼叫中出现VoLTE会话呼叫异常,出现掉落2G现象。
    的头像 发表于 07-15 09:42 551次阅读
    用户语音业务<b class='flag-5'>异常</b>的问题<b class='flag-5'>处理</b>

    网络监控系统有哪些 网络监控需要哪些设备

    入侵检测系统(Intrusion Detection System,IDS):IDS可以检测并警报网络中的异常行为或攻击尝试。它监视网络流量和系统日志,通过识别已知的攻击模式或异常行为
    发表于 07-04 15:39 2774次阅读

    TECS资源池SSH控制节点虚机提示connection refused的问题处理

    某局点现场TECS控制节点的TECSClient平面使用双栈配置,同时使用IPv4和IPv6。
    的头像 发表于 06-07 09:47 467次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b>池SSH控制节点虚机提示connection refused的问题<b class='flag-5'>处理</b>

    TECS资源池上报存储设备离线的问题处理

    资源池在运行过程中出现存储设备离线告警,通过底层cinder service-list命令查看,确认存储state为down状态。
    的头像 发表于 06-07 09:44 430次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b><b class='flag-5'>池上报</b>存储设备离线的问题<b class='flag-5'>处理</b>

    TECS资源池上报网络流程异常告警的问题处理

    资源TECS上报网络流程异常告警告警单次持续1
    的头像 发表于 06-07 09:41 542次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b><b class='flag-5'>池上报</b><b class='flag-5'>网络</b>流程<b class='flag-5'>异常</b><b class='flag-5'>告警</b>的问题<b class='flag-5'>处理</b>