0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

中兴文档 来源:中兴文档 2023-06-07 09:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

某资源池TECS上报BFD会话DOWN告警和网络流量异常告警,持续时间1秒至6分钟不等,如下图所示。

4feac93c-0485-11ee-90ce-dac502259ad0.png

同时,业务侧反馈,该资源池ISBG业务网元产生指标下降等异常情况,但已快速恢复。

物理节点上的虚拟机都通过业务面网卡和节点外部通信。当流量异常时,业务网卡上会出现很多丢弃包。

系统周期性采样网卡所有收发包总数和丢弃包总数,当丢弃包占比数连续多次超过门限时,则上报告警;当连续几个采样周期的丢弃包占比数低于门限,则恢复告警。

虚拟网络上出现较重负荷,造成报文丢弃率超过给定阈值。短暂的指标下降异常情况可能和资源相关,例如CPU、内存、网络资源不足,或者硬盘的IO读写过低导致延迟。

问题分析过程如下:

1.观察到异常情况后,对告警内容展开分析。执行dvs show-dpifstats命令,找到对应端口,查看overrun和drop统计项是否在增加。

2.观察到计算服务器NFV-D-XXX-SRV-15业务bond子接口均上报了网络流量异常告警,分析可能是端口丢包。

3.登录服务器查看DVS日志,端口丢包量在告警时刻出现上涨,如下图所示。

500e8836-0485-11ee-90ce-dac502259ad0.png

4.登录云平台查看NFV-D-XXX-SRV-15承载业务,该主机承载虚机四台,其中包含ISBG的XX-isbg-OMPIPI_2_L虚机。分析可能为DVS接收丢包影响到虚机业务。

5.分析SAR日志,确认DVS的绑定核在故障期间出现被占用的情况,时间点与网卡丢包基本一致,认定为DVS核占用导致的DVS物理网卡丢包,如下图所示。

5030ab3c-0485-11ee-90ce-dac502259ad0.png

6.分析BMC黑盒子日志,该时间(+8)在日志中大量出现ECC内存错误,内存定位DIMM11,如下图所示。

504fd5ac-0485-11ee-90ce-dac502259ad0.png

7.ECC错包出现的时间点与DVS网卡丢包时间点(DVS转发核被占用的时间点)基本重合,认定内存ECC错误与DVS的丢包强相关。

8.根据日志显示报错信息,ECC内存错误触发的内存槽位为DIMM11。

1.登录管理页面,选择“云平台管理-计算-实例”,选中该台主机上虚拟机,完成主机上虚拟机的热迁移,如下图所示。

507207b2-0485-11ee-90ce-dac502259ad0.png

2.完成迁移后,选择“云平台管理-计算-主机”,选中这台主机,设置维护模式,如下图所示。

5093f0d4-0485-11ee-90ce-dac502259ad0.png

3.下电服务器完成内存更换,完成后上电,取消“设置维护模式”。

4.迁移回虚拟机,测试正常。

5.内存ECC错误为此次异常故障根因。内存ECC错误影响DVS转发分析:

l在内存ECC错误故障期间,现有的BIOS配置会为每一个内存ECC错误产生一个SMI中断。

如果产生ECC风暴,那么影响CPU处理性能。

SMI中断在内核感知为NMI,不受内核控制,从硬件描述看内核是无法屏蔽此类中断的。内存ECC默认不告警。

SMI中断导致CPU进入SMM模式,该模式对于OS是透明的。

因此SMI中断是硬件和固件(BIOS)共同处理的,其对于CPU处理流程的打断,对OS而言是不可感知的,不会出现在OS的统计项里面。

只有当BIOS处理SMI后,并以SCI中断通知OS时,OS才能感知到SCI中断。但是BIOS是否触发SCI中断也不是OS所能控制的。

总之,SMI中断对于DVS处理核的影响是硬件和固件的行为。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAR
    SAR
    +关注

    关注

    3

    文章

    448

    浏览量

    48072
  • BIOS
    +关注

    关注

    6

    文章

    474

    浏览量

    48751
  • ECC
    ECC
    +关注

    关注

    0

    文章

    104

    浏览量

    21772
  • 虚拟机
    +关注

    关注

    1

    文章

    975

    浏览量

    30721
  • SCI
    SCI
    +关注

    关注

    1

    文章

    61

    浏览量

    20928

原文标题:TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    动态流量池数据资源交付技术:破解网络流量调度的核心难题

    前言在数字经济全面渗透的当下,数据传输与网络流量已成为支撑数字业务运行的核心基础。从日常的互联网访问、企业跨地域办公,到工业物联网终端互联、智算中心的算力调度,都离不开稳定、高效的流量资源交付体系
    的头像 发表于 03-30 13:50 1905次阅读
    动态<b class='flag-5'>流量</b>池数据<b class='flag-5'>资源</b>交付技术:破解<b class='flag-5'>网络流量</b>调度的核心难题

    破解RDMA网络“黑盒”:轻量化会话追踪工具

    在RDMA网络运维面临“黑盒”挑战的背景下,星融元推出的RST工具通过无侵入捕获CM报文,实现RDMA会话的可视化追踪与全网路径还原。该工具基于RFT与RPT双模块,支持从设备流表到全局拓扑的多维观测,大幅降低运维定位成本,推动高性能
    的头像 发表于 02-13 14:30 571次阅读
    破解RDMA<b class='flag-5'>网络</b>“黑盒”:轻量化<b class='flag-5'>会话</b>追踪工具

    如何控制告警声音,或者实现长鸣告警

    如何控制告警声音,或者实现长鸣告警
    发表于 01-20 17:10

    电能质量在线监测装置的多级告警阈值功能是如何实现的?

    电能质量在线监测装置的多级告警阈值功能通过 “硬件采集 - 软件计算 - 阈值比对 - 智能触发 - 分级响应” 的全链路闭环实现,核心是为不同电能质量指标设置差异化阈值与响应策略,适配异常严重程度
    的头像 发表于 12-10 14:32 654次阅读
    电能质量在线监测装置的多级<b class='flag-5'>告警</b>阈值功能是如何实现的?

    线路保护光纤通道异常处理方法

    通道异常的 常见原因、处理步骤及预防措施 ,帮助运维人员快速定位问题,提升故障处理效率。 广州邮科光纤线路保护系统 一、光纤通道异常的常见表现 当线路保护光纤通道出现
    的头像 发表于 11-17 10:01 1670次阅读
    线路保护光纤通道<b class='flag-5'>异常</b><b class='flag-5'>处理</b>方法

    构建高可靠网络:硬件BFD的关键作用

    BFD Acceleration(BFD加速)指的是一系列通过硬件卸载或内核优化技术,将BFD报文的处理从设备的中央处理器(CPU)转移到专
    的头像 发表于 11-06 11:09 1298次阅读
    构建高可靠<b class='flag-5'>网络</b>:硬件<b class='flag-5'>BFD</b>的关键作用

    BFD 故障检测机制详解

    BFD (Bidirectional Forwarding Detection)的是双向转发检测。它是一个用于快速检测两台网络设备之间通信故障的轻量级、低开销的协议。可以把它想象成一个在网络线路上运行的、频率极高的“心跳检测”或
    的头像 发表于 11-03 15:34 1299次阅读
    <b class='flag-5'>BFD</b> 故障检测机制详解

    交换机光模块收发光超阈值无告警问题的处理方法

    某互联网电视CDN网络使用ZXR10 5960-56QU-HC交换机作为承载设备,通过光口与城域网设备以及CDN服务器对接,承载互联网电视视频流量。日常运行中发现设备没有上报光模块收发光超阈值
    的头像 发表于 10-16 09:34 1095次阅读
    交换机光模块收发光超阈值无<b class='flag-5'>告警</b>问题的<b class='flag-5'>处理</b>方法

    看不见的安全防线:信而泰仪表如何验证零信任有效性

    刷新后SDP认证失败无法新建对应会话网络准入验证不通过: Ø 仪表统计显示所有业务会话均建立失败 场景 3: IAM通知DUT对指定令牌进行老化,流量触发DUT重新生成对应缓存表
    发表于 09-09 15:33

    DPI技术赋能:开启智能流量分析新纪元

    随着企业数字化转型的深入,网络流量复杂度与安全威胁呈现爆炸式增长。传统防火墙与入侵检测系统面对加密流量和高级威胁显得力不从心,关键业务响应延迟激增,未知恶意流量渗透导致数据泄露风险高,运维团队在安全
    的头像 发表于 07-28 11:05 1657次阅读
    DPI技术赋能:开启智能<b class='flag-5'>流量</b>分析新纪元

    协议分析仪能监测哪些异常行为?

    协议分析仪通过深度解析网络通信中的协议字段、时序和状态,能够精准识别多种异常行为,涵盖从配置错误到恶意攻击的广泛场景。以下是其可监测的核心异常行为类型及具体实例:一、协议实现违规:违反标准或规范
    发表于 07-22 14:20

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    ,还是工业协议时序混乱,均可完整还原端到端业务会话链条,为智能分析提供坚实基础。2.AI根因定位:推理引擎驱动秒级精准诊断l 知识图谱驱动:将网络拓扑、流量统计、历史趋势、会话日志、
    发表于 07-16 15:29

    C#上位机与运动控制卡网络通讯的周期上报

    使用C#上位机编程实现运动控制卡网络通讯的周期上报功能
    的头像 发表于 06-26 13:59 1028次阅读
    C#上位机与运动控制卡<b class='flag-5'>网络</b>通讯的周期<b class='flag-5'>上报</b>

    TECS OpenStack资源池虚拟机网络二层地址无法互通的问题处理

    某运营商TECS OpenStack使用主机overlay SDN方案组网,运维人员在创建虚拟机测试虚拟机网络状态时发现问题:在其中一台主机上创建两台同网段虚拟机,虚拟机之间二层地址无法Ping通,但是可以Ping通网关地址,如图1所示。
    的头像 发表于 06-12 09:28 1050次阅读
    <b class='flag-5'>TECS</b> OpenStack<b class='flag-5'>资源</b>池虚拟机<b class='flag-5'>网络</b>二层地址无法互通的问题<b class='flag-5'>处理</b>

    曙光网络发布网络流量回溯分析平台SUNA

    AI时代,日益复杂的网络环境正给运维带来严峻挑战。业务系统卡顿、异常流量难溯源、故障定位如大海捞针等问题频发,传统运维手段已难应对海量数据洪流的需求。
    的头像 发表于 05-22 14:28 1102次阅读