0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TECS OpenStack资源池虚机残留导致网元异常的问题处理

中兴文档 来源:中兴文档 2025-03-03 09:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

故障现象

某运营商TECS资源池的一台主机内存故障,进行关机、内存更换操作,虚机自动迁移到其他主机上,同时做了其他虚拟机的手动迁移操作。后续在TECS上出现虚机内核异常告警,如下图所示。

942c8290-f40f-11ef-9310-92fbcf53809c.png

故障分析

1. 检查告警,确认是一台虚拟机的多次告警,如下图所示。

944e21ac-f40f-11ef-9310-92fbcf53809c.png

2. 经排查,服务器SRV-09有内存更换和下电操作,00:39 虚机全部自动迁移成功,其中包含了XXX0012虚机,同时还包括其他网元的虚机,其他网元未出现异常。

3. 现场进行虚机重启、迁移等操作,未成功恢复XXX00012虚机。分析虚机CPU都冲高到100%,虚机操作系统显示软锁,如下图所示。

9485e0b0-f40f-11ef-9310-92fbcf53809c.png

4. 经操作系统分析,是有大量外部报文冲击导致CPU冲高到100%,系统得不到调度。

5. 将该网元中除XXX00012外的其他虚机都shutdown后,再重启XXX00012虚机,XXX00012虚拟机恢复正常。

6. 逐一开启其他虚机,发现XXX00012虚机异常,其余虚机均正常启动。3分钟后XXX00012虚机CPU再次冲高到100%。

7. 分析XXX00012虚机,发现该虚机存在I/O Error,数据盘不能正常读写,如下图所示。

94916b24-f40f-11ef-9310-92fbcf53809c.png

8. 分析虚机残留问题,原主机SRV-09故障下电后,虚机自动迁移,第一次自动迁移失败,自动迁移落地的节点是SRV-10,如下图所示。

94a8e088-f40f-11ef-9310-92fbcf53809c.png

9. SRV-10节点上因为带宽资源不足落地失败,XXX00012虚机重新自动迁移到SRV-12,自动迁移成功,如下图所示。

94cc0842-f40f-11ef-9310-92fbcf53809c.png

10. 自动迁移异常导致虚机实例在SRV-10和SRV-12同时启动,如下图所示。

94f0ad00-f40f-11ef-9310-92fbcf53809c.png

11. 综上分析,产生该问题的原因是残留虚机,导致网元异常。

故障处理

1. 关闭SRV-12服务器上XXX0012虚机,同时删除SRV-10服务器上该虚机残留的实例。

2. 重启XXX0012虚机,虚机启动正常,CPU恢复正常。观察半小时未再出现异常。

3. 总结:异地重生阶段建议不要做其他互斥或者相同的操作,容易造成集群中数据不一致等问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 内核
    +关注

    关注

    4

    文章

    1436

    浏览量

    42481
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222858
  • 内存
    +关注

    关注

    9

    文章

    3173

    浏览量

    76099
  • 主机
    +关注

    关注

    0

    文章

    1047

    浏览量

    36426
  • 虚拟机
    +关注

    关注

    1

    文章

    968

    浏览量

    30160

原文标题:TECS OpenStack-资源池虚机残留导致网元异常的问题处理

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RCS融合通信系统设计方案解析

    TECS主要由以下部分组成:OpenStack自身的组件,OpenStack部署相关组件,以及扩展的HA、自动部署与管理、系统管理(软、硬件资源管理)等组件,
    发表于 07-01 15:45 3600次阅读
    RCS融合通信系统设计方案解析

    OpenStack资源调度和现状分析

    OpenStack云端的资源调度和优化剖析2016-07-03 19:12 作者简介:胡晓亮,目前就职于IBM Platform Computing 系统科技部云计算部门,担任云计算开发部工程师。自
    发表于 10-10 10:44 0次下载
    <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b>调度和现状分析

    电力云资源的建立

    国家电网公司从2010年开始建设电力云资源,存储域作为资源的必须部分,设计和实现存储域是资源
    发表于 11-27 17:33 0次下载
    电力云<b class='flag-5'>资源</b><b class='flag-5'>池</b>的建立

    OpenStack云平台监控数据采集及处理的实践与优化

    本文介绍了在OpenStack云平台中通过Ceilometer采集云平台中虚拟、磁盘、网络等资源的使用数据,并通过Gnocchi处理、储存和索引数据的实践。
    的头像 发表于 12-25 18:38 2630次阅读

    线程池中如何获取和处理异常

    在实际开发中,我们常常会用到线程,但任务一旦提交到线程之后,如果发生异常之后,怎么处理
    的头像 发表于 10-24 15:44 1894次阅读

    TECS资源池上报网络流程异常告警的问题处理

    资源TECS上报网络流程异常告警,告警单次持续15秒-4分钟之间。
    的头像 发表于 06-07 09:41 1622次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b>池上报网络流程<b class='flag-5'>异常</b>告警的问题<b class='flag-5'>处理</b>

    TECS资源池上报存储设备离线的问题处理

    资源在运行过程中出现存储设备离线告警,通过底层cinder service-list命令查看,确认存储state为down状态。
    的头像 发表于 06-07 09:44 1364次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b>池上报存储设备离线的问题<b class='flag-5'>处理</b>

    TECS资源SSH控制节点提示connection refused的问题处理

    某局点现场TECS控制节点的TECSClient平面使用双栈配置,同时使用IPv4和IPv6。
    的头像 发表于 06-07 09:47 1432次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>SSH控制节点<b class='flag-5'>虚</b><b class='flag-5'>机</b>提示connection refused的问题<b class='flag-5'>处理</b>

    TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

    资源TECS上报BFD会话DOWN告警和网络流量异常告警,持续时间1秒至6分钟不等,如下图所示。
    的头像 发表于 06-07 09:49 2242次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b>池上报BFD会话DOWN和网络流量<b class='flag-5'>异常</b>告警的问题<b class='flag-5'>处理</b>

    资源后端存储服务状态异常的问题处理

    故障现象某资源在巡检过程中检查服务状态,其中云盘后端的服务状态为down,如下图所示,影响虚拟云盘的生命周期管理操作。
    的头像 发表于 09-20 11:06 1421次阅读
    <b class='flag-5'>资源</b><b class='flag-5'>池</b>后端存储服务状态<b class='flag-5'>异常</b>的问题<b class='flag-5'>处理</b>

    资源虚拟机时钟跳变异常的问题处理

    资源在运行过程中一台虚拟出现业务异常,通过查看日志和异常记录,判断为虚拟发生时钟跳变问题
    的头像 发表于 09-20 11:08 2326次阅读
    <b class='flag-5'>资源</b><b class='flag-5'>池</b>虚拟机时钟跳变<b class='flag-5'>异常</b>的问题<b class='flag-5'>处理</b>

    TECS OpenStack资源时间同步失败的故障分析

    某运营商TECS OpenStack资源,在当前告警中显示“时钟同步失败”,以10分钟整数倍为间隔上报“时间同步失败”告警,持续时间30秒-1分钟不等。
    的头像 发表于 03-03 10:09 839次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>时间同步失败的故障分析

    TECS OpenStack资源写磁盘时延高告警的问题处理

    某运营商TECS资源,在当前告警中显示“写磁盘时延高告警”,如下图所示。告警统计总体平均10分钟左右自动恢复。
    的头像 发表于 03-21 09:36 813次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b><b class='flag-5'>虚</b><b class='flag-5'>机</b>写磁盘时延高告警的问题<b class='flag-5'>处理</b>

    TECS OpenStack资源主机磁盘分区使用率过高的问题处理

    某运营商TECS资源池上报“主机磁盘分区使用率过高”的告警,如下图所示。
    的头像 发表于 03-21 09:47 830次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>主机磁盘分区使用率过高的问题<b class='flag-5'>处理</b>

    TECS OpenStack资源虚拟网络二层地址无法互通的问题处理

    某运营商TECS OpenStack使用主机overlay SDN方案组网,运维人员在创建虚拟测试虚拟网络状态时发现问题:在其中一台主机上创建两台同网段虚拟
    的头像 发表于 06-12 09:28 675次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>虚拟<b class='flag-5'>机</b>网络二层地址无法互通的问题<b class='flag-5'>处理</b>