故障现象
某运营商TECS资源池的一台主机内存故障,进行关机、内存更换操作,虚机自动迁移到其他主机上,同时做了其他虚拟机的手动迁移操作。后续在TECS上出现虚机内核异常告警,如下图所示。

故障分析
1. 检查告警,确认是一台虚拟机的多次告警,如下图所示。

2. 经排查,服务器SRV-09有内存更换和下电操作,00:39 虚机全部自动迁移成功,其中包含了XXX0012虚机,同时还包括其他网元的虚机,其他网元未出现异常。
3. 现场进行虚机重启、迁移等操作,未成功恢复XXX00012虚机。分析虚机CPU都冲高到100%,虚机操作系统显示软锁,如下图所示。

4. 经操作系统分析,是有大量外部报文冲击导致CPU冲高到100%,系统得不到调度。
5. 将该网元中除XXX00012外的其他虚机都shutdown后,再重启XXX00012虚机,XXX00012虚拟机恢复正常。
6. 逐一开启其他虚机,发现XXX00012虚机异常,其余虚机均正常启动。3分钟后XXX00012虚机CPU再次冲高到100%。
7. 分析XXX00012虚机,发现该虚机存在I/O Error,数据盘不能正常读写,如下图所示。

8. 分析虚机残留问题,原主机SRV-09故障下电后,虚机自动迁移,第一次自动迁移失败,自动迁移落地的节点是SRV-10,如下图所示。

9. SRV-10节点上因为带宽资源不足落地失败,XXX00012虚机重新自动迁移到SRV-12,自动迁移成功,如下图所示。

10. 自动迁移异常导致虚机实例在SRV-10和SRV-12同时启动,如下图所示。

11. 综上分析,产生该问题的原因是残留虚机,导致网元异常。
故障处理
1. 关闭SRV-12服务器上XXX0012虚机,同时删除SRV-10服务器上该虚机残留的实例。
2. 重启XXX0012虚机,虚机启动正常,CPU恢复正常。观察半小时未再出现异常。
3. 总结:异地重生阶段建议不要做其他互斥或者相同的操作,容易造成集群中数据不一致等问题。
-
内核
+关注
关注
4文章
1436浏览量
42481 -
cpu
+关注
关注
68文章
11216浏览量
222858 -
内存
+关注
关注
9文章
3173浏览量
76099 -
主机
+关注
关注
0文章
1047浏览量
36426 -
虚拟机
+关注
关注
1文章
968浏览量
30160
原文标题:TECS OpenStack-资源池虚机残留导致网元异常的问题处理
文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
RCS融合通信系统设计方案解析
OpenStack资源调度和现状分析
OpenStack云平台监控数据采集及处理的实践与优化
TECS OpenStack资源池时间同步失败的故障分析
TECS OpenStack资源池虚拟机网络二层地址无法互通的问题处理

TECS OpenStack资源池虚机残留导致网元异常的问题处理
评论