0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TECS OpenStack资源池时间同步失败的故障分析

中兴文档 来源:中兴文档 2025-03-03 10:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

故障现象

某运营商TECS OpenStack资源池,在当前告警中显示“时钟同步失败”,以10分钟整数倍为间隔上报“时间同步失败”告警,持续时间30秒-1分钟不等。

查看告警详情为同一台控制节点虚拟机,如图1所示。

wKgZO2fFD4-AIxldAADxpbRd8HY884.png

故障分析

分析产生该告警的原因:

时间同步失败告警可能是由于外部时钟异常导致,需要检查。

相关告警上报周期性比较强,可能是由某些定时任务触发。

具体分析过程如下:

使用chronyc sources -v命令,检查现场时钟源,未发现异常,如下图所示。

wKgZO2fFD4-AebDVAABDN3-j5DI565.png

寻找一台正常的控制节点虚机,使用chronyc sources -v命令,检查对比,未发现异常,如下图所示。

wKgZPGfFD4-AFPzNAABJQ6jLXNo875.png

执行ping命令,检测时钟源,未发现丢包。

外部时钟正常,时钟同步正常,结合告警出现周期性比较强、告警持续时间较短的特点,分析可能是因为定时任务触发了控制节点虚机的时间修改。

初步推测是宿主机开启了qga服务,控制节点虚机会每10分钟向宿主机同步一次时间。

执行virsh qemu-agent-command --pretty controllervm '{"execute":"guest-get -reverse-command-status"}'|grep minute -A 1 |grep enabled命令,查看现场三个控制节点虚机输出结果,如下图所示。

wKgZPGfFD4-ACKSmAAA76LVS7p8382.png

由上图可见,只有异常节点输出结果是“enabled”: true,说明该节点开启了qga。

执行virsh dumpxml 1|grep -A5 "channel type"命令,发现同步周期为10分钟,与告警周期一致。因此判断该问题是由于虚机除了与外部时钟源同步外,还定时向宿主机同步时间,导致告警上报,如下图所示。

wKgZPGfFD4-AeV4YAAD28SsB_pM072.png

故障处理

临时解决方案:通过在宿主机执行virsh qemu-agent-command --pretty controllervm '{"execute":"guest-set-reverse-command-status", "arguments": {"command": "host-get-time", "enabled":false}}' 命令,临时关闭qga服务。但是在重启虚机中qga服务会恢复。

正式解决方案:执行virsh dumpxml controllervm > controllervm.xml命令,修改xml文件中qga的配置,将interval的值改为never,或者改成和其他节点一样,关闭虚机。执行virsh create controllervm.xml命令,重新创建虚机。

相关操作命令:

a. 判断是否需要qga服务,如果不需要,可以执行如下命令,在不关闭虚机的前提下,在虚机中关闭qga服务。

systemctl stop qga.service,systemctl disalbe qga.service

b. 执行如下命令,确认节点是否有配置qga服务。

virsh dumpxml domain |grep qemu.guest_agent

总结:时钟作为业务运行和命令的时间戳,在运维中稳定至关重要,该类问题需要第一时间重点分析处理,避免时钟跳变导致集群和业务异常。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 运营商
    +关注

    关注

    4

    文章

    2426

    浏览量

    46294
  • 命令
    +关注

    关注

    5

    文章

    746

    浏览量

    23441
  • 虚拟机
    +关注

    关注

    1

    文章

    968

    浏览量

    30160
  • OpenStack
    +关注

    关注

    1

    文章

    73

    浏览量

    19608

原文标题:TECS OpenStack-资源池控制节点虚机周期性上报时间同步失败告警的问题处理

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RCS融合通信系统设计方案解析

    TECS主要由以下部分组成:OpenStack自身的组件,OpenStack部署相关组件,以及扩展的HA、自动部署与管理、系统管理(软、硬件资源管理)等组件,
    发表于 07-01 15:45 3600次阅读
    RCS融合通信系统设计方案解析

    刻录失败故障分析与解决

    刻录失败故障分析与解决  如今,光存储市场正式迈入了DVD刻录机时代,便宜的价格和高容量的数据存储量……   如今,光存储市场正式迈入了DVD刻录机时代,便宜的价格和高容量的数据存储量,为用户数
    发表于 01-09 16:25

    OpenStack资源调度和现状分析

    OpenStack云端的资源调度和优化剖析2016-07-03 19:12 作者简介:胡晓亮,目前就职于IBM Platform Computing 系统科技部云计算部门,担任云计算开发部工程师。自
    发表于 10-10 10:44 0次下载
    <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b>调度和现状<b class='flag-5'>分析</b>

    电力云资源的建立

    国家电网公司从2010年开始建设电力云资源,存储域作为资源的必须部分,设计和实现存储域是资源
    发表于 11-27 17:33 0次下载
    电力云<b class='flag-5'>资源</b><b class='flag-5'>池</b>的建立

    华为视频云平台通过云技术实现计算、网络、存储资源

    华为视频云的支撑框架为云平台FusionCloud,可承建北京城市副中心行政办公区的视频监控系统,构建计算、存储等资源适配视频的应用业务,通过基于主流开放的OpenStack架构的云虚拟化技术
    的头像 发表于 12-14 16:35 8894次阅读

    TECS资源池上报网络流程异常告警的问题处理

    资源TECS上报网络流程异常告警,告警单次持续15秒-4分钟之间。
    的头像 发表于 06-07 09:41 1622次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b>池上报网络流程异常告警的问题处理

    TECS资源SSH控制节点虚机提示connection refused的问题处理

    某局点现场TECS控制节点的TECSClient平面使用双栈配置,同时使用IPv4和IPv6。
    的头像 发表于 06-07 09:47 1432次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>SSH控制节点虚机提示connection refused的问题处理

    TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

    资源TECS上报BFD会话DOWN告警和网络流量异常告警,持续时间1秒至6分钟不等,如下图所示。
    的头像 发表于 06-07 09:49 2242次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b>池上报BFD会话DOWN和网络流量异常告警的问题处理

    资源后端存储服务状态异常的问题处理

    故障现象某资源在巡检过程中检查服务状态,其中云盘后端的服务状态为down,如下图所示,影响虚拟机云盘的生命周期管理操作。
    的头像 发表于 09-20 11:06 1421次阅读
    <b class='flag-5'>资源</b><b class='flag-5'>池</b>后端存储服务状态异常的问题处理

    了解连接、线程、内存、异步请求

    化技术 化技术能够减少资源对象的创建次数,提⾼程序的响应性能,特别是在⾼并发下这种提⾼更加明显。使用化技术缓存的资源对象有如下共同特点
    的头像 发表于 11-09 14:44 2084次阅读
    了解连接<b class='flag-5'>池</b>、线程<b class='flag-5'>池</b>、内存<b class='flag-5'>池</b>、异步请求<b class='flag-5'>池</b>

    华纳云:OpenStack是虚拟化管理平台吗?其工作原理是什么?

    位于不同供应商产品环境中的业务流程。 但虚拟化管理平台主要是方便利用虚拟资源的特性和功能,而 OpenStack 则是使用虚拟资源来运行一系列的工具组合。这些工具所创建的云环境符合美国国家标准与技术协会的五大云计算标准:一个网络
    的头像 发表于 09-23 14:20 1067次阅读

    TECS OpenStack资源虚机残留导致网元异常的问题处理

    某运营商TECS资源的一台主机内存故障,进行关机、内存更换操作,虚机自动迁移到其他主机上,同时做了其他虚拟机的手动迁移操作。后续在TECS
    的头像 发表于 03-03 09:42 696次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>虚机残留导致网元异常的问题处理

    TECS OpenStack资源虚机写磁盘时延高告警的问题处理

    某运营商TECS资源,在当前告警中显示“虚机写磁盘时延高告警”,如下图所示。告警统计总体平均10分钟左右自动恢复。
    的头像 发表于 03-21 09:36 813次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>虚机写磁盘时延高告警的问题处理

    TECS OpenStack资源主机磁盘分区使用率过高的问题处理

    某运营商TECS资源池上报“主机磁盘分区使用率过高”的告警,如下图所示。
    的头像 发表于 03-21 09:47 832次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>主机磁盘分区使用率过高的问题处理

    TECS OpenStack资源虚拟机网络二层地址无法互通的问题处理

    某运营商TECS OpenStack使用主机overlay SDN方案组网,运维人员在创建虚拟机测试虚拟机网络状态时发现问题:在其中一台主机上创建两台同网段虚拟机,虚拟机之间二层地址无法Ping通,但是可以Ping通网关地址,如图1所示。
    的头像 发表于 06-12 09:28 676次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>虚拟机网络二层地址无法互通的问题处理