0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TECS OpenStack资源池虚机写磁盘时延高告警的问题处理

中兴文档 来源:中兴文档 2025-03-21 09:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

故障现象

某运营商TECS资源池,在当前告警中显示“虚机写磁盘时延高告警”,如下图所示。告警统计总体平均10分钟左右自动恢复。

99a4f98e-051f-11f0-9310-92fbcf53809c.png

故障分析

结合现场环境和资源情况,分析问题产生的可能原因如下:

1. 虚拟机系统异常,操作系统只读不可写。

2. 计算节点访问后端存储异常。

3. 虚拟机读写性能不足,或者平台QoS配置限定。

4. 虚拟机配置问题,或者虚机被攻击,导致大量写操作。

具体问题分析过程如下:

1. 登录异常虚拟机操作系统,检查虚拟机内部业务是否正常读写,以及操作系统状态。

2. 虚机写磁盘延时告警上报后,底层平台和业务网元双向检查。

平台检查虚机运行正常,无其它异常告警。

业务网元检查虚机正常,网元无异常告警。

确认虚机写磁盘时延高告警仅触发告警,无业务影响,如下图所示。

3. 在TECS上通过告警找到对应虚机的节点,确定该节点只有一个虚机是NFV-P-***。再检查虚机读写速率和虚机所在节点读写速率。

4. 执行iostat -x 3命令,检查服务器节点。持续续观察1小时,节点检查正常,如下图所示。

99e76d00-051f-11f0-9310-92fbcf53809c.png

5. 在CloveStorage分布式存储上使用告警信息中虚机名称检查,确认虚机对应卷。

a. 在TECS平台检查虚机对应的云盘,获取云盘对应卷的ID,从告警确定虚机名,如下图所示。

99fc1a16-051f-11f0-9310-92fbcf53809c.png

b. 测试TECS平台使用sftp方式访问第三方存储正常,能够正常访问,也能正常发送问题。

c. 在CloveStorage分布式存储上检查每个对应卷和集群的性能,如下图所示。

9a0c594e-051f-11f0-9310-92fbcf53809c.png

IOPS:I/O per second,即每秒钟可以处理的I/O个数,用来衡量存储系统的I/O处理能力,如下图所示。

9a1a8ce4-051f-11f0-9310-92fbcf53809c.png

读写速率:每秒钟可以处理的数据量,常以MB/s或GB/s为单位,用于衡量存储系统的吞吐量。

I/O:输入(input)、输出(output)。

IO时延:发起一次I/O请求到I/O处理完成的时间间隔。

容量:可用的存储空间大小。

6. 根据上图可以看出IOPS值在告警时间段超出200。

7. 在TECS平台检查存储QoS设置值,为200,如下图所示。

9a2cd110-051f-11f0-9310-92fbcf53809c.png

8. 检查对应卷的IOPS值,超过 200;而卷的QoS设置IOPS最大上限为200,经确认出现时延冲高的卷QoS均超过了设定的最大值,因此存在QoS设置不合理影响卷性能的问题。

9. 同时和业务网元确认,存在卷的QoS设置小于实际运行的预期值。

10. QoS(Quality of Service)即服务质量。在有限的资源下,QoS为各种业务分配固定的资源预留,为业务提供端到端的服务质量保证。

卷的QoS设置IOPS和带宽上限,当卷的实际性能超过QoS设置的最大值时,会由于QoS的限制出现IO队列排队拥塞的情况,反映到上层,即对应的云盘IO时延增高并上报告警。

11. 通过以上检查,发现存储侧在异常时间段没有异常告警,确认底层存储集群运行正常。

故障处理

1. 虚拟化平台和业务网元联合检查确认是因为业务网元侧针对QoS设置IOPS值小于卷实际运行的IOPS值,导致卷时延冲高,最终产生告警。

2. 修改存储QoS值后,未再上报该告警。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 运营商
    +关注

    关注

    4

    文章

    2426

    浏览量

    46304
  • 磁盘
    +关注

    关注

    1

    文章

    394

    浏览量

    26293
  • 命令
    +关注

    关注

    5

    文章

    746

    浏览量

    23447
  • OpenStack
    +关注

    关注

    1

    文章

    73

    浏览量

    19612

原文标题:TECS OpenStack-资源池虚机写磁盘时延高告警的问题处理

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RCS融合通信系统设计方案解析

    TECS主要由以下部分组成:OpenStack自身的组件,OpenStack部署相关组件,以及扩展的HA、自动部署与管理、系统管理(软、硬件资源管理)等组件,
    发表于 07-01 15:45 3603次阅读
    RCS融合通信系统设计方案解析

    OpenStack资源调度和现状分析

    OpenStack云端的资源调度和优化剖析2016-07-03 19:12 作者简介:胡晓亮,目前就职于IBM Platform Computing 系统科技部云计算部门,担任云计算开发部工程师。自
    发表于 10-10 10:44 0次下载
    <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b>调度和现状分析

    杉岩数据已实现了与OpenStack的全面紧耦合

    。在OpenStack的系统架构下,为了支撑各种存储需求,诞生了Cinder和Swift组件,其中Cinder是OpenStack中提供块存储服务的组件,主要是为虚拟实例提供虚拟磁盘
    发表于 07-20 16:57 1009次阅读

    OpenStack云平台监控数据采集及处理的实践与优化

    本文介绍了在OpenStack云平台中通过Ceilometer采集云平台中虚拟磁盘、网络等资源的使用数据,并通过Gnocchi处理、储存
    的头像 发表于 12-25 18:38 2636次阅读

    TECS资源池上报网络流程异常告警的问题处理

    资源TECS上报网络流程异常告警告警单次持续15秒-4分钟之间。
    的头像 发表于 06-07 09:41 1650次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b>池上报网络流程异常<b class='flag-5'>告警</b>的问题<b class='flag-5'>处理</b>

    TECS资源池上报存储设备离线的问题处理

    资源在运行过程中出现存储设备离线告警,通过底层cinder service-list命令查看,确认存储state为down状态。
    的头像 发表于 06-07 09:44 1370次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b>池上报存储设备离线的问题<b class='flag-5'>处理</b>

    TECS资源SSH控制节点提示connection refused的问题处理

    某局点现场TECS控制节点的TECSClient平面使用双栈配置,同时使用IPv4和IPv6。
    的头像 发表于 06-07 09:47 1440次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>SSH控制节点<b class='flag-5'>虚</b><b class='flag-5'>机</b>提示connection refused的问题<b class='flag-5'>处理</b>

    TECS资源池上报BFD会话DOWN和网络流量异常告警的问题处理

    资源TECS上报BFD会话DOWN告警和网络流量异常告警,持续时间1秒至6分钟不等,如下图所示。
    的头像 发表于 06-07 09:49 2255次阅读
    <b class='flag-5'>TECS</b><b class='flag-5'>资源</b>池上报BFD会话DOWN和网络流量异常<b class='flag-5'>告警</b>的问题<b class='flag-5'>处理</b>

    资源后端存储服务状态异常的问题处理

    故障现象某资源在巡检过程中检查服务状态,其中云盘后端的服务状态为down,如下图所示,影响虚拟云盘的生命周期管理操作。
    的头像 发表于 09-20 11:06 1431次阅读
    <b class='flag-5'>资源</b><b class='flag-5'>池</b>后端存储服务状态异常的问题<b class='flag-5'>处理</b>

    资源虚拟机时钟跳变异常的问题处理

    资源在运行过程中一台虚拟出现业务异常,通过查看日志和异常记录,判断为虚拟发生时钟跳变问题,如下图所示。
    的头像 发表于 09-20 11:08 2330次阅读
    <b class='flag-5'>资源</b><b class='flag-5'>池</b>虚拟机时钟跳变异常的问题<b class='flag-5'>处理</b>

    并发内存项目实现

    本项目实现了一个并发内存,参考了Google的开源项目tcmalloc实现的简易版;其功能就是实现高效的多线程内存管理。由功能可知,并发指的是高效的多线程,而内存则是实现内存管
    的头像 发表于 11-09 11:16 1307次阅读
    <b class='flag-5'>高</b>并发内存<b class='flag-5'>池</b>项目实现

    TECS OpenStack资源残留导致网元异常的问题处理

    某运营商TECS资源的一台主机内存故障,进行关机、内存更换操作,自动迁移到其他主机上,同时做了其他虚拟
    的头像 发表于 03-03 09:42 706次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b><b class='flag-5'>虚</b><b class='flag-5'>机</b>残留导致网元异常的问题<b class='flag-5'>处理</b>

    TECS OpenStack资源时间同步失败的故障分析

    某运营商TECS OpenStack资源,在当前告警中显示“时钟同步失败”,以10分钟整数倍为间隔上报“时间同步失败”
    的头像 发表于 03-03 10:09 848次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>时间同步失败的故障分析

    TECS OpenStack资源主机磁盘分区使用率过高的问题处理

    某运营商TECS资源池上报“主机磁盘分区使用率过高”的告警,如下图所示。
    的头像 发表于 03-21 09:47 842次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>主机<b class='flag-5'>磁盘</b>分区使用率过高的问题<b class='flag-5'>处理</b>

    TECS OpenStack资源虚拟网络二层地址无法互通的问题处理

    某运营商TECS OpenStack使用主机overlay SDN方案组网,运维人员在创建虚拟测试虚拟网络状态时发现问题:在其中一台主机上创建两台同网段虚拟
    的头像 发表于 06-12 09:28 681次阅读
    <b class='flag-5'>TECS</b> <b class='flag-5'>OpenStack</b><b class='flag-5'>资源</b><b class='flag-5'>池</b>虚拟<b class='flag-5'>机</b>网络二层地址无法互通的问题<b class='flag-5'>处理</b>