0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

测试右移之——监控告警中心优化与建设策略

京东云 来源:京东保险 郑飞 作者:京东保险 郑飞 2024-11-26 11:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:京东保险 郑飞

前言

在11.11大促中,质量保障成为了确保大促顺利进行的坚固防线。其中,测试右移作为一种前瞻性的质量策略,正日益彰显其不可或缺的价值。而监控,作为测试右移战略中的核心环节,不仅承担着全面、精准捕捉系统运行动态的重任,更需在问题初露端倪时,迅速吹响警报,引领团队实施有效干预。然而,当前大部分关于测试右移中监控部分的讨论,多聚焦于监控技术的选择与实现,以及如何构建全面的监控体系,而对于监控告警这一核心功能的深度剖析却相对较少。

告警,作为监控体系中的“哨兵”,其重要性不言而喻。一个高效、精准的告警机制,能够第一时间将潜在问题反馈给相关人员,为快速定位、解决问题赢得宝贵时间。但现实中,告警机制的设计与实施往往面临着诸多挑战,如告警信息的泛滥、感知度不足、准确性不高等,这些问题都严重制约了监控体系效能的发挥。

因此,本文特从告警视角出发,探讨当前监控告警机制存在的问题与挑战,并提出针对性的优化与建设策略。希望通过本文的阐述,能够为读者在构建和优化监控告警体系时提供有益的参考与启示。

一、背景概述与当前状况

在构建业务监控体系的过程中,我们通常采用多元化的告警通知手段,涵盖邮件、即时通讯消息等多种形式。当前,团队中大部分业务监控主要依赖邮件和即时通讯消息(京ME)作为告警传递的两大渠道。

然而,随着监控范围的不断扩大和业务应用场景的日益丰富,现有的报警通知机制正面临一系列严峻挑战。

二、面临的主要挑战

1.报警感知度不足:单一的报警模式或当前报警功能的感知能力存在明显短板。例如,由于每日接收的邮件数量庞大,邮件通知方式往往容易被忽视;相较于邮件,京me消息通知的感知度虽有所提升,但仍存在遗漏关键报警信息的风险。

2.报警信息泛滥:无效或冗余的报警信息会严重干扰正常报警的传递,增加值班人员的工作负担,降低其处理效率。更为严重的是,这些无效信息会将紧急报警淹没在海量报警信息之中,导致关键信息被忽视。

3.报警不准确:不合理的阈值设置可能引发漏报或误报现象,进而对系统的稳定性和安全性构成潜在威胁。

三、告警中心建设目标

告警中心的建设旨在全面攻克上述存在的痛点问题,并在此基础上拓展更为全面且强大的功能体系。以下是该建设的核心目标:

1.构建统一报警平台:旨在提供一个集成化的报警通知中心,确保各业务监控模块能够专注于其核心功能的实现,而无需为报警通知的多样化与整合性担忧。

2.实现多通道告警:通过集成邮件、即时通讯、短信等多种报警通知渠道,构建一个具备多维度告警感知能力的系统,确保报警信息能够精准触达目标接收者。

3.引入优先级设定机制:为报警信息提供分级与优先级设定的能力,使接收者能够迅速识别并优先处理高优先级报警,确保紧急问题得到及时响应。

4.实现自动升级与抑制:针对有效报警项,当出现严重批量报警时,系统将自动提升其感知能力,确保关键信息不被遗漏;同时,对于冗余或无效报警,系统将自动进行降级处理,抑制其通知频率,避免造成不必要的干扰。

5.实施报警合并策略:对于相同类型的报警信息,系统将进行智能合并,以减少报警数量。在设定的时间窗口内,将同一监控对象的多次报警合并为一次,提高报警信息的可读性和处理效率。

6.打造自适应报警系统:依托实时数据和历史数据,结合先进的统计分布算法,系统将自动调整报警阈值,以适应系统环境的不断变化,确保报警信息的准确性和有效性。

7.构建问题闭环处理流程:通过与问题处理平台无缝对接,形成从报警触发到问题解决的完整闭环流程,确保每一个报警都能得到及时、有效的处理,从而提升系统的稳定性和可靠性。

四、技术设计方案

4.1 告警设置使用原则

•【建议】控制告警数量,避免引发“狼来了”效应。

•【强制】当告警触发时,必须附带明确的操作指南。

•【建议】对于无需人工干预的告警规则,建议直接予以移除。

•【强制】告告警信息中必须包含告警级别、影响范围及应对措施等关键信息。

4.2 告警渠道集成策略

告警中心致力于构建一个全面而灵活的报警感知网络,集成了多种高效、便捷的告警渠道,包括但不限于:

邮件通知:利用邮件系统的广泛覆盖性和可靠性,确保告警信息能够准确无误地送达至指定接收者。

京me消息:依托京me平台的即时通讯能力,实现告警信息的快速传递,确保相关人员能够第一时间接收到报警通知。

京me群通知:还有另外一种情况,就是负责人不能立马看到告警,针对这种情况我们可以提前准备告警群,把告警投入小组的群里,这样群里的其他同学也能看到告警,帮负责人处理告警或者提醒负责人处理告警。

京me日历提醒:结合京me日历的日程管理功能,将告警信息以日程提醒的方式呈现,为相关人员提供更为直观的告警感知体验。

电话告警:在紧急情况下,通过电话直接拨打相关人员手机,确保告警信息能够以最快速度传递至目标接收者,实现即时响应。

4.3 故障等级与告警设置策略

在故障管理体系中,明确定义故障的等级至关重要。除了传统的基于受损PV/UV、收入等维度来划分故障等级外,故障的持续时间同样是一个不可忽视的关键指标。对于一个核心服务而言,故障的持续时长将直接影响其最终的影响级别。例如,短时间的瞬时故障可能仅造成轻微影响,而长时间的持续故障则可能引发重大业务中断,带来严重后果。

因此,如何迅速解决故障,实际上也在一定程度上考验着我们的告警设置能力。在事故的全生命周期管理中,从发现到定位,告警都扮演着至关重要的角色,尤其是故障的初步发现阶段。为了优化告警设置,提升故障处理效率,以下几点策略可供参考:

告警分级管理:根据故障的严重性,将告警划分为不同的等级,如提示级、预警级、严重级和灾难级。这种分级管理有助于相关人员根据告警级别快速判断故障的紧急程度,并采取相应的应对措施。

告警原因分类:对告警进行细致的原因分类,如网络故障、硬件故障、软件错误等,有助于快速定位故障源头,减少排查时间。同时,原因分类也为后续的故障预防和改进提供了有力支持。

提供解决方案:每条告警信息中应包含初步的解决方案或处理建议,以便相关人员能够在接收到告警后,迅速采取行动,遏制故障扩散,降低损失。解决方案可以包括紧急操作步骤、备用系统切换方案、联系技术支持人员等。

4.4 告警收敛抑制与自动升降级策略

告警中心不仅承担着即时发送告警信息的重任,还需对告警记录进行精细化管理和分析。告警中心会保留每一次告警的通知记录,并根据后续的验证结果,对告警进行精准分类,如有效报警、无效报警、偶发性报警以及常规报警等。

为了提升告警管理的效率和准确性,告警中心会根据历史告警的最终处理结果,智能识别出冗余或无效的告警。对于这些告警,系统将自动采取降级处理措施,有效抑制其通知频率,从而避免对相关人员造成不必要的干扰和负担。这种智能收敛抑制机制,有助于减少无效告警的噪音,让相关人员能够更加专注于处理真正重要的告警。

同时,对于历史上曾经出现过的重要或严重报警,告警中心在提供正常通知的基础上,还具备智能升级的能力。例如,当某个告警配置原本使用较为普通的通知方式(如京me通知),但在出现批量恶劣报警且接收人未能及时跟进处理的情况下,系统会自动将该告警升级为更高级别的通知方式,如电话告警(同时可以支持升级为通知相关上级人员)。这种智能升级策略,能够确保在紧急情况下,相关人员能够迅速接收到告警信息,并采取相应的应对措施,从而有效遏制故障的扩散和升级。

4.5 告警合并策略

对相同类型的报警信息进行智能识别与合并。在设定的时间窗口内,对于同一监控对象触发的多次报警,系统将自动进行合并处理,将多条相似的告警信息整合为一条综合告警。这种合并方式不仅显著减少了报警数量,降低了告警信息的冗余度,还使得告警信息更加简洁明了,易于阅读和理解。

4.6 自适应阈值策略

在监控告警领域,阈值设定一直是一个棘手的问题。传统的固定阈值方法,虽然简单易行,但往往难以兼顾精准告警与减少误报之间的平衡。阈值设定过于宽泛,可能遗漏真正的故障问题,导致漏报;而设定过于保守,则可能引发大量无效误报,干扰正常工作。更为复杂的是,随着业务的不断发展,监控对象的数据波动也会发生变化,阈值也需要相应地进行调整。

为了解决这一难题,引入了自适应阈值策略优化方案。该方案的核心在于利用统计分布学算法,根据历史数据走向,动态计算出合理的告警阈值。具体而言,我们可以采用正态分布或均匀分布等统计模型,对历史监控数据进行拟合和分析,从而得出一个能够反映数据波动特性的动态阈值。

自适应阈值策略的优势在于其灵活性和准确性。由于阈值是根据历史数据动态计算得出的,因此能够随着业务的发展和数据的变化而自动调整,始终保持对监控对象的敏感度和准确性。同时,该策略还能够有效减少误报和漏报的情况,提高告警信息的可靠性和实用性。

在实施自适应阈值策略时,我们还需要注意以下几点:

1.数据质量:确保历史数据的准确性和完整性,避免数据异常对阈值计算造成干扰。

2.模型选择:根据监控对象的特性和数据分布特点,选择合适的统计模型进行拟合和分析。

3.阈值调整:定期对自适应阈值进行验证和调整,确保其始终符合业务需求和运维实际情况。

4.7 告警问题追踪与闭环

告警中心通过与问题跟踪系统的集成,实现了告警从触发到解决的全程跟踪。当告警触发时,系统会自动将告警信息发送至问题跟踪系统,并生成相应的问题记录。值班人员可以在问题跟踪系统中查看告警详情、处理进度和解决方案等信息,确保每一个告警都能得到及时、有效的处理。这种告警问题追踪与闭环流程,有助于提升系统的稳定性和可靠性。

五、优秀文献推荐

关于线上稳定性的构建与监控报警机制的完善,特此推荐以下几篇卓越的文献资料:

外部文献精选:

1.《vivo 服务端监控体系建设实践》

2.《我在服务监控方面的实践》

神灯社区佳作:

1.《系统稳定性之-监控报警》

这些文献资源将为在构建与优化线上稳定性及监控报警体系方面提供宝贵的参考与启示。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 测试
    +关注

    关注

    8

    文章

    6051

    浏览量

    130831
  • 监控
    +关注

    关注

    6

    文章

    2366

    浏览量

    59138
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    恒讯科技解析:服务器监控告警设置—企业必备指南

    一、为什么企业必须配置服务器监控告警 要是没有监控系统,企业,就只能在故障出现之后,才发觉问题,进而造成业务方面的损失。恒讯科技长期服务企业客户发现超八成的服务器故障,借助监控
    的头像 发表于 11-25 17:42 460次阅读

    人工智能数据中心的光纤布线策略

    人工智能数据中心的光纤布线策略,包括布线规划、光纤选型、架构设计、成本优化以及未来趋势等。 布线规划的重要性 在人工智能数据中心中,光纤布线的规划是确保系统高效运行的关键步骤。合理的布
    的头像 发表于 11-21 10:21 110次阅读

    MySQL慢查询优化案例

    凌晨3点,手机疯狂震动。监控告警显示:核心业务接口响应时间超过20秒,用户投诉如潮水般涌来。这是每个运维工程师的噩梦时刻。
    的头像 发表于 08-27 14:49 512次阅读

    Linux企业网络安全防护体系建设

    构建完整的Linux安全防护体系不是简单的工具堆砌,而是需要从架构设计、监控告警、应急响应到持续改进的完整闭环。本文将分享我在大型企业环境中的实战经验。
    的头像 发表于 08-27 14:39 544次阅读

    宏集分享 | 集中告警管理如何提升设施安全性?

    提高团队响应速度,优化维护运营在工业或商业建筑中,集中告警管理已成为确保安全性或检测故障的必备工具。通过将所有安全系统集中管理,企业能够将所有告警统一在一个HMI界面中,大幅提升响应速度。关键要点
    的头像 发表于 08-08 18:25 329次阅读
    宏集分享 | 集中<b class='flag-5'>告警</b>管理如何提升设施安全性?

    车间通风系统监控告警物联网解决方案

    风扇运行则现场告警灯会间隔闪烁;而如果全部风扇停止工作就会启动声光告警,需要立即停工检修。 由于环境较恶劣,加上运行时间长,风扇故障率越来越高,采用人工巡检的模式逐渐暴露出效率低、风险大等弊端,同时停机检修所付出的成本
    的头像 发表于 06-24 11:23 416次阅读
    车间通风系统<b class='flag-5'>监控告警</b>物联网解决方案

    轮毂电机HEV能量管理策略优化研究

    纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:轮毂电机HEV能量管理策略优化研究.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 06-10 13:16

    明远智睿SSD2351开发板:视频监控领域的卓越

    随着安全防范意识的提高,视频监控在各个领域得到了广泛应用。明远智睿SSD2351开发板凭借其出色的性能和特性,成为视频监控领域的卓越选,为视频监控系统的升级和发展提供了有力支持。 S
    发表于 05-30 10:24

    RakSmart服务器成本优化策略

     RakSmart服务器的成本优化需围绕硬件配置、网络资源、IP管理、隐性支出四大核心模块展开,结合业务阶段制定灵活方案。以下是具体策略与实操指南,主机推荐小编为您整理发布RakSmart服务器成本优化
    的头像 发表于 04-10 10:23 557次阅读

    5G网络优化中,信令测试仪如何帮助故障排查?

    在5G网络优化中,信令测试仪扮演着至关重要的角色,特别是在故障排查方面。以下详细分析信令测试仪如何帮助进行5G网络中的故障排查:一、识别信令问题 信令流程监控:信令
    发表于 03-20 14:18

    嵌入式系统存储的软件优化策略

    、文件系统类型、应用数据读写建议及烧录方式等。 ·产品开发完成前做实际存储的优化。产品的样机测试阶段需要对系统实际读写频次、大小做接 口数据统计分析,对存储做数据稳定性分析(例:NAND存储变位及坏块
    发表于 02-28 14:17

    IBMS智能化系统集成服务器智能化集成管理系统

    通知策略,展现手段以Flex动态系统图、3D展现、手机终端APP为主,辅以设备监控告警详细信息及各类查询的展现列表及功能。 2.资产管理:对园区及楼宇拥有者的各类硬件资产进行全生命周期的管理,并提供资产生命周期各种状态变更的流程定制和流
    的头像 发表于 02-23 10:40 652次阅读
    IBMS智能化系统集成服务器智能化集成管理系统

    华为云 X 实例监控告警管理详解

    前言 随着云计算的飞速发展,越来越多的企业将业务部署在云平台上,云服务器实例的管理变得尤为重要。云实例的稳定性、性能及安全性,直接影响着业务的连续性与用户体验。为了确保这些目标的实现,监控告警
    的头像 发表于 01-08 11:50 1328次阅读
    华为云 X 实例<b class='flag-5'>监控</b>与<b class='flag-5'>告警</b>管理详解

    充电桩安全监控中心:守护新能源充电安全的智慧堡垒

    。 充电桩安全监控中心是一个集数据监控告警处理、设备管理等多功能于一体的综合平台。它利用先进的物联网、云计算、大数据分析和人工智能等技术,实现对充电桩的全面
    的头像 发表于 01-02 16:36 720次阅读

    华为云 X 实例 CPU 性能测试详解与优化策略

    分析   3.2 CPU性能瓶颈分析   4. CPU性能优化策略   4.1 优化CPU性能的常用方法   4.2 操作系统内核调优   4.3 使用性能监控工具   5. 总结与建
    的头像 发表于 12-30 14:52 1258次阅读
    华为云 X 实例 CPU 性能<b class='flag-5'>测试</b>详解与<b class='flag-5'>优化</b><b class='flag-5'>策略</b>