0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI智能体终结运维"狼来了"

jf_73420541 来源:jf_73420541 作者:jf_73420541 2025-06-09 10:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

序言 “狼来了”

"叮咚!CPU使用率超过90%!"

"叮咚!内存占用达到80%!"

"叮咚!连接池资源空闲数低于5%!"

凌晨3点,我们的老演员,运维工程师小李,再次被钉钉机器人中监控的Prometheus的告警吵醒,他盯着手机屏幕,眼神呆滞,本着“小心驶得万年船,不可让一个故障漏网”的原则,他还是艰难地对抗了睡意,把所有系统健康指标进行逐一排查,如期所料,又是一起误报。

“悠悠苍天,何薄于我?这玩意监控了个寂寞呀。”


告警对于广大运维人员来说,真的是又爱又恨,不用长时间监控系统有异常之后通知运维人员,极大的节省了时间,但随着设备规模的大量增加,原本较少误报突然呈现了爆炸式的增长,从而使得“狼来了”式的告警逐渐降低了运维人员的警惕阈值,从而使得正真的故障狼来了之时,运维人员可能还蒙在鼓里,毫无反应。


前章 “AI智能体”

AI时代,是否有更好的解决方案?热烈欢迎本场的主角“AI智能体”上线。

AI智能体,通常是指能够感知环境、自主决策并执行动作以实现特定目标的一类人工智能系统。该系统结合了感知、推理、学习和行动能力,可以独立或在人工协同指导下完成任务。




那么如何通过构建AI智能体来处理Prometheus的告警呢?基本可以遵循如下的功能模块来处置。

wKgZO2hGQuaAfpNjAADkWkughGQ187.png

▍一、感知模块

负责接收和处理来自环境的各类信息,为后续决策提供所需的数据支持。该部分的准确性和敏感度会直接影响到后续的处理。常见的感知模块一般可以使用如下方式:

文本感知:NLP模型(BERT/GPT)

图像感知:CV模型(YOLO/ResNet)

语音感知:ASR系统


▍二、认知引擎

负责记录相关故障处置的上下文信息及对应处置经验。按照信息存活时间及相关信息的固化特征可以分为:

短期记忆:对话上下文管理(LSTM/Transformer)

长期记忆:一般使用知识图谱、向量数据库

在构建对应的认知记忆过程需要遵循严格的标准,比如在AI智能体在处理Prometheus告警时,需要考虑如下的因素:

历史性:异常指标是否在相同周期内出现

全局性:异常指标在集群架构下影响力

价值性:何种严重程度需要提示为告警,把小李从床上拉起来

基础信息:持续时间、严重程度

关联关系:服务组来源信息


同时对于告警的处置结果执行方式也分为三个星级:

一星告警:"嗯。"(记录日志完事)

二星告警:"嗯?"(发个Slack消息)

三星告警:"啊!"(打电话+发短信+在办公室拉防空警报)


▍三、决策中心

该模块通过综合考虑各种因素,运用逻辑推理和概率统计等方法,做出最优决策。在大模型逐渐成熟的当下,该部分主要由各大模型来扮演,如DeepSeek、GPT等,相关介绍材料很多,在此不再赘述。


▍四、执行模块

依据决策中心提供的处理意见完成对应处理工作,设计的核心是完成与相关业务系统的交互与联动,通常可以通过如下方式完成:

API调用:OpenAPI规范封装

RPA操作:Playwright/Airflow集成

执行模块是最终呈现处置的关键部分,最终来衡量AI智能体在过程中非人工介入程度,与工具的对接的丰富度及耦合度决定了执行的准确性。


▍五、反馈系统

实现系统的持续自我优化,通过计算关键指标(如任务完成率、耗时)来进行效果评估。常见的模型更新:

在线学习:Bandit算法实时调整策略

离线训练:每周全量数据retraining


终章 “不看广告,看疗效”

▍第一回合:CPU使用率告警

Prometheus:"报!CPU冲到95%了!"

AI:"淡定,这是每日报表生成时间,你家CPU在996呢"

结果:标记为"预期波动",Slack发个已处理消息


▍第二回合:磁盘空间不足

Prometheus:"急急急!/var只剩5%了!"

AI:"(查看历史记录)发现这个分区每周三都会这样...等等,日志轮转脚本又睡懒觉了?"

结果:自动触发日志清理脚本,并在Jira创建工单:"日志轮转脚本又双叒叕偷懒了"


▍第三回合:数据库连接池耗尽

Prometheus:"药丸!连接池100%了!"

AI:"(0.1秒内扫描全链路)前端流量激增→促销活动忘了限流→这不是故障,这是KPI在发光啊!"

结果:自动扩容数据库实例+@市场部:"亲,下次搞活动记得提前说哦~"


写在最后:AI不是终点,而是起点

记住:

再智能的AI也干不过写bug的程序员

再精准的过滤也挡不住老板的突发奇想

最好的监控系统也永远有一个会骂“这什么破AI”的幕后运维小李


在完成该文章的过程中,消耗了作者4杯咖啡和12次对Prometheus的告警的亲切问候。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222928
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296533
  • 智能体
    +关注

    关注

    1

    文章

    387

    浏览量

    11520
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    "Access violation" 错误,复位位置,重新打印

    "Access violation" 错误
    的头像 发表于 11-08 07:16 192次阅读

    智慧路灯的"智慧"从何而来?一文读懂单灯控制器工作原理

    夜幕低垂,当你走在灯火通明的城市街道上,是否曾想过:这些路灯是如何实现智能化管理的?为什么有些路段在人车稀少时会自动调暗?故障又是如何被第一时间发现的?这一切的奥秘,都藏在那个不起眼的"单
    的头像 发表于 08-29 20:08 461次阅读
    智慧路灯的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;智慧&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;从何而来?一文读懂单灯控制器工作原理

    光耦合器:电子世界的 &amp;quot;光桥梁&amp;quot;

    在现代电子设备的复杂电路中,信号的传输与隔离至关重要。就像城市交通中需要桥梁来跨越障碍、连接不同区域一样,电子电路里也需要一座 &quot;桥梁&quot; 来实现信号的安全、高效传输,同时避免
    的头像 发表于 08-22 16:58 788次阅读

    精密设备的&amp;amp;quot;电力保镖&amp;amp;quot;:优比施UPS如何守护数据与硬件安全?

    一、用户痛点:精密设备的&quot;断电恐惧症&quot;在数据中心、医疗实验室、工业控制等场景中,精密电子设备对电源的依赖已达到&quot;零容忍&quot;级别:数据安全危机:服务
    的头像 发表于 07-25 09:00 429次阅读
    精密设备的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;电力保镖&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;:优比施UPS如何守护数据与硬件安全?

    Modbus RTU通讯协议:瑞银电能表的&amp;quot;普通话&amp;quot;指南

    Modbus RTU协议就像工业设备间的&quot;普通话&quot;,让不同品牌的电能表、传感器等设备能够顺畅&quot;交流&quot;。
    的头像 发表于 07-18 18:30 1381次阅读
    Modbus RTU通讯协议:瑞银电能表的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;普通话&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;指南

    地热发电环网柜局放监测设备:清洁能源电网的&amp;amp;quot;安全卫士&amp;amp;quot;

    的局部放电问题,直接影响系统供电稳定性。地热发电环网柜局放监测设备通过非接触式检测技术与智能算法结合,为清洁能源电网构筑起一道主动防御体系。技术原理:破解局部放电的&quot;电磁密码&quot;地热发电
    的头像 发表于 07-16 10:15 404次阅读
    地热发电环网柜局放监测设备:清洁能源电网的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;安全卫士&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    为什么GNSS/INS组合被誉为导航界的&amp;amp;quot;黄金搭档&amp;amp;quot;?

    在导航技术领域,GNSS(全球导航卫星系统)和INS(惯性导航系统)的结合,一直被业界誉为&quot;黄金搭档&quot;。它们优势互补,克服了单一系统的局限性,为高精度、高可靠性的导航提供了完美
    的头像 发表于 07-09 17:12 647次阅读
    为什么GNSS/INS组合被誉为导航界的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;黄金搭档&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;?

    CFCF2025光连接大会——武汉昊衡科技OLI光纤微裂纹检测仪,守护光纤网络的&amp;amp;quot;安全卫士&amp;amp;quot;

    AI技术、5G通信、数据中心高速发展的今天,光纤网络如同通信系统的&quot;神经网络&quot;,承载着海量数据的传输重任。然而,光纤在铺设、
    的头像 发表于 06-11 17:29 1009次阅读
    CFCF2025光连接大会——武汉昊衡科技OLI光纤微裂纹检测仪,守护光纤网络的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;安全卫士&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    人形机器人为什么要定制? ——揭秘工业场景的&amp;quot;千面需求&amp;quot;

    核心洞察:标准化机器人难以破解工业场景的&quot;需求碎片化&quot;困局。富唯智能通过 &quot;五大模块柔性架构+零代码中枢&quot
    的头像 发表于 06-10 17:19 953次阅读
    人形机器人为什么要定制? ——揭秘工业场景的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;千面需求&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    仓储界的&amp;quot;速效救心丸&amp;quot;,Ethercat转PROFINET网关实战案例

    实战案例,Ethercat转PROFINET网关,仓储界的&quot;速效救心丸&quot;
    的头像 发表于 05-11 10:32 605次阅读
    仓储界的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;速效救心丸&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;,Ethercat转PROFINET网关实战案例

    电缆局部放电在线监测:守护电网安全的&amp;amp;quot;黑科技&amp;amp;quot;

    文章由山东华科信息技术有限公司提供在万家灯火的背后,有一张覆盖全国的&quot;能源神经网络&quot;昼夜不息地运转。电缆作为电力输送的&quot;主动脉&quot;,其健康状况直接
    的头像 发表于 04-14 18:12 717次阅读
    电缆局部放电在线监测:守护电网安全的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;黑科技&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    炼油厂开闭所局放监测:为能源枢纽装上&amp;amp;quot;智能安全阀&amp;amp;quot;

    &quot;,可能点燃易燃气体,引发连锁爆炸。传统监测手段在防爆环境下捉襟见肘,而局放在线监测系统正为炼油厂筑起智能安全屏障。一、局放隐患:炼油厂开闭所的&quot;定时炸弹&quot
    的头像 发表于 04-09 16:41 665次阅读
    炼油厂开闭所局放监测:为能源枢纽装上&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;<b class='flag-5'>智能</b>安全阀&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    隧道管廊变压器局放在线监测:为地下&amp;amp;quot;电力心脏&amp;amp;quot;装上智能听诊器

    可能因老化、受潮产生局部放电,如同潜伏的&quot;电蚀暗流&quot;,持续威胁着电力输送的安全。如何为这颗&quot;心脏&quot;装上智能
    的头像 发表于 04-09 16:37 683次阅读
    隧道管廊变压器局放在线监测:为地下&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;电力心脏&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;装上<b class='flag-5'>智能</b>听诊器

    &amp;quot;看不见的&amp;quot;才是真智能!物联技术让光伏电站自己&amp;quot;看病&amp;quot;

    程瑜 187 0211 2087 安科瑞电气股份有限公司 上海嘉定 201801 摘要 :文章旨在探讨基于物联网技术的分布式光伏电站管理系统的设计与优化。首先,分析物联网技术在光伏电站中
    的头像 发表于 03-20 17:02 641次阅读
    &<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;看不见的<b class='flag-5'>运</b><b class='flag-5'>维</b>&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;才是真<b class='flag-5'>智能</b>!物联技术让光伏电站自己&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;看病&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    力合微电子携手中山古镇政府开启&amp;amp;quot;智光互联&amp;amp;quot;新纪元 共筑全球智能照明产业高地

    企业,力合微电子将以电力线通信(PLC)技术为核心引擎,赋能&quot;中国灯饰之都&quot;的智能化转型,开启照明产业与物联网深度融合的新篇章。此次合作是力合微电子深化智能生态的重
    的头像 发表于 03-19 09:47 894次阅读
    力合微电子携手中山古镇政府开启&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;智光互联&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;新纪元 共筑全球<b class='flag-5'>智能</b>照明产业高地