0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI智能体终结运维"狼来了"

jf_73420541 来源:jf_73420541 作者:jf_73420541 2025-06-09 10:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

序言 “狼来了”

"叮咚!CPU使用率超过90%!"

"叮咚!内存占用达到80%!"

"叮咚!连接池资源空闲数低于5%!"

凌晨3点,我们的老演员,运维工程师小李,再次被钉钉机器人中监控的Prometheus的告警吵醒,他盯着手机屏幕,眼神呆滞,本着“小心驶得万年船,不可让一个故障漏网”的原则,他还是艰难地对抗了睡意,把所有系统健康指标进行逐一排查,如期所料,又是一起误报。

“悠悠苍天,何薄于我?这玩意监控了个寂寞呀。”


告警对于广大运维人员来说,真的是又爱又恨,不用长时间监控系统有异常之后通知运维人员,极大的节省了时间,但随着设备规模的大量增加,原本较少误报突然呈现了爆炸式的增长,从而使得“狼来了”式的告警逐渐降低了运维人员的警惕阈值,从而使得正真的故障狼来了之时,运维人员可能还蒙在鼓里,毫无反应。


前章 “AI智能体”

AI时代,是否有更好的解决方案?热烈欢迎本场的主角“AI智能体”上线。

AI智能体,通常是指能够感知环境、自主决策并执行动作以实现特定目标的一类人工智能系统。该系统结合了感知、推理、学习和行动能力,可以独立或在人工协同指导下完成任务。




那么如何通过构建AI智能体来处理Prometheus的告警呢?基本可以遵循如下的功能模块来处置。

wKgZO2hGQuaAfpNjAADkWkughGQ187.png

▍一、感知模块

负责接收和处理来自环境的各类信息,为后续决策提供所需的数据支持。该部分的准确性和敏感度会直接影响到后续的处理。常见的感知模块一般可以使用如下方式:

文本感知:NLP模型(BERT/GPT)

图像感知:CV模型(YOLO/ResNet)

语音感知:ASR系统


▍二、认知引擎

负责记录相关故障处置的上下文信息及对应处置经验。按照信息存活时间及相关信息的固化特征可以分为:

短期记忆:对话上下文管理(LSTM/Transformer)

长期记忆:一般使用知识图谱、向量数据库

在构建对应的认知记忆过程需要遵循严格的标准,比如在AI智能体在处理Prometheus告警时,需要考虑如下的因素:

历史性:异常指标是否在相同周期内出现

全局性:异常指标在集群架构下影响力

价值性:何种严重程度需要提示为告警,把小李从床上拉起来

基础信息:持续时间、严重程度

关联关系:服务组来源信息


同时对于告警的处置结果执行方式也分为三个星级:

一星告警:"嗯。"(记录日志完事)

二星告警:"嗯?"(发个Slack消息)

三星告警:"啊!"(打电话+发短信+在办公室拉防空警报)


▍三、决策中心

该模块通过综合考虑各种因素,运用逻辑推理和概率统计等方法,做出最优决策。在大模型逐渐成熟的当下,该部分主要由各大模型来扮演,如DeepSeek、GPT等,相关介绍材料很多,在此不再赘述。


▍四、执行模块

依据决策中心提供的处理意见完成对应处理工作,设计的核心是完成与相关业务系统的交互与联动,通常可以通过如下方式完成:

API调用:OpenAPI规范封装

RPA操作:Playwright/Airflow集成

执行模块是最终呈现处置的关键部分,最终来衡量AI智能体在过程中非人工介入程度,与工具的对接的丰富度及耦合度决定了执行的准确性。


▍五、反馈系统

实现系统的持续自我优化,通过计算关键指标(如任务完成率、耗时)来进行效果评估。常见的模型更新:

在线学习:Bandit算法实时调整策略

离线训练:每周全量数据retraining


终章 “不看广告,看疗效”

▍第一回合:CPU使用率告警

Prometheus:"报!CPU冲到95%了!"

AI:"淡定,这是每日报表生成时间,你家CPU在996呢"

结果:标记为"预期波动",Slack发个已处理消息


▍第二回合:磁盘空间不足

Prometheus:"急急急!/var只剩5%了!"

AI:"(查看历史记录)发现这个分区每周三都会这样...等等,日志轮转脚本又睡懒觉了?"

结果:自动触发日志清理脚本,并在Jira创建工单:"日志轮转脚本又双叒叕偷懒了"


▍第三回合:数据库连接池耗尽

Prometheus:"药丸!连接池100%了!"

AI:"(0.1秒内扫描全链路)前端流量激增→促销活动忘了限流→这不是故障,这是KPI在发光啊!"

结果:自动扩容数据库实例+@市场部:"亲,下次搞活动记得提前说哦~"


写在最后:AI不是终点,而是起点

记住:

再智能的AI也干不过写bug的程序员

再精准的过滤也挡不住老板的突发奇想

最好的监控系统也永远有一个会骂“这什么破AI”的幕后运维小李


在完成该文章的过程中,消耗了作者4杯咖啡和12次对Prometheus的告警的亲切问候。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11373

    浏览量

    226412
  • AI
    AI
    +关注

    关注

    91

    文章

    41988

    浏览量

    303085
  • 智能体
    +关注

    关注

    1

    文章

    618

    浏览量

    11656
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Type-C浪潮席卷小家电:SINK芯片如何成为快充高压的"心脏"

    DC接口,但需搭配PDSINK芯片实现电压适配。这类芯片能识别快充协议、请求目标电压并确保安全供电,使各类小家电兼容USB-C快充。升级方案可降低15%成本,实现"一充多用&
    的头像 发表于 05-25 08:58 157次阅读
    Type-C浪潮席卷小家电:SINK芯片如何成为快充高压的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;心脏&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    AR-1106 技术深探:打破声源定位 &amp;quot;不可能三角&amp;quot; 的工程化创新 摘要

    声源定位技术作为人机交互的核心感知能力,长期以来陷入 **&amp;quot;高精度 - 低成本 - 易开发&amp;quot;** 的不可能三角困境。高端多麦阵列方案精度高但成本昂贵
    的头像 发表于 05-23 10:25 21次阅读

    亚马逊正在公司内部大规模部署其自研AI产品&amp;quot;MeshClaw&amp;quot;

    近日,亚马逊(Amazon.com)正在公司内部大规模部署其自研AI产品&quot;MeshClaw&quot;,允许员工创建能够接入办公软件、代替用户执行任务的AI
    的头像 发表于 05-15 10:25 1855次阅读

    IBM发布&amp;quot;AI运营模式&amp;quot;蓝图

    四大核心产品——新一代多智能编排工具IBM watsonx Orchestrate、实时数据流平台IBM Confluent、AI驱动智能
    的头像 发表于 05-12 09:50 629次阅读

    国产化替代新选择!视美泰开源鸿蒙版AI主机盒助力企业迈向&amp;amp;quot;纯国产&amp;amp;quot;

    近年来,受国际形势影响,国产化替代成为各行业信息化建设的关键词。越来越多的企业开始关注:❌核心芯片是否&quot;卡脖子&quot;?❌操作系统是否自主可控?❌数据安全能否得到保障?在边缘计算、AI
    的头像 发表于 05-11 15:37 1971次阅读
    国产化替代新选择!视美泰开源鸿蒙版<b class='flag-5'>AI</b>主机盒助力企业迈向&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;纯国产&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    从&amp;amp;quot;替代人力&amp;amp;quot;到&amp;amp;quot;智能协同&amp;amp;quot;:履带式巡检机器人的产业跃迁

    2026年的工业智能化转型浪潮中,一个显著的趋势正在形成——工业巡检机器人正从单纯的&quot;人力替代工具&quot;升级为具备感知、决策与协同能力的&quot;
    的头像 发表于 02-05 10:42 529次阅读

    选EtherCAT模块,别只看价格,先看&amp;amp;quot;体检报告&amp;amp;quot;

    ±8kV静电、±2kV浪涌、-42℃极寒、1500V高压—这不是极限运动,而是DPort-ECT模块的出厂&quot;必修课&quot;。本文详解工业级EtherCAT从站如何通过严苛测试关
    的头像 发表于 02-04 11:46 618次阅读
    选EtherCAT模块,别只看价格,先看&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;体检报告&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    ZM82:一颗国产模组,如何让传统路灯变&amp;amp;quot;聪明&amp;amp;quot;?

    架构,普遍面临能源利用率低、调控手段单一、故障响应滞后等痛点,环节更需投入大量人力巡检。在&quot;双碳&quot;战略与智慧城市建设的双重驱动下,构建高效、
    的头像 发表于 01-29 11:46 440次阅读
    ZM82:一颗国产模组,如何让传统路灯变&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;聪明&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;?

    L3试点落地,和芯星通如何成为车企突围的&amp;amp;quot;隐形守护者&amp;amp;quot;?

    当长安汽车与北汽极狐拿到中国首批L3级自动驾驶准入许可的那一刻,整个产业链等待多年的&quot;靴子&quot;终于落地。在这个责任主体从驾驶员转向车企的关键转折下,系统可靠性成为真正的&quot
    的头像 发表于 01-04 12:03 863次阅读
    L3试点落地,和芯星通如何成为车企突围的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;隐形守护者&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;?

    &amp;quot;Access violation&amp;quot; 错误,复位位置,重新打印

    &quot;Access violation&quot; 错误
    的头像 发表于 11-08 07:16 856次阅读

    光耦合器:电子世界的 &amp;quot;光桥梁&amp;quot;

    在现代电子设备的复杂电路中,信号的传输与隔离至关重要。就像城市交通中需要桥梁来跨越障碍、连接不同区域一样,电子电路里也需要一座 &quot;桥梁&quot; 来实现信号的安全、高效传输,同时避免
    的头像 发表于 08-22 16:58 1271次阅读

    地热发电环网柜局放监测设备:清洁能源电网的&amp;amp;quot;安全卫士&amp;amp;quot;

    的局部放电问题,直接影响系统供电稳定性。地热发电环网柜局放监测设备通过非接触式检测技术与智能算法结合,为清洁能源电网构筑起一道主动防御体系。技术原理:破解局部放电的&quot;电磁密码&quot;地热发电
    的头像 发表于 07-16 10:15 786次阅读
    地热发电环网柜局放监测设备:清洁能源电网的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;安全卫士&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    为什么GNSS/INS组合被誉为导航界的&amp;amp;quot;黄金搭档&amp;amp;quot;?

    在导航技术领域,GNSS(全球导航卫星系统)和INS(惯性导航系统)的结合,一直被业界誉为&quot;黄金搭档&quot;。它们优势互补,克服了单一系统的局限性,为高精度、高可靠性的导航提供了完美
    的头像 发表于 07-09 17:12 1274次阅读
    为什么GNSS/INS组合被誉为导航界的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;黄金搭档&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;?

    CFCF2025光连接大会——武汉昊衡科技OLI光纤微裂纹检测仪,守护光纤网络的&amp;amp;quot;安全卫士&amp;amp;quot;

    AI技术、5G通信、数据中心高速发展的今天,光纤网络如同通信系统的&quot;神经网络&quot;,承载着海量数据的传输重任。然而,光纤在铺设、
    的头像 发表于 06-11 17:29 1493次阅读
    CFCF2025光连接大会——武汉昊衡科技OLI光纤微裂纹检测仪,守护光纤网络的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;安全卫士&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    人形机器人为什么要定制? ——揭秘工业场景的&amp;quot;千面需求&amp;quot;

    核心洞察:标准化机器人难以破解工业场景的&quot;需求碎片化&quot;困局。富唯智能通过 &quot;五大模块柔性架构+零代码中枢&quot
    的头像 发表于 06-10 17:19 1655次阅读
    人形机器人为什么要定制? ——揭秘工业场景的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;千面需求&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;