0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从人工到自动化到AIOps再到ChatOps:大模型在运维领域的应用

京东云 来源:jf_75140285 作者:jf_75140285 2024-07-01 18:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一、引言

在信息技术飞速发展的今天,运维工作已经从最初的人工操作,逐步演变为自动化、AIOps(人工智能运维)和ChatOps(通过聊天的方式去运维)。这些变革不仅提升了运维效率,还显著保障了系统的稳定性。特别是借助大模型,运维同学能够更加高效地完成工作,并应对复杂的运维挑战。本文将依次介绍这些概念,并探讨大模型在运维领域的具体应用。

二、运维的演变历程

1. 人工运维

- 概念:人工运维是指通过人工手动执行各种运维任务,如服务器配置、日志分析、故障排除等。

- 挑战:人工操作容易出错,效率低下,且无法快速响应突发事件。

2. 自动化运维

- 概念:自动化运维通过编写脚本和使用工具来自动执行运维任务,减少人工干预。

- 优势:提高效率,减少人为错误,能够快速重复执行任务。

- 工具:Ansible、Puppet、Chef等。

3. AIOps(智能运维)

- 概念:AIOps利用机器学习和大数据分析技术,自动检测、分析和解决运维问题。

- 优势:能够处理海量数据,提前预测故障,自动化决策和响应。

- 应用:异常检测、根因分析、自动化修复等。

4. ChatOps(通过聊天的方式去运维)

- 概念:ChatOps通过将运维工具集成到聊天平台(如咚咚、微信)中,让运维同学通过聊天界面执行运维任务。

- 优势:将运维自动化的能力通过聊天的方式提供给运维、开发等人员使用,使运维同学具有可以随时随地使用手机远程运维的能力。

三、大模型在运维领域的应用

大模型在运维领域的应用,能够进一步提升运维工作的智能化和自动化水平。以往,受限于自然语言处理(NLP)模型的限制,现有的机器学习模型在理解人类的问题和上下文方面存在较大挑战。这导致了当前的ChatOps应用主要依赖于预置的指令,通过设计好的NLP任务来完成一些运维工作。

借助大模型的强大自然语言理解能力,目前可以较好和方便地构建智能的运维应用。以下是几个结合大模型的运维场景,这些场景展示了大模型在提升运维工作智能化和自动化水平方面的潜力。

1. 运维智能助手

- 问题:因为当前的机器人不够智能,运维同学需要24小时在线协助研发同学解决使用内部工具遇到的问题。

- 解决方案:可以基于大模型构建RAG应用,使用运维同学沉淀的运维知识库和热门问题,使研发同学能自助的、快速的解决大部分问题。

wKgZomaCfimAFRcpAAVPmN3je4I668.png



2. 自动化问题诊断与修复

- 问题:传统问题诊断需要人工介入,耗时且易出错。

- 解决方案:大模型能够自动诊断系统问题,并提供修复建议或自动执行修复操作。

wKgaomaCfimASv0BAAaJjVrSK0c931.png



3. 智能日志分析

- 问题:传统日志分析需要手动筛选和分析,效率低且容易遗漏关键信息。在AIOps产品中,我们已经构建了基于日志模版的智能日志分析,但在构建日志模版的过程中,还是依赖相关的运维专家经验去构建相关的运维模版。

- 解决方案:大模型本身是通用领域的专家,借助上面构建的RAG的私域运维知识和他的通用经验,基于大模型构建一个运维日志监控专家,24小时审查关键日志,通过他可以自动解析海量日志,识别异常模式,并生成易于理解的报告。

- 例子:在服务器日志中,大模型能够快速识别出潜在的安全威胁(如异常登录尝试),并提醒运维人员采取措施。

四、结论

稳定是运维部门的主要目标,但一台精密复杂的机器,难免在运行一段时间后出现故障,出现故障后,要求我们能依赖现有的监控、告警数据,通过AIOps平台或基于大模型的工具快速的,在这庞大复杂的系统中找到问题、定位问题并解决问题,这也是当前我们运维部门的目标1,5,15原则:1分钟发现故障,5分钟定位故障,15分钟解决故障。

从人工运维到自动化运维,再到AIOps和ChatOps,运维工作的智能化和自动化水平不断提升。借助大模型,运维同学能够更加高效地完成工作,保障系统的稳定性。通过智能日志分析、故障预测与预防、自动化问题诊断与修复,以及知识库与文档生成,大模型在运维领域展现出巨大的应用潜力。未来,随着大模型技术的不断发展,运维工作的智能化水平将进一步提升,为企业的信息系统保驾护航。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 运维
    +关注

    关注

    1

    文章

    287

    浏览量

    8724
  • AIOps
    +关注

    关注

    0

    文章

    9

    浏览量

    1406
  • 大模型
    +关注

    关注

    2

    文章

    3796

    浏览量

    5276
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Python AI 数字实战: Pandas 自动化 DeepSeek “星逻系统”开发,无密

    告别低效办公:Pandas自动化数据处理的技术内幕与思维升 在数字办公的洪流中,无数职场人正被困在“复制、粘贴、排序、筛选”的无限循环里。面对动辄数十万行、跨多张表格的庞杂数据,传统的
    发表于 04-30 13:43

    五个问题助您应对自动化系统设计中的挑战

    自动化控制系统广泛应用于各类工业领域的工厂自动化场景——从化工厂工厂生产线。
    的头像 发表于 03-12 10:49 541次阅读

    AIOps 智能:让 IT 运 “被动救火” “主动防御”

    、故障定位慢、业务中断损失大,成了运工程师的日常痛点。而AIOps(智能运)的出现,就像给IT系统装上了“智能大脑”,让运“被动救火
    的头像 发表于 02-12 14:09 1921次阅读
    <b class='flag-5'>AIOps</b> 智能<b class='flag-5'>化</b>运<b class='flag-5'>维</b>:让 IT 运<b class='flag-5'>维</b><b class='flag-5'>从</b> “被动救火” <b class='flag-5'>到</b> “主动防御”

    嵌入式软件单元测试中AI自动化人工检查的协同机制研究:基于专业工具的实证分析

    AI) 12,000 LOC 14周 8.2% 78% B AI自动化测试(无人工复核) 12,000 LOC 5周 ‌ 19.6% ‌ 41% C AI自动化+人工
    发表于 12-31 11:22

    从医疗领域自动化3D打印:TMC2130-LA有哪些优势

    TMC2130-LA-T驱动芯片有这些优势从医疗领域自动化3D打印更精密更安静更高效在需要精密、安静且高效运动控制的应用中,比如医疗设备和自动化3D打印机,电机驱动的选择至关重要
    的头像 发表于 12-10 17:43 513次阅读
    从医疗<b class='flag-5'>领域</b><b class='flag-5'>到</b><b class='flag-5'>自动化</b>3D打印:TMC2130-LA有哪些优势

    容器NPB + Ansible:自动化方案

    传统NPB设备手动配置效率低下。星融元NPB 2.0基于SONiC系统,支持通过Ansible实现自动化。通过编写Playbook可批量秒级下发配置至多台设备,将数小时操作转化为标准流程,实现零差错、可追溯的策略管理,极大
    的头像 发表于 12-08 12:00 1118次阅读
    容器<b class='flag-5'>化</b>NPB + Ansible:<b class='flag-5'>自动化</b>运<b class='flag-5'>维</b>方案

    自动驾驶模块One Model的进阶之路

    为具体的控制指令并执行。自动驾驶的工作逻辑已经非常清晰,但技术实现路径却一直在迭代,并沿着一条清晰的轨迹演进。专注“理解”的感知模型
    的头像 发表于 11-23 09:47 2378次阅读
    <b class='flag-5'>自动</b>驾驶<b class='flag-5'>从</b>模块<b class='flag-5'>化</b><b class='flag-5'>到</b>One Model的进阶之路

    “被动抢修”“主动预警”:安科瑞变电站综合自动化系统开启智慧运

    随着电力系统的快速发展和智能电网建设的不断推进,变电站作为电力网络的核心环节,其自动化水平直接影响整个电力系统的运行效率与可靠性。本文基于Acrel-1000安科瑞变电站综合自动化系统,深入分析了其
    的头像 发表于 11-13 09:38 607次阅读
    <b class='flag-5'>从</b>“被动抢修”<b class='flag-5'>到</b>“主动预警”:安科瑞变电站综合<b class='flag-5'>自动化</b>系统开启智慧运<b class='flag-5'>维</b>

    设计落地,音圈执行器如何适配你的自动化需求?​

    设计落地,音圈执行器如何适配你的自动化需求?​-速程精密 不少企业搞自动化升级时,都会遇到同一个困惑:“明明选了口碑不错的传动部件,怎么用起来总觉得‘水土不服’?” 其实问题往往出
    的头像 发表于 10-29 15:32 415次阅读

    智能巡检系统传统人工巡检智能的转变

    在数字和智能转型的背景下,智能巡检管理系统正成为企业运管理体系的核心组成部分。这一系统通过深度融合物联网、大数据、人工智能等先进技术,重新定义了设备巡检和维护的工作模式,实现了
    的头像 发表于 10-15 11:10 572次阅读

    一文读懂!工业自动化控制系统的5大核心组成,感知执行全解析

    在工业生产从 “人工操作” 向 “无人值守” 升级的过程中,工业自动化控制系统是实现这一转变的核心 —— 它能替代人工完成设备启停、参数调节、故障预警等一系列操作,保障生产高效、稳定、安全运行
    的头像 发表于 10-09 15:42 1890次阅读

    干货分享 | TSMaster MBD模块全解析:模型搭建自动化测试的完整实践

    在汽车电子MBD开发中,TSMasterMBD模块深度集成于TSMaster先进的总线分析、仿真与测试平台,旨在为工程师提供一套模型自动编译、代码集成
    的头像 发表于 08-22 20:04 2881次阅读
    干货分享 | TSMaster MBD模块全解析:<b class='flag-5'>从</b><b class='flag-5'>模型</b>搭建<b class='flag-5'>到</b><b class='flag-5'>自动化</b>测试的完整实践

    48 小时 4 小时:三逆向工程中自动化工具链如何重构扫描建模效率

    在三逆向工程领域,传统人工操作与非自动化工具的组合,使得扫描建模流程繁琐、耗时漫长,单个复杂项目甚至需 48 小时才能完成。随着自动化工具
    的头像 发表于 08-18 10:25 725次阅读
    <b class='flag-5'>从</b> 48 小时<b class='flag-5'>到</b> 4 小时:三<b class='flag-5'>维</b>逆向工程中<b class='flag-5'>自动化</b>工具链如何重构扫描建模效率

    为什么自动驾驶端端大模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,端端(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统自动驾驶系统中的模块
    的头像 发表于 07-04 16:50 1044次阅读
    为什么<b class='flag-5'>自动</b>驾驶端<b class='flag-5'>到</b>端大<b class='flag-5'>模型</b>有黑盒特性?

    “连接”“智控”!PROFIBUS DP转EtherCAT引爆煤矿自动化新风暴

    在煤矿井下作业中,自动化控制系统对于提升生产效率和保障安全生产至关重要。其中,通信技术的稳定与高效直接影响着整个系统的运行。PROFIBUS DP与EtherCAT作为两种常用的工业通信协议,在煤矿井下自动化
    的头像 发表于 06-20 14:27 592次阅读