0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型如何助力AIOps以保证高可靠的服务?

vliwulianw 来源:软件质量报道 2023-07-03 09:22 次阅读

十多年来,微软提供了世界上最流行的超大规模生产力套件之一,Office 365,它现在是Microsoft 365的一部分。微软365包括数百种不同的服务,在全球数十个数据中心的数十万台服务器上每秒运行数十亿次事务。它为数以亿计的企业、教育和消费者用户提供日常云服务。

这些服务永远不会停止。我们的服务被医院和创伤中心、电网提供商、国家、州和地方政府、主要银行和金融服务提供商、航空公司、航运和物流提供商以及从最大到最小的企业所使用。为了满足他们的需求,我们必须持续可用,这意味着在很长一段时间内100%可用。我们的服务应该在灾难中无缝运行,因为灾难往往是我们的服务最重要的时候;协调应急工作。

这是一个巨大的挑战。我们的极端规模意味着,在我们的服务中,“十亿分之一”的事件并不罕见,而是司空见惯。同时,我们不能允许那些“十亿分之一”的事件损害我们服务的可用性。这种几乎令人难以置信的大规模和极端临界的组合要求我们不断地重新思考和改进服务架构、设计、开发和运营的各个方面。实现持续可用性和高可靠性服务的一个重要方面是全面理解事件并减轻它们对客户的影响。

除了使用人工智能(AI)和机器学习(ML)来开发新的生产特性和功能,以取悦我们的用户,我们还利用人工智能和机器学习的力量来提高服务的可用性和可靠性,这对我们的超大规模服务至关重要。本文展示了将AI应用于管理生产事件生命周期的一个示例。我们计划在以后的文章中分享更多示例。

——Jim Kleewein, Microsoft 365技术科学家

1. 介绍

微软365(“M365”)是世界上最大的生产力云。成千上万的各种规模的组织都在使用它。无论您是在召开团队会议,在Outlook中编写电子邮件还是与同事协作处理Word文档,您都可以依靠M365来支持这些生产力工具和应用程序。M365由网络规模和大规模分布式云服务提供支持,由全球几十个数据中心、每个中心数十万台服务器处理艾字节(exabytes)量级的数据。

为了确保一流的生产力体验,我们的工程基础设施在高效的同时高度可靠是至关重要的。 在M365系统创新研究小组,我们利用人工智能(AI)的力量,将云智能和AIOps集成到我们的服务和产品中。我们正在使用创新的AI/ML技术和算法来帮助设计、构建和运营复杂的云基础设施和服务,并在运营效率和可靠性方面提供逐步改进的功能,使我们能够提供一流的生产力体验。我们正在将AIOps应用于以下几个领域:

系统AI使智能成为一种内置能力,在较少人为干预的情况下实现高质量、高效率、自我控制和自适应。

客户利用AI/ML创造无与伦比的用户体验,并通过云服务实现卓越的用户满意度。

AI for DevOps将AI/ML注入到整个软件开发生命周期中,以实现高开发人员生产力。

帮助构建高度可靠的云服务一直是我们关注的重点领域之一。其中一个挑战是快速识别、分析和缓解事件。我们的研究从生产事件的基础开始:我们分析事件的生命周期,了解常见的根本原因、缓解措施和解决方案的工程效益。

2. 了解生产事故

9255f5cc-1933-11ee-962d-dac502259ad0.jpg

图1 大规模云服务中服务可靠性问题概述 我们的获奖论文[1]对Microsoft Teams使用的大规模M365云上的生产事件进行了全面的多维实证研究。由于Microsoft-Teams支持实时通信,因此可靠性至关重要。从检测、根因和缓解的角度理解生产事件,是构建更好的监控和自动化工具的第一步。图1显示了大规模云服务的服务可靠性问题概述,来源于我们研究论文[1]的总结。

1) 事件背后的常见根本原因和缓解措施

928b53ca-1933-11ee-962d-dac502259ad0.jpg

图2 根本原因分析(RCA)和风险缓解类别的细分 虽然代码错误是最常见的事件原因,但大多数事件(约60%)是由基础设施、部署和服务依赖关系中的非代码/非配置相关问题引起的。我们还观察到,在由代码/配置错误引起的40%的事件中,近80%的事件在没有代码或配置修复的情况下得到了缓解。

2)TTD和TTM的根本原因和缓解措施

92a5004a-1933-11ee-962d-dac502259ad0.jpg

图3 不同根本原因类别的平均TTD和TTM

92c49f5e-1933-11ee-962d-dac502259ad0.jpg

图4 不同缓解步骤的平均TTD和TTM 由代码错误和依赖失败引起的事件的TTD和TTM明显高于其他事件。此外,30%的缓解延迟是由手动缓解步骤造成的。 3)小结

由于监控不力,软件bug和外部依赖导致的事件检测时间较长。这凸显了对实用工具的需求,以实现细粒度、原位系统可观测性。

某些根本原因类别导致的事件在确定其根本原因类别后会迅速缓解。这表明,使用能够快速识别其根本原因类别的工具,可以缩短由这些类别引起的事件的总体缓解时间。

由某些根本原因引起的事件本身就难以自动监控(例如,需要监控全局状态)。这表明开发人员应该在测试中投入更多,以便在生产前发现这些根本原因类别,从而避免此类事件。

我们还设想,自动化将在未来用于进行事件诊断并确定根本原因和缓解步骤,以帮助快速解决事件并最大限度地减少客户影响。此外,我们应该利用过去的经验教训,建立应对未来事件的韧性。我们假设采用AIOps和使用最先进的ML模型,如大型语言模型(LLM)可以帮助实现这两个目标。

3. 使用LLM进行自动事件管理

最近人工智能的突破使大语言模型(LLM)对自然语言有了丰富的理解。他们已经变得善于从大量数据中理解和推理。它们还可以泛化各种任务和领域,如代码生成、翻译、问答等。考虑到事件管理的复杂性,我们有动力评估这些LLM在帮助分析根本原因和减轻生产事件方面的有效性。

92dcc80e-1933-11ee-962d-dac502259ad0.jpg

图5 根因分析和风险缓解中充分利用GPT-3.X的能力 在最近的工作中,我们在ICSE 2023会议上首次展示了LLM对生产事故诊断的有用性。当创建一个事件时,作者将为事件指定一个标题,并描述任何相关细节,如任何错误消息、异常行为和其他可能有助于解决的细节。我们使用给定事件的标题和摘要作为LLM的输入,并生成根本原因和缓解步骤。

我们对4万多起事件进行了认真的研究,并比较了几家LLM在零样本(zero-shot)、微调(fine-tuning)和多任务设置下的表现。我们发现,对GPT-3和GPT-3.5模型进行微调后,可以显著提高LLM 处理事件数据的有效性。

1)在根因分析中GPT-3.x模型的有效性

表1 不同LLM的词汇和语义性能

93000fda-1933-11ee-962d-dac502259ad0.png

在离线评估中,我们通过计算生成的建议与事件管理(IcM)系统中提到的根本原因或缓解步骤的基本事实之间的3个词汇相似性进行度量,将GPT-3.5与三个GPT-3模型的性能进行了比较。不同任务的GPT-3.5指标的平均增益如下:

对于根本原因和缓解建议任务,davincici-002 (GPT-3.5)比所有GPT-3模型分别提供至少15.38%和11.9%的增益,如表1所示。

当我们通过将根本原因作为输入添加到模型中来生成缓解计划时,GPT-3.5模型比3个GPT-3模型至少高出11.16%。

我们观察到,由于MRI(Machine Reported Incidents,机器报告的事件)的重复性,LLM模型在MRI上比客户报告的事件(Customer Reported Incidents,CRIs)上表现更好。

使用事件数据对LLM进行微调可以显著提高性能。优化后的GPT-3.5模型在根本原因生成任务中提高了45.5%,在风险缓解生成任务中提高了131.3%(即直接在预训练的GPT-3或GPT-3.5模型上进行推理)。

2)从事件所有者的角度看问题

除了使用语义和词汇度量进行分析分析外,我们还采访了事件所有者,以评估生成的建议的有效性。总体而言,GPT-3.5在大多数指标上都优于GPT-3。在实时生产环境中,超过70%的OCEs给出了3分或以上的评分(满分5分)。

4. 展望

虽然我们正处于使用LLM来帮助自动化事件解决的初始阶段,但我们设想在这个领域有许多开放的研究问题,这些问题将大大提高LLM的有效性和准确性。例如,我们如何结合关于事件的其他上下文,如讨论条目、日志、服务度量,甚至受影响服务的依赖关系图,以改进诊断。

另一个挑战是数据过时(staleness),因为模型需要经常使用最新的事件数据进行重新训练。

为了解决这些挑战,我们正在利用最新的ChatGPT模型结合检索增强方法,通过会话界面改进事件诊断。例如,ChatGPT可以通过提出假设,并通过反馈循环回答关键问题,帮助工程师有效地确定事件的根本原因

9342990e-1933-11ee-962d-dac502259ad0.jpg

图6 检索增强RCA的工作流程


此外,ChatGPT可以积极地融入到事件诊断的“讨论”中。通过从可用的文档和日志中收集证据,该模型可以对查询生成连贯的、上下文相关的、听起来自然的响应,并提供相应的建议,从而促进讨论,并加速事件解决过程。我们相信,通过上下文和有意义的根本原因分析和风险缓解,这有可能在整个事件管理过程中实现逐步功能改进,从而减少大量人力劳动,提高我们的可靠性和客户满意度。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43913

    浏览量

    230649
  • 机器学习
    +关注

    关注

    66

    文章

    8136

    浏览量

    130581
  • ChatGPT
    +关注

    关注

    27

    文章

    1411

    浏览量

    4784

原文标题:大模型如何助力AIOps以保证高可靠的服务?

文章出处:【微信号:软件质量报道,微信公众号:软件质量报道】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    保证负压密封检漏仪的精度和可靠性的方法

    负压密封检漏仪是一种广泛应用于包装检测领域的仪器,用于检测包装的密封性能。为了保证检漏仪的精度和可靠性,需要采取一系列措施。一、选择高精度传感器负压密封检漏仪的核心部件是传感器,传感器的精度决定
    的头像 发表于 01-24 11:36 167次阅读
    <b class='flag-5'>保证</b>负压密封检漏仪的精度和<b class='flag-5'>可靠</b>性的方法

    助力电子产业高质量发展,华秋电子设计与制造技术研讨会成功举办

    加工及尺寸等方面,保证PCB板可靠性。 钻孔这一环节为例,其作用是实现板子的层与层之间的导通。不同类型的孔加工有不同的方式,如何保证孔符
    发表于 11-24 16:50

    如何保证电源适配器性能稳定可靠

    如何保证电源适配器性能稳定可靠? 电源适配器的性能稳定可靠对于设备的正常运行至关重要。以下是一些保证电源适配器性能稳定可靠的方法和措施。 首
    的头像 发表于 11-23 16:03 311次阅读

    打造智能化运维极致体验 软通动力AIOps体系亮相GOPS全球运维大会

    最佳实践及解决方案专场”,发表《数智化时代软通动力AIOps体系最佳实践与探索》主题演讲。 随着信息技术、数字技术的快速发展,以及企业IT系统和服务的复杂性不断提高,传统的IT运维已经难以满足当前需要
    的头像 发表于 10-28 16:10 297次阅读

    HarmonyOS/OpenHarmony原生应用开发-华为Serverless服务支持情况(四)

    。借助云存储服务,您可以无需关心存储服务器的开发、部署、运维、扩容等事务,大大降低了应用使用存储的门槛,让您可以专注于应用的业务能力构建,助力您的商业成功。 是支持HarmonyOS
    发表于 10-16 14:20

    电子元器件测试软件助力可靠性测试,保证器件性能和质量

    电子元器件可靠性测试是保证元器件性能和质量的一个重要测试项目,同时也是电子设备可靠性的基础。常见的可靠性测试项目有机械冲击测试、高温存储测试、温度循坏测试、引线键合强度测试等。
    的头像 发表于 10-11 14:49 386次阅读
    电子元器件测试软件<b class='flag-5'>助力</b><b class='flag-5'>可靠</b>性测试,<b class='flag-5'>保证</b>器件性能和质量

    HarmonyOS/OpenHarmony原生应用开发-华为Serverless云端服务支持说明(一)

    、华为Serverless服务框架 提供了多种云端服务: 认证服务助力应用快速构建安全可靠的用户认证系统。 云函数:提供Serverle
    发表于 10-08 10:22

    华秋与共熵服务中心缔结战略合作伙伴关系

    平台“电子发烧友网”、卓越物联网方案设计团队“华秋方案”、可制造性设计分析软件“华秋DFM”、可靠多层板制造平台“华秋PCB”、电子元器件电商“华秋商城”、BOM一键配单/SMT/PCBA服务的“华秋
    发表于 09-28 14:56

    深圳华秋电子有限公司与共熵服务中心缔结战略合作伙伴关系

    平台“电子发烧友网”、卓越物联网方案设计团队“华秋方案”、可制造性设计分析软件“华秋DFM”、可靠多层板制造平台“华秋PCB”、电子元器件电商“华秋商城”、BOM一键配单/SMT/PCBA服务的“华秋
    发表于 09-28 14:53

    如何测试带服务接口的Simulink模型

    在Matlab 2022a之后引入了Service Interface的建模元素,这让Simulink模型拥有了向外部其他模型提供函数的能力,也为服务接口建模语义打下基础。
    的头像 发表于 07-22 09:51 748次阅读
    如何测试带<b class='flag-5'>服务</b>接口的Simulink<b class='flag-5'>模型</b>?

    华秋亮相汽车电子研讨会,展出可靠PCB板

    产业链一站式服务,华秋电子致力于全面打通电子产业上、中、下游,形成电子产业链闭环生态,给行业带来“高品质,短交期,高性价比”的一站式服务平台,为中国电子信息产业创新与发展提供助力。未来,华秋电子将持续提升产品的高
    发表于 06-16 15:43

    华秋亮相汽车电子研讨会,展出智能座舱方案、可靠PCB板

    产业链一站式服务,华秋电子致力于全面打通电子产业上、中、下游,形成电子产业链闭环生态,给行业带来“高品质,短交期,高性价比”的一站式服务平台,为中国电子信息产业创新与发展提供助力。未来,华秋电子将持续提升产品的高
    发表于 06-16 15:10

    阻抗板是否可靠,华秋有话说

    从更优化的PCB设计去获取更多的系统裕量,抵抗加工误差,也可以提前预测生产成本。 阻抗板是否可靠,华秋有话说 PCB设计好后,验证方案是否可行,产品是否可靠,最终还是要生产出来才知
    发表于 05-26 11:46

    RISC-V如何保证权限模式程序及外设的安全性?

    RISC-V有机器模式、监管模式和用户模块,但无论在哪个模式下当TRAP发生时都会转到机器模式,是不是也就意味着在用户模式下进入中断服务程序也会拥有机器模式的权限,那我们如何保证权限模式程序及外设的安全性?
    发表于 05-26 08:11

    鸿蒙元服务万能卡片开发-stage模型和fa模型的卡片区别

    一、项目类型 Application: 应用开发 Atomic Service:原子化服务开发 这里选择Empty Ability模板创建项目。 二、Stage模型卡片开发 Api:9
    发表于 05-22 14:20