北京2026年4月7日 /美通社/ -- 亚马逊云科技宣布Amazon DevOps Agent现已正式可用。Amazon DevOps Agent是用户全天候随时待命的智能运维助手。它可跨亚马逊云科技、多云及本地环境,快速排查故障、主动预防问题,优化应用可靠性与性能,并高效处理各类SRE任务。
运维团队常因繁琐排障、多工具数据比对、手动分类告警耗费大量时间,挤占创新与战略工作精力。Amazon DevOps Agent可像资深DevOps工程师那样排查问题。它能够学习用户的应用及其相互关系,与用户的可观测工具、运维手册、代码库和CI/CD管道协同工作,并关联所有这些工具中的遥测数据、代码和部署数据。Amazon DevOps Agent预览版数据显示,客户和合作伙伴的平均修复时间(MTTR)最多可降低75%,排查速度提高80%,根因定位准确率高达94%,故障解决速度提高3至5倍。
自预览版发布以来,众多行业客户已将Amazon DevOps Agent集成到其运维工作流程中。他们已将其与Amazon CloudWatch以及Datadog、Dynatrace、New Relic、Splunk、GitHub、GitLab、ServiceNow和Slack等合作伙伴工具连接起来。在此次正式版发布中,Amazon DevOps Agent又新增对Azure、Azure DevOps、PagerDuty、Grafana等集成的支持,后续将持续拓展集成能力。
Amazon DevOps Agent的工作原理
Amazon DevOps Agent代表了一种新型的前沿Agent——自主系统,它们能够独立完成目标,大规模扩展以处理并发任务,并且无需持续的人工干预即可持久运行。Amazon DevOps Agent与用户的运维团队紧密协作,覆盖故障从检测、排查、恢复到预防的全生命周期。
自主响应故障:Amazon DevOps Agent会在收到警报后立即开始调查,无论是在凌晨两点还是高峰时段。这可以缩短平均修复时间(MTTR),并快速将应用程序恢复到最佳性能。
主动预防事故:Amazon DevOps Agent帮助团队从被动应对突发故障转变为主动改进运营。它分析历史故障中的规律,提供针对性的建议,以预防后续故障发生,并提升流程和系统的弹性。
按需处理SRE运维任务:凭借对运行环境的深入了解,Amazon DevOps Agent不仅能通过提问查询,更能深入分析应用环境。用户还可创建、保存和共享自定义图表和报告。
正式版新增功能
Amazon DevOps Agent正式版发布吸取客户反馈,功能全面扩展,进一步提升了用户在多样化运维环境中的故障响应能力,使其更加灵活、智能且易于扩展。
新增更多使用场景
Azure支持:Amazon DevOps Agent现已扩展到亚马逊云科技环境之外,能够调查Azure工作负载中的故障,可跨多云部署关联数据,为运行在亚马逊云科技、Azure或混合环境中的应用提供统一的故障响应能力。
本地部署支持:Amazon DevOps Agent现在使用模型上下文协议(MCP),可对本地部署的应用进行故障排查。它能够通过分析指标、日志与代码发现本地资源,构建完整架构拓扑,实现跨亚马逊云科技、Azure及本地环境的统一故障响应。
按需执行SRE任务:通过对话式AI助手可使用自然语言查询应用架构、分析系统健康状况,覆盖亚马逊云科技、多云及本地环境。支持查询资源信息、系统指标、告警状态、部署历史和故障规律,即时获取关联分析结果,还能创建自定义图表和报告,保存并分享给团队成员。
分诊Agent:自动评估故障严重程度,识别重复工单。当检测到重复工单时,会将其标记为"已关联"并链接到主排查任务中。关联任务不会自动执行,帮助减少无效告警干扰,让团队集中精力处理核心故障。
智能能力升级
技能学习:Amazon DevOps Agent可学习企业的排查模式、工具使用习惯与系统架构,基于团队处理各类故障的方式沉淀专属能力,长期使用后能更高效解决企业特有的运维难题。
技能自定义:可添加适配自身系统的排查流程、最佳实践与内部运维知识,工作流一次创建即可在所有相关故障排查中自动复用。技能还可定向分配至不同类型Agent(按需查询、故障分诊、根因分析、故障缓解、效果评估),减少信息干扰,提升处理专注度。
代码索引:支持为应用代码仓库建立索引,可理解代码结构,在故障排查中识别潜在缺陷,并在缓解方案中提供代码级修复建议。
全新集成能力
在与现有Datadog、Dynatrace、New Relic、Splunk、GitHub Actions、GitLab CI/CD和ServiceNow等集成基础上,Amazon DevOps Agent正在添加以下集成功能:
PagerDuty:原生集成,用于由PagerDuty警报触发的自动故障响应。
Grafana:内置的Grafana MCP服务器可连接到任意Grafana实例,包括自建实例、Grafana Cloud实例和Amazon Managed Grafana实例。连接后,即可访问该实例下配置的所有数据源,如Prometheus、Loki、OpenSearch等,实现开源监控数据的采集与系统深度分析。
Azure DevOps:对接Azure Pipelines,可追踪Azure环境中的部署记录与代码变更。
Amazon EventBridge:排查相关事件可通过Amazon EventBridge获取,用于构建自定义自动化工作流程。
新增API:升级了对Amazon CLI、Amazon SDK和Amazon MCP Server的支持。
这些集成将使Amazon DevOps Agent能够无缝融入用户现有的运维工具体系。
企业级功能
区域扩展:Amazon DevOps Agent现已覆盖全球六个亚马逊云科技区域,包括北美地区的美国东部(弗吉尼亚)、美国西部(俄勒冈),欧洲地区的法兰克福、爱尔兰,以及亚太地区的悉尼和东京。全球部署让Agent更贴近业务运行环境。既满足数据驻留要求,又降低运维团队操作延迟。
私有MCP:可连接私有MCP服务器以对接更多工具。让Amazon DevOps Agent安全访问内部工具、数据和工作流程,基于企业真实环境给出更精准的分析并自主执行操作,机密数据不会通过公网传输。
安全能力:Amazon DevOps Agent支持客户托管密钥,并可通过Okta、Microsoft Entra ID等身份提供商直接登录操作员控制台。
本地化支持:Amazon DevOps Agent会根据浏览器语言设置自动适配,包括回复内容翻译。全球各地团队均可用偏好语言与之交互。
客户成功案例:首批客户已实现运维效率大幅提升
西部州长大学
西部州长大学(WGU)是一所知名的在线大学,在校生超19.1万人,也是首批将Amazon DevOps Agent投入生产环境的机构之一。作为Dynatrace深度用户,该校用Amazon DevOps Agent与Dynatrace的原生集成,实现Dynatrace故障工单自动转发排查,分析结果直接回传。在最近一次生产环境故障调查中,WGU的SRE团队借助Amazon DevOps Agent将预计2小时的修复时长缩短至28分钟,平均修复时间降低77%。该Agent快速定位Lambda函数配置问题,挖掘出未归档的关键运维信息。WGU计划启用Amazon DevOps Agent Skills功能,有望进一步压缩故障排查耗时。WGU技术运营总监Angel Marchena表示:"它直接找到了关键证据,确认是Amazon Lambda导致的问题。排查指标与前端观测情况高度吻合。此次排查对我们而言是重大胜利。若能持续加快问题定位效率,对企业的价值将难以估量。"
Zenchef
Zenchef是一家餐饮技术平台,它帮助餐厅通过一个免佣金的系统管理预订、餐桌运营、电子菜单、支付和顾客营销。其DevOps团队曾在公司黑客松活动期间,突发面向用户的线上问题,多数工程师正专注于活动,且监控系统未出现明确异常指向。团队仅将问题描述输入Amazon DevOps Agent,由其系统性排查,整个排查仅耗时20–30分钟,相较传统人工1–2小时的处理时长,效率提升约75%。分析结果可直接同步给对应工程师,实现无缝交接。Zenchef平台工程经理Theo Massard表示:"黑客松期间我们几乎无人手可用,而有了Amazon DevOps Agent后也无需额外投入。我们始终力求领先一步,但这类自主排查以往很难实现。Amazon DevOps Agent为我们提供了全新的平台运行状况分析方式。"
T-Mobile
T-Mobile US, Inc.是美国领先的无线运营商之一,为全美超过1.4亿用户提供移动语音、短信和数据服务。T-Mobile技术运营高级副总裁Aravind Manchireddy表示:"亚马逊云科技推出Amazon DevOps Agent之初,T-Mobile就参与其中。作为设计合作伙伴,我们亲眼见证了这款产品如何显著提升生产环境的根因分析效率。我们来自真实业务场景的反馈,也直接推动了产品功能的迭代优化。我们的基础设施覆盖多云和本地机房环境,应用日志统一集中在本地部署的Splunk中。在持续试点过程中,Amazon DevOps Agent能够与Splunk无缝集成,并跨这些复杂环境分析日志,这一点给我们带来了非常大的价值。"
Granola
Granola是一款基于AI的记事本工具,能自动完成录音转写和内容总结。Amazon DevOps Agent与Granola的AI故障管理工作流无缝集成,加快了根因定位速度,并缩短了故障平均恢复时间。Granola产品工程师Eddie Bruce表示:"我们已经把Amazon DevOps Agent直接接入故障响应流程,它会在收到高危CloudWatch告警时自动启动排查。Amazon DevOps Agent的数据库排查能力明显优于我们测试过的其他工具,尤其是在分析PostgreSQL日志、挖掘RDS性能问题方面表现突出。随着我们SRE能力不断扩展,Amazon DevOps Agent已经成为故障管理工具中可靠的组成部分。"
审核编辑 黄宇
-
亚马逊云科技
+关注
关注
0文章
115浏览量
481
发布评论请先 登录
易点天下选择亚马逊云科技 以Agentic AI驱动营销智能化升级
亚马逊云科技正式推出Amazon Security Agent按需渗透测试功能
亚马逊云科技Amazon S3重磅更新 引领企业云存储未来方向
亚马逊云科技推出全新前沿AI Agent,重塑软件开发团队协作边界
亚马逊云科技Amazon Bedrock AgentCore正式可用,引领Agent走向全面落地
亚马逊云科技推出Amazon Quick Suite,引领Agentic AI驱动的工作新范式
亚马逊云科技在中国区域推出Amazon Graviton4实例 以自研芯片驱动企业算力升级
亚马逊云科技推出Amazon DocumentDB Serverless,简化数据库管理并大幅节省成本
亚马逊云科技推出Amazon Nova Act SDK预览版,加速浏览器自动化Agent落地
Oracle Database@Amazon Web Services现已正式可用
亚马逊云科技在2025纽约峰会发布多项AI agent创新
亚马逊功能最强模型Amazon Nova Premier现已正式可用
亚马逊云科技Amazon DevOps Agent智能运维助手正式可用
评论