张飞软硬开源基于STM32 BLDC直流无刷电机驱动器开发视频套件,👉戳此立抢👈

中国移动智能运维系统的探索

网优雇佣军 2018-12-04 13:50 次阅读

1、BAIOPS-业务智能运维

智能运维(AIOps-Algorithmic IT Operations基于算法的IT运维)是人工智能技术在IT运维领域的运用,引用Gartner 的报告的一段话“到2020年,将近50%的企业将会在他们的业务和IT运维方面采用AIOps,远远高于今天的10%”,最近2-3年智能运维的概念随处可见,各大互联网公司、传统IT公司、金融业等都在谈他们的智能运维设想,同时也有人谈AI色变,觉得人工智能只是一个愿景,要落地很难。其实AI已经不是一个新的概念了,百度、微软、谷歌等公司早就在10几年前开始自己的人工智能布局了,到现在均已成为人工智能行业的领跑者了。

中国移动智能运维系统的探索

话不多说,人工智能那么强大,应用场景十分的广泛,当然也包括运维领域,而且面向业务的运维更是运维发展的热点趋势,下面我就和大家就“面向业务的智能运维体系建设的探索与实践”这个话题发表下我的个人见解。

2、传统运维-痛之又痛

传统的运维中,存在着诸多痛点:

(1)被动低效的运维难以保证业务连续性

运维人员往往扮演着事后“救火”的角色,待事故发生后才去处理;

数据分散在多处,出了故障无法快速修复,业务连续性难以有效保障;

随着业务复杂性不断提高,人工运维的成本呈指数级增长。

(2)缺乏统一的运维监控体系和技术工具

针对不同运维实体的烟囱式的运维工具,功能重叠、难以整合;

运维的自动化程度偏低,运维脚本泛滥,层次化、模块化程度不足;

监控、运维、告警平台林立,各成体系,缺乏统一化体系。

(3)海量的运维数据的价值无法充分挖掘

传统运维系统收集了大量的运维数据,但是却缺乏有效的手段加以分析和利用;

运维数据的利用仅限于简单的可视化和浅度的分析上,缺乏纵向数据的关联挖掘,无法快速定位故障根因;

固定式的阈值告警造成了大量的误判和漏判,而且人工调整阈值的方式也比较费时费力。

(4)缺乏全方位端到端的运维监控手段

大部分的运维监控仅停留在针对主机、网络的层面,忽略了业务层面的识别手段,故障的发生无法从最直接的业务层面得以发现,产生预警;

性能管理大多停留在服务单应用性能的管理和分析上,无法提供端到端的掌控。

中国移动智能运维系统的探索

3、业务智能运维的切入点

针对上述这些传统运维中存在的痛点,智能化的运维出现必定具有划时代的意义,智能运维系统的设计可以从如下几方面进行展开思考:

(1)面向业务维度实现异常检测

业务运维是运维的大趋势,需从最复杂的业务维度入手,根据业务维度的指标(如PV、响应时间、错误率、GC等)上的异动进行异常检测,提前预警;

(2)提供业务全局关系视图

业务应用维度的复杂性是运维过程中最高的,往往是二线和三线运维之间界限最模糊的区域,所以智能运维可以先解决的就是向用户提供全面、清晰的业务关系视图,让运维人员对业务应用的掌控得心应手;

(3)KPI可视化与下钻定位

KPI指标可以通过丰富的可视化手段展示给运维人员,业务系统的故障可以清晰的体现在可视化终端,同时支持详细的下钻手段,直至定位到发生故障的环节,甚至代码段;

(4)采用动态阈值思想的异常检测

避免传统固定阈值告警的弊端,引入机器学习算法来进行阈值动态化的异常检测效果;

(5)重视故障的全流程管理

故障发生时,可以提供一定的手段将业务层面的KPI异常与引起故障的原因联系起来,支持手动下钻之余还可以自动定位和关联;

(6)立体化监控体系的建设

覆盖从资源、平台层、应用监控和微服务调用链的立体化的运维分析能力。

中国移动智能运维系统的探索

4、业务智能运维体系架构

4.1 智能运维核心要素

智能运维体系架构的建设应该考虑如下因素:

数据

我们要搭建智能运维平台,首先要数据驱动,数据驱动下要做好以下几件事:

海量数据存储:运维数据的量级是亿级、TB甚至PB级别的,所以存储系统一定要具备高容量和扩展性;

数据多样化:运维过程产生的数据多种多样,如应用产生的性能数据,服务器基础监控产生的CPU/IO/Net数据,服务间调用链数据、日志数据等,那么需要针对不同类型数据进行区别化的存储结构的设计,保证数据存储的扩展性,同时建立数据之间的关联支点;

中国移动智能运维系统的探索

分析能力

分析能力是智能运维平台的核心,可以应用大数据+机器学习的分析能力,结合成熟的开源分析算法实现基本的数据分析,再结合具体的应用场景,做出一些适应性改造或匹配来实现相对较好的分析效果,千万不要只想着做出来一个分析平台来,这个平台做出来不是难事,关键在于这个平台在运维领域没有实际意义。

运用起历史数据的价值,且可以有效识别出数据的各维度的规律,如周期性、趋势等,而且分析能力必须结合应用场景,判别相对适合的算法模型来训练数据,方能保证预期的设想。

分析能力可以随着时间的推移不断的演进,可以将新数据的特性带入到模型中来,以不断提高算法的准确度。

中国移动智能运维系统的探索

4.2 智能运维体系架构

一个通用化的业务智能运维的体系架构一般如下设计:

中国移动智能运维系统的探索

在上述的架构设计中:

(1)用户层:

面向业务的智能运维面向的用户,不光光是面向于传统的运维人员,此外,业务监控人员、业务部门主管、客服人员都可以在系统上找到自己所需要的数据、看到自己所想看到的东西;

(2)视图层:

提供WEB端丰富的可视化视图、大屏方式的业务状态视图、以及满足移动办公需求的手机端APP;

(3)服务层:

业务智能运维将提供给用户业务视图服务、拓扑服务、性能KPI服务、运维分析服务、告警服务、报表服务以及系统服务等,为用户提供丰富的监控、分析和告警视图功能。

(4)核心能力层:

智能运维系统的最关键部分,可以分为三个较大的模块“智能监控”、“智能分析”和“智能告警”。

中国移动智能运维系统的探索

智能监控:

实现针对各个层面的监控覆盖,包括用户体验的监控、应用性能的监控、中间件监控、基础设施的监控,只有收集了全面的数据,才有可能从数据中寻找关联,从关联中发现规律,丰富运维知识库。

智能分析:

智能分析为整个核心能力层中最核心的部分,该部分应该涵盖离线算法的训练模块和在线实时分析模块

离线算法训练模块要根据历史数据来以离线的方式训练和修正算法模型,然后生成的算法模型就类似于一个个的[if else]判断形成的规则组合,当最新的数据输入到算法模型,就可以实时的给出推测,用于预测、异常检测、故障定位等场景,这里面当然就需要机器学习和深度学习的算法来撑场面了。

在线实时分析模块要实现实时的算法分析,并不依赖于历史数据所训练出的离线模型,而是进行实时的计算,这里则需要大数据的实时计算技术了。

智能告警:

智能告警需要可以有效的遏制“告警风暴”,这个可是告警系统中必须面对的问题,那么需要提供较高效的分析算法,实现告警的自动归类、自动消除,那么归类中最合适的方法就是寻找告警之间的关系关系,将相近的告警合并为一条发送,避免告警风暴。

智能告警还可以动态调整告警短信/邮件发送的频率和周期,还有告警通知对象的智能配置,保证运维人员处理告警的专注性,不会被突如其来的海量告警所淹没。

5、业务智能运维典型应用场景和关键设计

5.1 数据的采集

中国移动智能运维系统的探索

(1) 业务层数据的采集

包括接口响应时间、调用次数、服务间调用关系、时延、慢SQL、JVM内存消耗、以及线程栈信息,上述数据的采集可以参考Google Dappe的思想实现,其中一款较好的开源软件就是pinpoint。

pinpoint运用JavaAgent字节码增强技术实现应用服务端数据的采集,且无侵入式的设计,使用方便,无需更改业务代码。可以内置支持JAVA程序内几十种协议交互的兼容,如http、okhttp、mysql、oracle、postgresql、dbcp、cubrid、kafka、rabbitmq、springboot、log4j、logback、redis等。

Pinpoint的架构原理图如下:

中国移动智能运维系统的探索

采用hbase 实现海量数据的存储,通过部署在业务远端的agent通过UDP+thrift的方式将应用采集的数据传输到collector,经过处理后实现hbase的落存。Web UI实现监控的可视化。

中国移动智能运维系统的探索

上图是通过pinpoint进行链路追踪的原理图,可以简单的理解为在一次交易过程中,贯穿的整个分布式系统的各个环节内都维持着一个唯一的transactionid,且允许记录上下文环节的spanid,从而实现链路信息的洞悉。

且pinpoint允许开发者自定义开发插件,实现更多协议的监控支持,如activemq、zookeeper、consul等。

不过pinpoint的功能如此强大的同时,还需要我们做适当的优化,如:

Agent发送海量的udp数据到collector,很有可能遇到网络和collector的阻塞,那么,这个时候可以在agent和collector之间加一层kafka实现消息的缓冲,提升系统稳定性。

Pinpoint没有用户权限体系,需要我们自己实现。

可以通过参数自定义的方式来指定实际需要采集的指标项,避免agent多余的性能损耗,降低系统负载。

中国移动智能运维系统的探索

(2) 关联数据的采集

关联数据包括基设施数据和中间件数据。

首先,基础设施数据如服务器的性能状态的数据,包括CPU、磁盘、内存、IO、负载等维度各个参数的获取,您可能首先想到的是zabbix,那么zabbix确实功能强大,但是“杀鸡焉用牛刀”,上述CPU/磁盘/内存等几个参数就是我们随手敲行代码就可以搞定的事,只不过做成定时任务即可,所以我们不用zabbix,转向轻量化的开源手段,其实TICK数据采集框架您可能都听过,那么我们模仿TICK,通过TIG(Telegraf+influxdb+grafana)框架也可以轻松搞定了。

Telegraf是一种轻量级的采集框架,支持秒级别间歇的采集粒度,对服务器的资源占用很小(不到3%);

Influxdb是一种高性能的时序数据存储引擎,可支持百亿级别的时序数据的存储,而且内置强大的连续计算、API功能,你可以轻松的实现数据的汇聚和外部调用;

Grafana是一款基于JS的前端可视化引擎,支持丰富的dashboard组件,如图表、仪表盘、表格、清单等,你可以利用它轻松实现各种高大上的性能监控页面,另外grafana和influxdb的兼容性也异常的友好。

同样,常见的Paas和Daas层中间件,如nginx、apache、zookeeper、docker、mesos、ZFS、Elasticsearch、mysql、mongodb、postgresql、sql server、rethinkDB、influxdb、couchDB、redis、memcache、rabbitmq等的组件的监控也都可以通过TIG框架实现监控。

至此,我们已经可以实现应用层数据和其关联数据(Iaas层、Paas层)的集中采集和汇聚,那么有了数据,能做的事情简直太多了。

中国移动智能运维系统的探索

5.2 业务层面的精细划分

欲建立面向业务服务维度的监控体系,首先需要针对业务服务做出分层次的划分,即对业务监控对象的管理需要建立体系,智能运维产品的业务服务管理体系结构如下:

中国移动智能运维系统的探索

如上图中的②③④层,专注面向业务维度的监控的同时,更要对业务层面进行精细化分层,比较容易想到的办法就是建立系统、服务、实例三层的业务监控体系。

针对系统、服务、实例做一个概念的普及:

系统:完成某一类完整需求的系统体系,如OA系统,系统是一个比较抽象的概念,一般由一个或多个运维人员来管理

服务:系统的下一层模块,即完成系统内某一个完整的相对独立功能的模块,如个人信息管理服务、薪资管理服务、流程引擎服务等;一个服务一般部署为一个集群,包含多个应用实例(如tomcat)

实例:属于一个服务集群中的一个具体的应用实例,一般一个服务集群会部署多个实例到不同主机上,如薪资管理服务实例一、薪资管理服务实例二,实现负载均衡。

在这三个层次上进行性能的监控,实现了业务应用从上到下三层的数据关联,服务运维人员可以更深入的掌控系统业务的关联状况。

那么我们是否可以针对系统、服务、实例分别进行性能监控呢?如果发生故障,就可以寻根溯源,举例:如果一个服务层的指标(如服务整体平均响应时间发生偏高的异常),那么必定是由其下的一个或多个实例导致,现在我们去查看每个实例的性能信息,通过皮尔曼相关系数,发现性能曲线和服务性能曲线最近的实例,就是异常实例,进而可以针对该实例的Top N请求进行下钻分析就可以得到故障所对应的代码行,问题就可以解决了。

上面所建立的系统服务实例的关系,本身就是利用了业务应用运行时本身就存在的关系,那么为何不利用起来呢,到这里还没用到高大上的AI、机器学习呢。

5.3 故障可视化与故障重现

故障可视化

当发生故障时,可以在指标的运行图谱高亮显示该异常点,也是可视化工作中必须的,正如如下图:

中国移动智能运维系统的探索

上图内,系统识别到了“响应时间”的异常,当前时间点的异常指标为11ms,同时一个友好的智能运维系统会把该时刻系统其他方面的指标也展示出来,运维人员可以直观的看到不同曲线之间的关系,并且图中每一个坐标图的右上角都展示了该指标与异常指标之间的“相关系数”,并且按相关系数绝对值倒序排列,相关系数绝对值越接近于1,那么就越有可能是问题的直接或间接原因。

故障重现

另外当业务系统的一次请求发生了错误,如果我们可以提供手段将该次请求的过程进行一次重现,对于运维人员的排错支持也“将是极好的”。

中国移动智能运维系统的探索

如上图所示,可以对一次应用的请求进行回放,每一个环境执行了多长时间都可以一目了然。

5.4 异常检测

说到异常检测,应该是业务智能运维领域中的一个最常见的场景了,异常检测的方法很多,本篇中会重点的介绍一下我的见解:

(1) 传统的异常检测方法

传统模式下完全基于人的主观经验,也即基于固定阈值的异常判断,如 CPU usage高于80%就告警,这种方式适配性是很差的,需要针对不同的场景设定不同的阈值,甚至同一个业务不同时间段的阈值都是不一样的,大量个性化的配置要求,对于运维人员来说是十分崩溃的。

后来就出现了一定的改进,如3-sigma算法,是根据正态分布的概率,自动的调整告警阈值,是的,告警阈值的配置不用人工进行,一定程度上提高了运维效率。但是,该类的算法机器容易忽略指标的周期性和趋势性,造成误判的问题也很常见了。

中国移动智能运维系统的探索

(2) 基于统计学和机器学习的异常检测方法

总结前面的异常检测方法,可以概括为两点:人工运维工作量大、算法适配性低下。其实归结为一句话,就是动态阈值怎么评定的问题。

这个时候就比较适合引入机器学习了,比如基于指数的三次平滑算法、基于分解的傅里叶/小波分解算法等,可以有效的识别出指标的周期性、趋势性,可以快速识别出一些尖峰(spike)异常。

另外自回归移动平均模型(ARIMA算法),对于稳定的时序数据的异常检测是非常有效的,该算法也非常适合用作时序数据的预测场景。

还有基于深度学习的循环神经网络 RNN算法和长短期记忆网络LSTM算法,比较适合处理和预测时间序列中间隔和延迟相对较长的重要事件。

基于机器学习的众多算法,都可以大大的提高运维的效率,发现人工难以发现的问题,提高预警的及时性。

(3) 异常检测模型优化

上一小节提到的各类机器学习算法,虽然都功能强大,但是往往都有一定的局限性,那么我们在对具体的一个场景指标(如响应时间)做异常检测的时候,我们到底选哪个算法呢?

方法一:这个问题可以通过“自动模型选取”方式来解决,即采用多个算法同时运行,然后通过投票的方式抉择产生最终的结果。

举个例子,针对“响应时间”指标进行异常检测,采用同比、环比、ARIMA、LSTM、KNN、高斯共5个算法同时进行异常检测,当其中的一半(即》=3)的算法判定为异常时,方认为该时刻的指标是异常的。

方法二:在方法一的基础上为每个算法加入权重值,5种算法初始值均为20(总合为100),当一次异常的判断后,比如算法1/2/3都判定是异常,算法4/5都判定为非异常,那么最终结果为判定为异常,系统向运维人员发出告警,当运维人员在平台上通过指标横向对比、请求下钻、事件挖掘之后发现该时刻的指标确实为异常,那么运维人员会将这个告警处理掉,那么此时后台就会默认向投票正确的算法的权重倾斜,为其权重加1,同时为投票错误的算法权重扣分(但总分仍保持100分);而如果运维人员发现该告警是误报,则会在平台上反馈“误报”,则后台会向投票为非异常的算法权重倾斜,为每个算法权重加1,同时为投票为异常的算法权重扣分(但总分仍保持100分)。如此经过长时间的不断调整,算法组合就越来越接近于准确。

(4)答疑解惑

中国移动智能运维系统的探索

不过有朋友可能会遇到如下问题:

Q:如果我要检测的指标刚刚上线,我根本就没有离线的训练模型怎么办?

A:那就初始阶段不利用离线模型的算法,先使用ARIMA、同比、环比、KNN这类的算法跑起来,等待历史数据足够了生成离线模型之后,再以同等权重(取得和现有算法权重的平均值,再进行100分支均衡)的方式加入到算法集合中。

Q:我使用这么多的算法来进行异常检测,对于前端告警规则配置的时候来说,我该怎么去选择我去使用哪种智能的算法呢?

A:异常检测的目的就是要识别异常并发出告警,那么在告警规则出进行配置,选择智能化的方法来检测异常的思路是正确的,但是没有必要让普通的运维人员来看到我们所提供的众多算法,还有算法逻辑,对于他们来说我们只需要让他们选择诸如“智能告警”这样的选项就好了,后面的算法选择交给专业的“运维算法工程师”来搞定就好。

Q:有了“智能告警”之后,是不是固定阈值告警就不需要了呢?

A:并不是,智能告警解决的是无法直观、简单判定故障的场景,但是对于错误率、CPU利用率、磁盘剩余量这些基本场景时,还是可以使用阈值告警的,甚至做分级阈值告警(如一般告警、重要告警、严重告警等),这些基本的阈值告警发生后一般都是比较严重的情况,都是需要处理的;而且,这些告警信息汇聚起来,也可以作为业务层面异常故障定位的参考依据,因为很有可能这些固定阈值触发的告警就是业务层面故障发生的根因。

(5)算法训练和模型管理平台

好了,长篇大论了半天,我们似乎还忽视了一个关键的问题,那就是离线训练的模型是怎么来的,怎么用起来,怎么选算法,怎么调优,算法一定好用吗?

带着这一系列的问题,我们可以想象的到,一个离线算法训练和模型管理平台是十分必要的,这就是“运维算法工程师”所需要使用的平台了,这个平台至少要实现如下功能:

算法如何选择

算法的好坏可以评估

算法最好经过测试后才可上线

离线算法训练管理平台的设计可以参考如下模型:

中国移动智能运维系统的探索

离线算法训练管理平台架构简图

该平台可以获取需要检测的指标,展示过去一段(如一周或一天)时间的曲线;

特征分析器会根据预设的特征组合(事先定义好针对曲线可能的各种特征的识别判定方法库),提示出该指标的曲线对于各类特征(如上升趋势、周期性、随机性等)的支持度,支持度越高代表着该指标越具有什么特征;

然后算法推荐器会根据预设的特征-算法组合(事先定义好各种特征所适用何种算法的映射库),推荐出建议的算法集合(可1可多),当然也允许“运维算法工程师”在查看了第一步的曲线后,自定义选择算法库。

下一步就将通过前面算法推荐器推荐的算法或运维算法工程师自定义的算法组合进行模型的训练,将生成的临时模型保存起来;

然后,采用真实的线上数据来跑这个临时模型,会得到对应的告警;

当运行一段时间(如一周或一天)后,将临时模型发出的告警和线上模型产生的告警进行对比,去掉重复的部分,剩余部分通过运维工程师的标注和反馈,得到两个模型的误报率(当然也可以采用漏报率),若临时模型的误报率低于线上模型,则认为模型是有效的,可以进行发布环节,该临时模型替换线上模型,进入生产。

注:临时模型和线上模型的对比如果无法通过运维工程师的评估快速得到的情况下,也可以采用比较通用的算法评估方法来计算得出,不过最好的手段就是“利用运维工程师的判断”。

中国移动智能运维系统的探索

5.5 关联分析

关联分析一般会作用在故障定位和告警归集两个差劲

(1) 故障定位

基于关联关系的基础可视化辅助

在针对系统的异常进行有效的检测后,极大的缩小了故障的范围,如将故障缩小到了某几分钟内,然后将相关的其他指标曲线和故障曲线同时可视化展示,则可以辅助我们深入数据进行问题的定位:

理论依据:当某一个维度的指标发生异常时,那么相关的其他指标也极有可能一定程度上体现出正向或反向的波动,如果可以将多个疑似相关指标的曲线在一个图上展示,并提供格线比对功能,那么相比于传统的翻阅日志看log的情况,将会更快的定位到问题的原因。

中国移动智能运维系统的探索

落地场景:如上图所示,某服务器上某服务实例在10:00左右发生了响应时间严重变慢的情况,经过对相同服务器的各项指标分析,可知当时系统CPU占用在同一时刻上升,且内存的空闲率也大幅下降,但是实际的业务访问量并没有飙升,说明并非业务繁忙导致,疑似服务器硬件问题所致;同时在针对部署在服务器B上的相同实例的指标进行对比,发现各项指标并无明显波动,且和服务器B上正常指标类似,所以可以确定是因为服务器A的硬件问题导致,完成故障初步定界,继而再去排查服务器的相关指标,便可迅速定位问题。

基于多维度数据的异常诊断分析

理论依据:通过贡献度和一致度评判问题根源(如ERROR数量维度)

贡献度:即各维度异常数与总异常数的比例

一致度:即构成该维度的子维度的异常程度的相似度信息。

那么贡献度越高、子维度的异常相似度越高,则该维度为根因维度的可能性越大。

因此,可以将数据的各维度展开,分别计算各维度的贡献度、一致度两个特征,构建评估参数P=贡献度/一致度,该值越高,则该子维度为根因维度的可能性越大。

落地场景:当发现某服务(如充值服务)的错误率告警突然大幅增加时,传统运维人员往往无法快速定位,甚至问题的定界都需要大量的时间,如果运用智能运维产品,可以将该服务的所有6个实例上进行3个错误共6*3=18中维度上进行分析,利用上述理论中的评估参数列出排名前N的组合,迅速将问题范围大幅缩小,提高排查的效率。

中国移动智能运维系统的探索

可以定位到实例4的404错误是错误数的主要原因,可针对性进行排查

(2) 告警归集

基于关联挖掘的告警分析

采用机器学习算法实现告警的关联挖掘,进而实现告警前的合并优化,与告警后的数据分析,反哺合并策略。

理论依据:历史上每次某一个告警总是伴随着另外一个告警的出现,那么可以怀疑两类告警之间存在必然联系,甚至因果关系,所以可以考虑合并该两类告警,并积累在运维知识库内,随着历史数据的丰富,告警合并的准确性将不断提高。

落地场景:在历史数据上,A实例的策略R1和B实例的策略R2经常同时报警,那么A实例的策略R1和B实例的策略R2就极有可能存在关联,经过一定的置信评级,就可以合并在一起发送。

中国移动智能运维系统的探索

注:置信度是针对一条关联规则A告警-》B告警而言定义的,代表了A告警导致B告警发生的可能的概率

智能告警体系下充分利用从业务到主机的纵向数据关联,实现告警的聚合与收敛

理论依据:将运维对象划分为不同的层次

业务角度:服务/实例/告警类型

部署角度:机器/机房

同一角度同一层次同时刻的告警,很可能存在着一定联系,故而可将这些告警合并。

落地场景:话费查询服务的信息港机房内服务1的A实例在发生进程丢失告警,同时该服务在信息港机房的服务1的B实例上也发生了进程丢失告警。这两个告警属于同一个机房的同一个服务的同一个策略(进程监控策略)下的告警,且为同一层次,因而可以实现收敛。

中国移动智能运维系统的探索

小结

上述基于关联关系实现了故障辅助定位和告警的智能归集,其实还有很多落地的场景,如根据事件依赖关系构造动态事件概率模型图,如果有大量的历史数据做分析,就可以充分的识别出各类事件之间的因果关系,这些因果关系就是最宝贵的运维知识库。

5.6 负载均衡优化

同时,智能运维系统也将辅助软件负载策略的优化,通过针对集群的全面监控和分析,在负载层做出更新时,可以及时的发现集群整体的健康劣化的状况,及时发现负载策略变更导致的问题,并向负载层软件上报问题或针对负载策略优化的建议,以更加智能化的手段提高系统的高可用性和效率。

中国移动智能运维系统的探索

负载均衡优化模型

辅助负载优化常用场景包括:

相同负载下某主机的硬件指标告警,则可以考虑将其上应用转移到其他低负载主机上,或降低负载均衡器的分配权重,达到所有主机整体健康;

当发现某主机上应用响应变慢,并且将会发生故障时,负载均衡的tcp探查无法发现,运维系统可以实现事先预警,并定位事故原因(一般为硬件或负载均衡器分担错误问题),同时上报负载均衡器,事先负载重分等止损措施;

灰度发布过程中,可以通过智能运维产品监控新版本的性能情况,如可及早发现新版本应用性能较差或者存在错误警告,则可以及时上报灰度发布系统,及时止损,或触发自部署节点的回滚自愈操作。

5.7 日志分析

日志分析的作用,往往会体现在如下几个场景:

中国移动智能运维系统的探索

(1) 针对业务日志进行业务的多维分析

如通过CDN的日志,实现用户的行为画像,也可以实现故障分布的拓扑视图;

(2) 针对于日志中出现的各类关键日志

可以提炼出关键的事件来,这些事件如果和前面的业务异常所关联起来,就可以实现业务异常所对应的根因事件溯源;

(3) 利用诸如ELK这样的平台

针对分布式的日志进行汇聚和索引后,就可以发挥和业务层性能采集一样的作用,将日志进行解析后,同样是是一列一列的性能指标,而后再来做异常检测还是可以的;

(4) 利用日志做运维审计与合规

也是一个智能运维的典型场景。

6、智能运维的最高境界-故障自愈

针对于故障自愈应该以故障定位准确基础之上开展的,需要逐步推行,在此我就结合几个场景来聊一聊故障自愈的设计方案(按照云计算体系进行分层描述吧),以辅助落地:

中国移动智能运维系统的探索

(1)Saas层:

服务4**/5**错误:直接重启进程后再检测。

服务性能缓慢:排查相同集群服务是否均发生劣化,如仅此节点劣化,可采取流量分担方案;如全部节点均劣化,可采取自动扩容方案。

频繁GC:可按需增大JVM内存分配后继续监控。

(2)Paas和Daas层:

Spark executor性能明显劣化:可在下次任务开始之前更新–executor-memory

Db阻塞连接数激增:可断开超过设定阈值(如2分钟)的连接

Docker性能下降:新建docker分配更大内存,对现有docker进行替代

YARN资源分配失败:判断YARN资源情况,如果占用已满,进行动态扩容

(3)Iaas层

磁盘满:调用清理文件脚本实现清理,并释放进程资源占用

磁盘不可见:尝试重新挂载,如无效后直接将告警转发给硬件维护人员

内存不足:尝试清理服务器page cache等

辅助优化的方案:当发生故障后,并不一定需要立刻触发自愈操作,如突然的网络抖动,引起服务报错、性能缓慢的故障,很有可能过若干分钟即可自行恢复,此类则不需要立刻修复,那么优化后的方案可以参考如下的思路:

首次发现故障暂不触发自愈操作,待连续5次出现同样故障,触发自愈操作;

采集一定时间段的平均值,如平均值不超过阈值,则不认为是故障,不触发自愈操作

7 、智能运维不是万能的

中国移动智能运维系统的探索

智能运维并不是万能的,智能运维的落地成功性在于精于业务、切合实际,关键点如下:

精于业务,了解业务的规律,才好选择好的算法模型;

有了智能运维不代表就不需要运维人员了,因为毕竟算法是人写的,机器学习还是需要有“运维老司机”进行调教的;

若想做好准确的预测,需要有足够、精细的历史数据为样本;

需要将算法运用于贴合实际的某一个具体业务场景中,避免离谱夸大的设想,如“预测小米什么时候上市,没准说着说着就上市了”,其实前几天就已经上市了;

智能运维的前提最好是先实现自动化,否则即使检测出故障和根因也无法自动修复;

一定要贴合实际情况,一步一步来,切勿期盼一口吃个胖子。

8、感慨下

业务智能运维,是运维发展的大势所趋,无所畏惧,世间万物皆连接,有了人工智能这一利器,加之我们对于业务的深层理解,以及运维领域的丰富经验,相信中国移动智能运维体系的建成和落地,指日可待!!

原文标题:面向业务的智能运维:中国移动智能运维系统探索与实践

文章出处:【微信号:hr_opt,微信公众号:网优雇佣军】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

四轴机器人编程与应用

主题简介:本次直播主要讲解四轴机器人控制器基本原理及组成。四轴机器人的核心技术内嵌人工智能算法的工业级运动控制技术和伺服
发表于 10-30 00:00 11587次 阅读
四轴机器人编程与应用

四轴机器人编程与应用

主题简介:本次直播主要讲解四轴机器人控制器基本原理及组成。四轴机器人的核心技术内嵌人工智能算法的工业级运动控制技术和伺服
发表于 10-30 00:00 11587次 阅读
四轴机器人编程与应用

基于AI智能安防系统的应用点和部署情况

用人工智能(AI) ,以提高安全性的赌场,预计在未来几年还会增加。但就目前而言,视频分析是AI可能最....
发表于 06-17 17:33 20次 阅读
基于AI智能安防系统的应用点和部署情况

阿里领跑亚太 万亿微软能否超越亚马逊

微软Azure高速增长,亚马逊WAS增速则放缓的局面下,两大巨头云服务差距将会逐渐缩少,,亚马逊能否....
的头像 传感物联网 发表于 06-17 17:06 47次 阅读
阿里领跑亚太 万亿微软能否超越亚马逊

人工智能物联网包括哪些方面

AIoT 能做到远远不止于此,格灵深瞳也始终在与众多合作伙伴进行探索,为用户提供更广泛、更高效的人工....
发表于 06-17 17:05 9次 阅读
人工智能物联网包括哪些方面

基於约束优化的算法:通用软件的益处

在全球智能化商业峰会」上,斯坦福大学荣誉教授、新西兰皇家学会荣誉成员、世界级算法专家 Michael....
的头像 人工智能学家 发表于 06-17 16:33 64次 阅读
基於约束优化的算法:通用软件的益处

智能家居怎样做才能被全民接受

在信息爆炸的时代,智能家居品牌如何主动而有效地进入消费者的视野,如何持续延续消费者的使用体验,是需要....
发表于 06-17 16:27 13次 阅读
智能家居怎样做才能被全民接受

国资委给中国移动等下达最新KPI 净利润目标较上年增长12%

近日,国资委举行2019年度和2019-2021年任期中央企业负责人经营业绩责任书签订仪式,国资委党....
的头像 5G 发表于 06-17 16:25 54次 阅读
国资委给中国移动等下达最新KPI 净利润目标较上年增长12%

物联网实现在全球范围内广泛应用还面临三大困难

据Gartner预测,到2020年,全球将有204亿件联网产品投入使用。如今,物联网广泛应用于几乎所....
发表于 06-17 15:56 18次 阅读
物联网实现在全球范围内广泛应用还面临三大困难

GE发布人工智能分析工具集应对电网运营难题

近日,通用电气(GE)子公司GE Power发布了一套新的基于人工智能的分析产品,从而帮助电网客户更....
发表于 06-17 15:47 16次 阅读
GE发布人工智能分析工具集应对电网运营难题

人工智能未来会替代医生吗

在医疗领域,人工智能正从前沿技术转变为现实应用。“人工智能医生”PK人类医生,谁更厉害?
发表于 06-17 15:44 18次 阅读
人工智能未来会替代医生吗

人工智能养猪已经成为现实

近日,一条“AI鲜肉铺”的话题上了微博热搜榜,引发网友热议,大家纷纷好奇,这是背后到底有何门道,肉铺....
发表于 06-17 15:36 14次 阅读
人工智能养猪已经成为现实

中国人工智能应用太窄 缺乏思想是最大问题

如何看待人工智能研究与应用目前的深层次问题,尤其是中国在这方面科研的能力,国内多家媒体日前群访了郭毅....
的头像 工业4俱乐部 发表于 06-17 15:18 81次 阅读
中国人工智能应用太窄 缺乏思想是最大问题

人工智能机器人 未来世界万物触手可见

麻省理工学院计算机科学与人工智能实验室的研究人员称,可以通过触摸学习视觉的机器人触手。在将于下周在加....
发表于 06-17 15:16 23次 阅读
人工智能机器人 未来世界万物触手可见

从指南针到北斗 中国导航系统促进世界互联互通

中国卫星导航系统管理办公室在维也纳联合国国际会议中心举办“中国古代导航展——从指南针到北斗”,从历史....
的头像 人工智能学家 发表于 06-17 15:13 98次 阅读
从指南针到北斗 中国导航系统促进世界互联互通

2019机器人的市场趋势是如何的

目前,沃尔玛已经向其1500多家大型商店派遣了一支机器人大军,配备了数千台自动货架扫描器、开箱机、人....
发表于 06-17 15:03 15次 阅读
2019机器人的市场趋势是如何的

为什么医疗需要人工智能来助力

人工智能已经发展了大半个世纪,经历几次大起大落。从上世纪80年代到本世纪初,人们对于深度学习探索较多....
发表于 06-17 14:56 31次 阅读
为什么医疗需要人工智能来助力

小语智能成功入围腾讯AI加速器三期终选 共建智慧产业生态

连接AI技术与行业场景,共同推动行业落地,共建智慧产业生态!
的头像 小语智能机器人 发表于 06-17 14:41 105次 阅读
小语智能成功入围腾讯AI加速器三期终选 共建智慧产业生态

中国凭借区块链技术如何领跑

随着区块链技术在各行各业的应用日益深入,中国的区块链技术实力也将进一步加强,从而为打造技术强国提供助....
发表于 06-17 14:40 31次 阅读
中国凭借区块链技术如何领跑

微软选择Xilinx而非英特尔为数据中心提供FPGA

早在2014年,微软首先宣布他们正在探索在数据中心使用FPGA来加速Bing的某些任务的可能性。 2....
发表于 06-17 14:29 24次 阅读
微软选择Xilinx而非英特尔为数据中心提供FPGA

华捷艾米:新一代自研MR芯片获业内肯定

华捷艾米芯片荣膺2019双创周新技术新产品称号
的头像 AI华捷艾米 发表于 06-17 14:09 99次 阅读
华捷艾米:新一代自研MR芯片获业内肯定

中标中移动5G大单!华为成中国5G建设最大受益者

近日,随着中国5G牌照的正式发放,国内5G网络建设加速,华为5G订单量再度成功超越诺基亚,重回第一。
的头像 芯智讯 发表于 06-17 14:01 189次 阅读
中标中移动5G大单!华为成中国5G建设最大受益者

未来餐厅的标配会是人工智能吗

现阶段多家全球500强餐饮酒店行业公司也开始整合人工智能技术,并在预订选择、到店消费、数字化运营等多....
发表于 06-17 13:53 21次 阅读
未来餐厅的标配会是人工智能吗

人工智能给我们带来了什么

界定人工智能技术,要看这个系统本身是否能够“思考”到更深的层次。
发表于 06-17 11:50 52次 阅读
人工智能给我们带来了什么

人工智能如何慢慢融入教育科目

人员可通过继续教育免费学习人工智能课程。
发表于 06-17 11:45 39次 阅读
人工智能如何慢慢融入教育科目

你知道人工智能面试官是什么吗

人工智能招聘系统一般是指通过视觉、身体特征、语音、语言等条件数据进行分析,来对求职者进行评价。
发表于 06-17 11:39 18次 阅读
你知道人工智能面试官是什么吗

Chainlink希望通过与谷歌合作来整合区块链以外的数据

今年2月,谷歌在其BigQuery数据分析平台上提供了比特币、以太坊和其他六种加密货币的公开区块链数....
发表于 06-17 11:37 22次 阅读
Chainlink希望通过与谷歌合作来整合区块链以外的数据

佛山照明光亚展大放异彩 用智慧联接未来

在本届光亚展中,佛山照明展示了自身照明应用的前沿技术与产品,提供关于新照明技术的产品、新理念、新设计....
的头像 高工LED 发表于 06-17 11:31 178次 阅读
佛山照明光亚展大放异彩 用智慧联接未来

中建和旷视如何共同打造人工智能平台

核心目标是打造、研发面向未来的制造业行业级人工智能平台解决方案,并设计、规划、部署贯穿解决方案的系统....
发表于 06-17 11:23 20次 阅读
中建和旷视如何共同打造人工智能平台

人工智能和教育如何深度结合

积极推动人工智能与教育深度融合,促进教育变革创新,充分发挥人工智能优势,加快发展伴随每个人一生的教育....
发表于 06-17 11:17 20次 阅读
人工智能和教育如何深度结合

人工智能增长速度很快吗

人工智能仍然处于早期投入发展阶段,这些都让目前的猎豹面临重重挑战。
发表于 06-17 11:11 22次 阅读
人工智能增长速度很快吗

所有的智能物品都是人工智能产品吗

在人工智能领域,创新既要紧跟时代、具备前沿理论知识,又要静下心来、深钻业务,扑下身子、细研创新。
发表于 06-17 11:01 17次 阅读
所有的智能物品都是人工智能产品吗

人工智能如何筑梦未来

而多无人车智能集群协同、组装机器人等项目,则给孩子们提供了一个实际动手操作的平台,让小孩体验。
发表于 06-17 10:57 18次 阅读
人工智能如何筑梦未来

AI如何辅助宫颈癌筛查获

我们还将提高模型的可靠性,使其可以适应更大范围的试剂耗材与制片水平,将AI辅助筛查的应用拓展到更贴近....
发表于 06-17 10:52 14次 阅读
AI如何辅助宫颈癌筛查获

人工智能根基准则是什么

对于操纵人工智能所发生的内容或结果的版权问题,应该起首思量人工智能所发生的内容自己是否切合版权法对作....
发表于 06-17 10:43 231次 阅读
人工智能根基准则是什么

人工智能技术如何推动物流机器人发展

新技术在物流行业的应用,将优化包括机器人在内的多种物流要素配置,提高效率、降低成本,持续为中国乃至世....
发表于 06-17 10:38 16次 阅读
人工智能技术如何推动物流机器人发展

中国移动等20家央企签订业绩责任书 2019年净利润增长12%

中国移动还是厉害,在提速降费,携号转网,建设5G的大背景下还可以保持这么高的增长率,不得不佩服。
的头像 网优雇佣军 发表于 06-17 10:34 151次 阅读
中国移动等20家央企签订业绩责任书 2019年净利润增长12%

长沙是如何加快人工智能的发展的

聚焦“三智一自主”领域,设立人工智能产业发展专项资金,重点支持产业集聚、企业引培、研发创新、示范应用....
发表于 06-17 10:28 23次 阅读
长沙是如何加快人工智能的发展的

5G如何赋能未来汽车技术

随着中国发放5G牌照,5G技术逐渐进入人们的生活。
发表于 06-17 10:22 33次 阅读
5G如何赋能未来汽车技术

5G订单最新排名:华为反超诺基亚,拿下46个5G商用合同

美国对华为进行了不遗余力的“制裁”,华为5G业务在海外市场的拓展也受到了不小影响。但是,日前又一大国....
的头像 章鹰 发表于 06-17 10:10 803次 阅读
5G订单最新排名:华为反超诺基亚,拿下46个5G商用合同

人工智能助力制造业 赋能实体经济

首届中国光谷人工智能大会暨企业家高峰论坛于近日在武汉光谷科技会展中心举办。
的头像 SAP天天事 发表于 06-17 10:05 162次 阅读
人工智能助力制造业 赋能实体经济

人工智能推动文学新发展

2016年,牛津大学研究人员出版的一份报告指出,作家被人工智能取代的几率很小,远远低于一些体力和重复....
发表于 06-17 10:04 100次 阅读
人工智能推动文学新发展

中移动5G核心网建设招标被四家瓜分,华为成最大赢家

没有一家美国公司入围。
的头像 通信头条 发表于 06-17 10:01 163次 阅读
中移动5G核心网建设招标被四家瓜分,华为成最大赢家

人工智能将让安防更聪明

安防领域拥有海量视频图像,人工排查耗时费力,如何实现实时智能检索?如何将低效的人眼识别,变为自动精准....
发表于 06-17 09:57 80次 阅读
人工智能将让安防更聪明

中国移动今年在5G的运营资金市场策略等方面还面临巨大的压力

事实上,自2015年国家提出提速降费概念以来,运营商利润增幅下降已经成为常态,甚至在今年第一季度,中....
发表于 06-17 09:51 22次 阅读
中国移动今年在5G的运营资金市场策略等方面还面临巨大的压力

MIT推出人形机器人“爱马仕” 远程遥控操作救援

麻省理工学院近日推出了人形机器人Hermes,它可以通过遥控操作实现灵活移动。
的头像 大数据文摘 发表于 06-17 09:49 127次 阅读
MIT推出人形机器人“爱马仕” 远程遥控操作救援

智能机器人应用尚处在婴儿期

警觉的巡更机器人、灵巧的割草机器人、敬业的扫地机器人、呆萌的导览机器人……在上海杨浦的长阳创谷“人工....
发表于 06-17 09:44 101次 阅读
智能机器人应用尚处在婴儿期

智能机器人当检测员 高铁技术迎来新突破

6月13日,经智能机器人检测合格的第15000块高铁CRTSⅢ型轨道板,在京沈客专京冀段9标北京密云....
发表于 06-17 09:35 23次 阅读
智能机器人当检测员 高铁技术迎来新突破

北京移动公司实现了望京SOHO商业楼宇基于5G LampSite的5G全面覆盖

在望京SOHO办公的小伙伴们可以率先体验到中国移动5G信号。在最高速率环境下,5G的带宽可比4G高出....
发表于 06-17 09:35 31次 阅读
北京移动公司实现了望京SOHO商业楼宇基于5G LampSite的5G全面覆盖

基于运营商筹资5G建设资金的路径及建议

5G的美好,随着工业和信息化部向四大企业发布商用牌照而日趋临近。面对天量的5G建设资金需求,筹资资金....
发表于 06-17 09:32 47次 阅读
基于运营商筹资5G建设资金的路径及建议

你了解医疗器械智慧供应链吗

推进医疗器械智慧供应链应用,实现医院内“最后一公里”配送,推进医院成本降低、提升效率、质量可控,患者....
发表于 06-17 09:26 22次 阅读
你了解医疗器械智慧供应链吗

中国移动正式公布2019年核心网支持5G NSA功能升级改造设备采购结果

此次,在系统架构演进网关/GPRS业务支持节点(SAEGW/GGSN)招标中,华为中标369套,中兴....
发表于 06-17 09:24 137次 阅读
中国移动正式公布2019年核心网支持5G NSA功能升级改造设备采购结果

AI:对物联网安全的影响

在研究了高性能处理从云端到网络边缘的转变如何使物联网(IoT)蓬勃发展,并因此在本博客文章中为人工智能奠定了基础之后,还有...
发表于 05-29 10:47 105次 阅读
AI:对物联网安全的影响

人工智能:超越炒作

如果有一个真正的指标可以衡量新技术的破坏性,那肯定是公众对恐惧和怀疑的滔滔不绝。如果我们以社会焦虑作为衡量标准,那么目前...
发表于 05-29 10:46 112次 阅读
人工智能:超越炒作

人工智能上路需要知道什么常识

想要准确定义我们所说的常识可能有点难。常识可以基于某种文化,比如生活在某一地区的人都知道这种花有毒,而你作为游客却不知道...
发表于 05-13 06:20 236次 阅读
人工智能上路需要知道什么常识

【第5期】每周精选之人工智能资料汇总

为了方便大家查找技术资料,从今天开始,每个星期都会有一个社区资料总贴,同时也会选取一周的每天看电路和直播,让大家可以结合...
发表于 05-10 16:18 455次 阅读
【第5期】每周精选之人工智能资料汇总

智能控制、人工智能、智能算法的发展前景怎么样

浅谈智能控制、人工智能、智能算法的发展前景...
发表于 05-10 01:21 179次 阅读
智能控制、人工智能、智能算法的发展前景怎么样

【Elecfans社区精华帖】(190509):【限时免费领取】超值200G人工智能零基础最全学习资料包

发表于 05-09 18:36 369次 阅读
【Elecfans社区精华帖】(190509):【限时免费领取】超值200G人工智能零基础最全学习资料包

【专辑精选】人工智能之可穿戴技术教程与资料

电子发烧友总结了以“可穿戴技术”为主题的精选干货,今后每天一个主题为一期,希望对各位有所帮助!(点击标题即可进入页面下载...
发表于 05-08 18:12 308次 阅读
【专辑精选】人工智能之可穿戴技术教程与资料

【专辑精选】人工智能之神经网络教程与资料

电子发烧友总结了以“神经网络”为主题的精选干货,今后每天一个主题为一期,希望对各位有所帮助!(点击标题即可进入页面下载相...
发表于 05-07 19:18 418次 阅读
【专辑精选】人工智能之神经网络教程与资料

机器学习新手必学的三种优化算法(牛顿法、梯度下降法、最速下降法)

                           &nb...
发表于 05-07 08:30 308次 阅读
机器学习新手必学的三种优化算法(牛顿法、梯度下降法、最速下降法)

【专辑精选】人工智能之Python教程与资料

电子发烧友总结了以“Python”为主题的精选干货,今后每天一个主题为一期,希望对各位有所帮助!(点击标题即可进入页面下载相关...
发表于 05-06 17:57 353次 阅读
【专辑精选】人工智能之Python教程与资料