0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

工业互联网平台核心技术之运维技术

工业互联网前线 来源:fqj 2019-05-15 11:53 次阅读

运维监控平台是工业互联网平台运维工作中不可或缺的一部分,如何构建适合自己的运维监控平台,每个公司的需求不一样,每个运维面对的痛点也不尽相同,但,有了监控,有了充足的数据,一切以数据说话,运维就不再是背锅侠了。

运维管理是工业互联网平台使能技术之一,在平台中的地位极其重要。在工业互联网平台的运维管理中,我们经常听到关于运维的话题:“无监控,不运维”。

随着云计算和互联网的高速发展,大量应用需要横跨不同网络终端,并广泛接入第三方服务,平台系统架构越来越复杂。快速迭代的产品需求和良好的用户体验,需要运维管理者时刻保障核心业务稳定可用。

运维管理的痛点和难点

运维工程师在运维中过程中经常遇到运维工作如下的痛点和难点 :

1、面向业务的运维,不但关心单点物理资源的运行状态,更关心整个业务系统的健康状态

2、如果企业使用了大量的API和模块化应用,那么需要关注每个接口的性能变化情况和指标

3、对于运维主管及企业管理层来说,特别需要上墙的监控大屏

4、运维需要每周、每月查看报告趋势分析,但传统运维工具数据导出困难

5、需要第一时间转雀和快速发现故障节点,减少业务中断带来的损失

运维管理

工业互联网平台核心技术之运维技术

1、物理资源监控

(1)物理资源状态监控。提供可按照资源池、集群对物理设备的资源状态、如计算、存储、网络等运行状态进行监控。

工业互联网平台核心技术之运维技术

(2)故障告警及通知。支持Email或者短信、微信等告警的实时通知消息。

工业互联网平台核心技术之运维技术

(3)资源库存及资产管理。支持对物理设备库存及资产管理,需要扩充及时提供运维管理人员。

工业互联网平台核心技术之运维技术

(4)故障分析报表。可按照故障级别、事件类别出具故障的分析报表,便于改善服务。

2、业务资源监控

(1)业务资源状态监控。可按照服务如虚拟主机、云数据库、块存储等进行资源状态监控。

(2)业务资源容量监控。对业务资源层的资源容量进行分别监控,可设置容量告警阈值提醒资源扩容。

(3)运维操作记录。记录运维相关的操作日志且存档期不少于半年。

运维管理一般流程和功能

1.运维管理流程

工业互联网平台核心技术之运维技术

运维管理的一般过程如上图所示,制定云服务运维管理流程,需要包括:服务台、事件管理、问题管理、变更管理、配置管理、发布管理、知识库管理、报表管理。

2、运维管理功能

云服务运维管理系统应提供以下功能:

(1)监控管理,通过对各种物理资源、虚拟化资源数据的监控,将资源以用户可见的资源池形式提供给上层应用。统一资源管理,支持发现其管辖范围内的物理设备以及它们的组网关系。支持将这些物理设备进行池化管理,提供给应用管理模块使用。

(2)权限管理,可以创建和管理系统中管理员帐号、管理员所承担的角色和管理员管理区域,实现系统的分权分域的功能。系统支持对用户进行访问控制, 支持用户组、分权、分域、密码管理,便于维护团队内分职责共同有序地维护系统。

(3)告警管理,是确保系统正常运行的重要活动,包括:系统故障预防设计、故障检测和处理等。告警管理是故障管理的重要部分,便于运维人员进行故障定位,保证系统稳定运行。

(4)拓扑管理,提供一个可视化界面,呈现全系统的所有资源信息。支持常用设备自动发现和识别,系统还对网络类型有很好的兼容性,可以很好的发现

VPN、VLAN网络拓扑,还支持按照规则识别不同的设备类型, 方便更准确的呈现拓扑。

(5)日志管理包括日志记录、查看、审计。

(6)软件管理,支持云操作系统软件预安装和预置、软件自动化批量安装、软件升级和补丁更新等功能。

(7)统计报表管理,可以让管理员查看虚拟机登录、分配以及运行状态信息,有助于系统优化,调整提升。报表可以根据要求定制,内容主要包括之前描述过得监控内容,包括CPU、内存、网络流量、数据库性能、中间件性能等各类性能报表和故障报表。

(8)资产管理,是运维管理系统的核心功能,能够实现对云平台相关的软硬件信息资产信息的全面管理,同时,对资产信息进行实时监控变更等功能,满足企业对资产管理的需要。

(9)工单管理,系统提供完整的工单管理的功能,支持创建工单的流转流程。支持手工创建工单,也可以在告警响应动作中创建工单;支持以工单方式实现对告警事件的应急响应、工作任务分配、工作任务管理,可以进行流程定制和流程查看,工作流可以跨多个中心进行联动。

(10)计费管理,不同的云服务按照各自的计费项计量并收费的能力。

(11)安全管理,是对数据、账号等IT资源采取全面保护,使其免受犯罪分子和恶意程序的侵害,并保证云基础设施及其提供的资源能被合法地访问和使用。

(12)对系统数据均实现多副本保存或其他冗余备份机制。

(13)可实现云服务运维管理系统的自动化管理。

运维监控平台设计思路

构建一个智能的运维监控平台,必须以运行监控和故障报警这两个方面为重点,将所有业务系统中所涉及的网络资源、硬件资源、软件资源、数据库资源等纳入统一的运维监控平台中,并通过消除管理软件的差别。

数据采集手段的差别,对各种不同的数据来源实现统一管理、统一规范、统一处理、统一展现、统一用户登录、统一权限控制,最终实现运维规范化、自动化、智能化的大运维管理。

智能的运维监控平台,设计架构从低到高可以分为6层,三大模块,如下图:

工业互联网平台核心技术之运维技术

1、数据收集层:位于最底层,主要收集网络数据、业务系统数据、数据库数据、操作系统数据等,然后将收集到的数据进行规范化并进行存储。

2、数据展示层:主要是将数据收集层获取到的数据进行统一展示,展示的方式可以是曲线图、柱状图、饼状态等,通过将数据图形化,可以帮助运维人员了解一段时间内主机或网络的运行状态和运行趋势,并作为运维人员排查问题或解决问题的依据。

3、数据提取层:主要是对从数据收集层获取到的数据进行规格化和过滤处理,提取需要的数据到监控报警模块,这个部分是监控和报警两个模块的衔接点。

4、报警规则配置层:主要是根据第三层获取到的数据进行报警规则设置、报警阀值设置、报警联系人设置和报警方式设置等。

5、报警事件生成层:位于第五层,主要是对报警事件进行实时记录,将报警结果存入数据库以备调用,并将报警结果形成分析报表,以统计一段时间内的故障率和故障发生趋势。

6、用户展示管理层:位于最顶层,是一个Web展示界面,主要是将监控统计结果、报警故障结果进行统一展示,并实现多用户、多权限管理,实现统一用户和统一权限控制。

在这6层中,从功能实现划分,又分为三个模块,分别是数据收集模块、数据提取模块和监控报警模块,每个模块完成的功能如下:

数据收集模块:此模块主要完成基础数据的收集与图形展示。数据收集的方式有很多种,可以通过SNMP实现,也可以通过代理模块实现,还可以通过自定义脚本实现。常用的数据收集工具有Cacti、Ganglia等。

数据提取模块:此模板主要完成数据的筛选过滤和采集,将需要的数据从数据收集模块提取到监控报警模块中。可以通过数据收集模块提供的接口或自定义脚本实现数据的提取。

监控报警模块:此模块主要完成监控脚本的设置、报警规则设置,报警阀值设置、报警联系人设置等,并将报警结果进行集中展现和历史记录。常见的监控报警工具有Nagios、Centreon等。

工业互联网平台核心技术之运维技术

运维管理平台主要有三大部分组成,分别是数据收集模块、监控报警模块和数据提取模块。其中,数据提取模块用于其他两个模块之间的数据通信,而数据收集模块可以有一台或多台数据收集服务器组成,每个数据收集服务器可以直接从服务器群组收集各种数据指标,经过规范数据格式,最终将数据存储到数据收集服务器中。

监控报警模块通过数据抽取模块从数据收集服务器获取需要的数据,然后设置报警阀值、报警联系人等,最终实现实时报警。报警方式支持手机短信报警、邮件报警等,另外,也可以通过插件或者自定义脚本来扩展报警方式。

结语

运维监控平台是工业互联网平台运维工作中不可或缺的一部分,也是平台使能技术的一个重要内容。如何构建适合自己的运维监控平台,每个公司的需求不一样,每个运维所面对的痛点也不尽相同,但,有了监控,有了充足的数据,运维就可以有的放矢。一切以数据说话,运维就不会再虚无缥缈,便不用再是背锅侠了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 工业互联网
    +关注

    关注

    28

    文章

    4233

    浏览量

    93812
  • 运维
    +关注

    关注

    1

    文章

    188

    浏览量

    7354

原文标题:工业互联网平台核心技术之七:运维技术

文章出处:【微信号:IndustryIOT,微信公众号:工业互联网前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    工业互联网

    工业互联网是全球工业系统与高级计算、分析、感应技术以及互联网连接融合的结果。它通过智能机器 间的连接并最终将人机连接,结合软件和大数据分析,
    发表于 01-25 09:29

    工业互联网

    工业互联网是全球工业系统与高级计算、分析、感应技术以及互联网连接融合的结果。它通过智能机器 间的连接并最终将人机连接,结合软件和大数据分析,
    发表于 04-17 15:56

    中智讯-移动互联网技术及课程建设

    移动互联网综合应用的能力,能从事智能手机、嵌入式设备、平板电脑、M2M等移动设备的应用软件开发、销售、维护等工作,具备良好的团队合作精神的高端技能型人才。移动互联网就是把互联网技术应用到移动网络中
    发表于 08-17 15:57

    锐捷助互联网数据中心网络自动化、可视化

    可靠的业务支撑。然而目前大多数互联网企业IDC所依赖的系统环境与其可视性需求之间仍然存在着巨大差距,锐捷通过基于SDN技术的运营配置自动化及网络可视化解决方案,不仅能够简化网络
    发表于 01-25 09:42

    互联网工业联网之间的区别与联系

    推出来以后,移动互联网的发展更是将互联网的发展推上一个高峰,各种各样的APP应用给人们的生活带来了极大的便利,由此可以看出互联网更像是人们用来进行信息传播和共享的一个平台。那么,
    发表于 06-14 10:18

    五大核心技术如何实现物联网

    以下是实现物联网的五大核心技术核心技术之感知层:传感器技术、射频识别技术、二
    发表于 07-25 06:38

    邀约 | 2019中国工业互联网应用场景特色展

    景的工业互联网典型案例!凸显垂直领域产业集群运用工业互联网技术实施数字化转型的创新模式!优选国内外优秀
    发表于 08-22 19:53

    以能源行业和机智云应用案例为例,带你三分钟了解什么是工业互联网

    ;2018年通过信通院工业互联网产业联盟工业互联网平台可信评估。平台聚焦新一代信息
    发表于 09-12 12:13

    工业互联网平台应用的三个层次!

    工业互联网 工业互联网平台应用的三个层次!
    发表于 07-11 08:14

    工业释放数字智造美 | 天拓四方受邀参加工业互联网生态新优势专题研讨会

    解决方案与我国工业发展实际相结合,形成了行业专业的智能制造和工业互联网整体服务能力,并自主研发了拥有自主知识产权,能为客户提供全价值流服务的工业互联
    发表于 09-26 22:03

    工业4.0与工业互联网的相同点与不同点

    方面仍存在核心产品与技术依赖进口、制度化的防范机制缺失、网络安全管理人才匮乏等问题。未来,要加强互联网及信息安全关键产品设备的研发,实现关键产品的自主可控。同时,要加快在网络防护、入侵检测等领域信息安全关键
    发表于 12-02 13:47

    工业互联网中的标识解析技术

    工业互联网核心是数据的价值发现问题,但由于历史原因,“信息孤岛”现象在企业内部、企业之间大量存在。标识解析技术是目前可见解决“信息孤岛”、完成工业
    发表于 09-19 06:07

    OpenHarmony应用核心技术理念与需求机遇简析

    一、核心技术理念 图片来源:OpenHarmony官方网站 二、需求机遇简析 新的万物互联智能世界代表着新规则、新赛道、新切入点、新财富机会;各WEB网站、客户端( 苹果APP、安卓APK)、微信
    发表于 09-22 16:12

    工业互联网的关键核心技术有哪些

    工业互联网的关键核心技术主要涵盖“一硬(工业控制)+一软(工业软件)+一网(工业网络)+一安全(
    的头像 发表于 11-08 08:36 3.3w次阅读

    工业互联网的关键技术有哪些?

    未来几年,工业互联网的发展对技术提出了哪些需求和挑战?将在工业互联网领域发展中起到重要作用的核心技术
    发表于 03-26 16:48 1.5w次阅读