0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云计算工程方面,现在最难的是运维了

454398 来源:ST社区 作者:ST社区 2023-02-02 17:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:ST社区

到今天,云计算的工业实现已经不太难了。现在有开源软件KVM和Xen,这两个东西基本把虚拟化搞定;而OpenStack则把管理、控制系统搞定,也很成熟。PaaS也有相应的开源,比如OpenShift,而Java里也有N多的中间件框架和技术。另外分布式文件系统GFS/TFS,分布式计算系统Hadoop/Hbase等等,分布式的东西都不神秘了。技术的实现在以前可能是问题,现在不是了。

对于云计算工程方面,现在最难的是运维。管100台、1万台还是100万台机器,那是完全不同的。机器少你可以用人管理,机器多是不可能靠人的。运维系统不属于功能性的东西,用户看不见,所以这是被大家严重低估的东西。只要你做大了,就必然要在运维系统上做文章。数据中心/云计算拼的就是运维能力。

为什么说运维比较复杂,原因有这么几个。

一方面,云计算要用廉价设备取代那些昂贵的解决方案。互联网就是要用便宜的东西搭建出高质量的东西,硬件和资源一定不会走高端路线——比如EMC、IBM小型机、SGI超级计算机等等,你如果用它去搭建云计算,成本太贵。用廉价的解决方案代替昂贵的解决方案是整个计算机发展史中到今天唯一不变的事情。所以如果你要让夏利车跑出奔驰车的感觉,你需要自己动手做很多事,搭建一个智能的系统。用廉价的东西做出高质量的东西,运维好廉价的设备其实是云计算工程里最大的挑战。

另一方面,因为机器多了,加上用的又不是昂贵的硬件,所以故障就变成了常态,硬盘、主板、网络天天坏。所以,没什么好想的,运维就必须要跟上。云计算的目标是在故障成为常态的情况下保证高可用——也就是我们所说服务的可用性,是3个9、4个9还是5个9。

最后,这一大堆机器和设备都放在一起,安全问题就是一个挑战,一方面是Security,另一方面是Safety,保证数十台数百台的设备的安全还好说,但是对于数万数十万台的设计,就没有那么简单了。

面对这样的难题,人是无法搞得定的,只能依靠技术来管理和运维整个平台。比如必须有监控系统。这跟操作系统一样,对资源的管理,对网络流量、CPU利用率、进程、内存等等的状态肯定要全部收集的。收集整个集群各种节点的状态,是必然每个云计算都有的,都是大同小异的。

然后,还要找到可用性更好的节点,这需要有一些故障自检的功能。比如阿里云就遇到过磁盘用到一定时候就会莫名其妙的不稳定,有些磁盘的I/O会变慢。变慢的原因有可是硬盘不行了,于是硬盘控制器可能因为CRC校验出错需要要多读几次,这就好比TCP的包传过来,数据出错了,需要重新传。在这种硬盘处理半死不活的状态时,你肯定是需要一个自动检测或自动发现的程序去监控这种事情,当这个磁盘可能不行了,标记成坏磁盘,别用它,到别的磁盘上读复本去。我们要有故障自动检测、预测的措施,才能驱动故障,而不是被动响应故障,用户体验才会好。换句话说,我们需要自动化的、主动的运维。

为了数据的高可用性,你只能使用数据冗余,写多份到不同的节点——工业界标准写三份是安全。然而,你做了冗余,又有数据一致性问题。为了解决冗余带来的一致性问题,才有了paxos的投票玩法,大家投票这个能不能改,于是你就需要一个强大的控制系统来控制这些东西。

另外,公有云人来人往,里面的资源和服务今天用明天不用,有分配有释放,有冻结,你还要搞一个资源管理系统来管理这些资源的生命状态。还有权限管理,就像AWS的IAM一样,如果没有像AWS的IAM权限管理系统,AWS可能会不会像今天这样有很多大的公司来用。企业级的云平台,你需要有企业级的运维和管理能力。

为啥云计算有这么多开源的东西,却不是人人都能做?

一方面,这就跟盖楼一样。盖楼的技术没什么难的(当然,盖高楼是很难的),但是你没地你怎么盖?云计算也一样,带宽的价格贵得就像土地的价格。其实云计算跟房地产一样,要占地、占机房、占带宽。如果能把中国所有的机房、机柜、带宽资源都买了,你就不用做云计算了,卖土地就够了——因为这些是有限的。最简单的例子,IP地址是有限的。你有带宽、有机房,但是如果你没有IP,这就不好玩了。尤其是你要提供CDN服务,这个就更明显,因为有多少物理节点直接决定你的CDN服务质量。

另一方面,正如前面所说的,运维是件很难的事,运维这个事并不是一般人能搞的事。没有足够的场景、经验和时间,这种能力很难出现。从用户的角度来说呢,云计算是一种服务,你需要对用户企业内的解决方案要有很好的了解,这样才能提高很好的服务。能提供“好服务”的通常都是把自己真正当成用户公司。

卖汽车也是卖服务。造出汽车来,并不代表你搞定这个事了。如果没有公路、没有加油站、没有4s店、没有交通管理、规则等等,你要么用不了,要么就是乱七八糟。不能只让用户在那看着你的汽车好牛啊,但是用户不知道怎么用。所以说,云计算最终旁边必须要有一套服务设施,而这套服务设施也是今天被人低估的。

云计算有两个东西个人觉得是被人低估的,一个是运维,一个是服务。做服务的需要有生态环境,有人帮你做。所以做云计算要落地并不简单。还是那句话,云就是服务,只要提供了好的服务,无论公有还是私有都是会有价值的。

审核编辑黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    8042

    浏览量

    144756
  • 汽车
    +关注

    关注

    15

    文章

    4227

    浏览量

    41330
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊科技Amazon DevOps Agent智能助手正式可用

    北京2026年4月7日 /美通社/ -- 亚马逊科技宣布Amazon DevOps Agent现已正式可用。Amazon DevOps Agent是用户全天候随时待命的智能助手。它可跨亚马逊
    的头像 发表于 04-07 14:59 112次阅读

    光伏平台的建设需要哪些技术支撑?

    光伏是当下光伏电站运营管理中的一项十分重要的工作,光伏平台的建设是电站
    的头像 发表于 03-30 15:21 233次阅读
    光伏<b class='flag-5'>运</b><b class='flag-5'>维</b><b class='flag-5'>云</b>平台的建设需要哪些技术支撑?

    OpenClaw Workspace实战手册

    本文档从工程师视角出发,系统阐述 OpenClaw Workspace 的生产环境部署、配置管理、故障诊断、安全加固和自动化实践。所
    的头像 发表于 03-25 14:05 390次阅读

    OpenClaw进阶配置与自动化实战手册

    本文档面向已将 OpenClaw 纳入生产体系的工程师,从视角系统阐述配置管理、定时任务、Gateway
    的头像 发表于 03-24 16:44 365次阅读

    AIOps 智能化:让 IT 从 “被动救火” 到 “主动防御”

    、故障定位慢、业务中断损失大,成了工程师的日常痛点。而AIOps(智能)的出现,就像给IT系统装上了“智能大脑”,让
    的头像 发表于 02-12 14:09 1888次阅读
    AIOps 智能化<b class='flag-5'>运</b><b class='flag-5'>维</b>:让 IT <b class='flag-5'>运</b><b class='flag-5'>维</b>从 “被动救火” 到 “主动防御”

    光伏电站智能平台是如何在光伏电站中应用的?

    光伏电站智能平台是一种实现对光伏电站的实时监控、故障预警、性能优化、智能管理的有效技术工具,其通过集成物联网、大数据、
    的头像 发表于 01-04 17:59 1670次阅读

    7×24小时AI服务:以 “-边-” 架构重塑企业 IT 范式

    前言科技7×24小时AI管家,依托自主研发的“-边-”智能
    的头像 发表于 12-24 09:20 910次阅读
    7×24小时AI<b class='flag-5'>运</b><b class='flag-5'>维</b>服务:以 “<b class='flag-5'>云</b>-边-<b class='flag-5'>云</b>” 架构重塑企业 IT <b class='flag-5'>运</b><b class='flag-5'>维</b>范式

    新能源工程机械远程智慧管理系统

    产品已成为工程建设领域的主流选择。 然而,与设备数量激增形成鲜明对比的是,管理体系的滞后。传统“被动维修、现场排查”的模式已无法满足
    的头像 发表于 12-13 15:24 557次阅读
    新能源<b class='flag-5'>工程</b>机械远程智慧<b class='flag-5'>运</b><b class='flag-5'>维</b>管理系统

    告别人工巡检繁琐,安科瑞电力平台助力提升效率

    。传统模式主要依赖人工巡检、纸质记录及事后处理,存在效率不高、故障响应不及时、成本较高、数据分析手段有限以及预警能力不足等多方面挑战
    的头像 发表于 09-16 14:41 731次阅读
    告别人工巡检繁琐,安科瑞电力<b class='flag-5'>运</b><b class='flag-5'>维</b><b class='flag-5'>云</b>平台助力提升<b class='flag-5'>运</b><b class='flag-5'>维</b>效率

    Ceph集群部署与完全指南

    作为一名资深工程师,我见证太多企业在存储架构选型上的纠结。传统的NAS/SAN方案成本高昂,扩展性差;而存储又面临厂商锁定的风险。直
    的头像 发表于 08-29 17:18 1528次阅读

    双碳目标下的分布式光伏智能平台架构与应用

    HOT 点击蓝字 关注我们 摘要   本文针对分布式光伏电站存在的监管困难、火灾隐患、系统繁杂及不规范等行业痛点,提出AcrelCloud-1200光伏
    的头像 发表于 08-19 08:12 696次阅读
    双碳目标下的分布式光伏智能<b class='flag-5'>运</b><b class='flag-5'>维</b><b class='flag-5'>云</b>平台架构与应用

    安科瑞平台助力“无人值守”智管,变电所“数字员工”上线!

    安科瑞提供AcrelCloud-1000电力平台解决方案。平台通过高性能网关采集仪表与传感器数据并统一上传到数据监控中心,监控中心结合
    的头像 发表于 08-07 09:35 861次阅读

    新能源智慧管理系统的合理性体现在哪些方面

    新能源智慧管理系统是针对新能源发电设备(如风电、光伏、储能等)构建的智能化平台。其核心目标是融合物联网、大数据、人工智能等先进技术,通过数字化手段提升新能源电站的运行效率、安全
    的头像 发表于 07-02 17:17 790次阅读

    变电所电力困境大揭秘!这个电力平台帮你解决所有“疑难杂症”

    一、变电所电力:传统模式下的重重困境 在现代工业和生活中,变电所作为电力系统的关键环节,承担着电压转换、电力分配和电能质量调控的重要任务。然而,传统的变电所电力模式正面临着一系
    的头像 发表于 05-21 10:18 1122次阅读
    变电所电力<b class='flag-5'>运</b><b class='flag-5'>维</b>困境大揭秘!这个电力<b class='flag-5'>运</b><b class='flag-5'>维</b><b class='flag-5'>云</b>平台帮你解决所有“疑难杂症”

    边缘计算网关工业物联网应用:空压机远程监控管理

    边缘计算网关在空压机远程监控管理中的工业物联网应用,主要体现在数据采集与处理、设备监控、故障诊断与预警、远程控制等方面,以下是具体介绍:
    的头像 发表于 05-15 13:58 1015次阅读
    边缘<b class='flag-5'>计算</b>网关工业物联网应用:空压机远程<b class='flag-5'>运</b><b class='flag-5'>维</b>监控管理