0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云出现重大技术故障损失过亿,阿里云故障真正原因是什么?

马哥Linux运维 来源:未知 作者:易水寒 2018-07-17 15:16 次阅读

昨天,技术圈又出了搅动全技术人的一次重大技术故障。记得上一次是携程2015年瘫痪了11小时,损失高达7000W+。

阿里云是国内最大的云服务商,服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。

6月27日下午,阿里云出现重大技术故障,故障于北京时间2018年6月27日,16:21左右开始,16:50分开始陆续恢复。官方给出的故障时间大概持续30分钟,陆续恢复时间有一个小时多。

在6月27日凌晨时分,阿里云给了官方说明,最后官方给出的说明是:“我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。”引发了大量吐槽。

对于此故障的原因,网上传的各种版本都有,传的最多的是以下2个版本:

网上流传故障原因版本一

网上流传故障原因版本二

小编邀请原美团点评运维架构师&马哥教育联合创始人张sir对本次故障解读:

“至于实习生误删登陆服务之说,应该是不存在的,一方面,大型互联网公司尤其是阿里云这样的公司,对工程师权限有着极为严格的控制,因为阿里云数十万台服务器,支撑了全国各行各业千亿以上规模的线上业务,不可能让实习生不熟悉的情况下,给予过高的管理权限。这是极其不专业的做法"

”对于版本二的说法,说的比较含糊和笼统,我通过内部了解到原因:”

"这个说法跟阿里云官方通告是比较符合的,本次故障的严重程度是非常高的,故障级别定义在S1级别,整个阿里集团的核心业务,以及依托阿里云的公司,很多都受了影响。"

"对于企业来说,上线都是开发-测试-上线大致都是以下这样的流程,通常开发会开发出来程序,然后交给测试工程师,测试工程师测试完成后,后提交给运维工程师进行线上服务配置以及业务上线。"

“本次故障,阿里官方说明:工程师团队,在上线一次自动化运维新功能的时候,执行了一项变更验证操作,这一项功能在测试环境验证中未出现问题,上线生产环境中,触发了一个未知的bug。这个bug后来通过阿里的同学证实:具体原因是一个核心的应用在拉VIP列表的时候,返回了空列表,这就会导致上千VIP被禁用了。VIP = Virtual IP Address,虚拟IP地址,主要作用为集群的负载均衡的入口地址,可通过一个VIP的地址,实现一组业务的访问,通常也叫集群负载均衡技术。VIP是集群业务的入口,如果数千个VIP被禁用了,可能后端上万台的服务、应用、数据库等将直接无法访问,本次故障盲点,是测试通过了,在生产环境触发了一个未知bug,导致核心应用在拉取VIP列表时,为空了,导致内部的上千台负载均衡不可用,从而后端的应用也不可达。”

"如图所示,对于大型互联网公司,运维技术架构都是多层机构。在内部负载均衡上配置的VIP如果不可达的话,后端的service层和数据库等内容,都是不可达的,这也是为什么故障的时候,页面能打开,但是报错为502故障,502错误一般常为后端服务器不可用,这也说明了故障的根源所在。阿里的运维团队故障响应还是比较给力的,数千个VIP配置错误,在半小时内从发现,到定位,到故障排除,以及解决,还是挺快的。”

“在一个庞大复杂的架构体系中,会涉及到成千上万的配置以及几十种技术的应用,有时候可能因为一条配置的错误,会导致整个服务崩盘。而出故障时,一位优秀的运维工程师,可为公司挽回巨大损失。运维工程师目前已经是各家互联网公司必不可少的重要岗位,是要求有极高的技术能力和心理素质(当出现故障时,耽误一分钟损失上百万的时候,那种压力是常人无法理解的),所以这也是,为什么业内优秀的运维工程师是比较稀缺的。一个优秀的运维工程师或者云计算工程师,是需要不断的提升和学习,因为公司的业务需要不断的完善架构体系,保障服务正常运行,以及服务性能和工作效率不断的优化和改进。”

阿里云对于本次故障,还是非常坦诚的:

"对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。"

此次阿里云重大故障,网友们纷纷讨论,运维都要背锅啦。其实,运维工程师这个群体,比你想象的要厉害,如果不是他们为互联网的业务保驾护航,可能故障远不止此。所以,对于错误,我们应该包容,错误是成长的必经之路,更何况,人非圣贤孰能无过?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    10902

    浏览量

    100726
  • 阿里云
    +关注

    关注

    3

    文章

    883

    浏览量

    42607
  • 运维
    +关注

    关注

    1

    文章

    188

    浏览量

    7354

原文标题:1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    学习阿里架构选择哪家培训机构好?

    认可的阿里技术证书,并可对接阿里人才库,全国5000多家企业任您选择,高薪职位唾手可得!  老男孩教育
    发表于 12-20 15:31

    阿里1682亿背后的协同研发——效公共正式商业化

    提供了单个工作任务的多种操作,也支持整个项目和项目集合管理,使得用户可以更加便捷跟进工作。通过移动效进行项目管理阿里巴巴资深技术专家叶渡表示:“研发效能已经成为软件企业发展非常核心的竞争力。
    发表于 12-25 12:02

    阿里方式大汇总

    摘要:前不久,阿里发布了一款迁神器,即 阿里工具,使用该迁
    发表于 12-25 14:33

    阿里MaxCompute,用计算力让数据发声

    摘要: 计算的价值绝不止计算本身,而是让本不会说话的数据发声。 从***到圆周率,从万有引力定律到二进制,从固化的物体到虚拟的思维都由数据注入。阿里大数据计算服务MaxCompute以技术驱动
    发表于 01-22 17:45

    无边界,阿里混合数据同步发布

    ,当业务中心出现故障时,快速将业务切换到容灾中心,秒级恢复业务。3、业务弹性扩展因为的灵活性、可扩展性及低成本,业务在大促等突发流量时,可以在阿里
    发表于 04-02 15:35

    阿里全球首次互联网8K直播背后的技术解读

    ,及时发现卡顿原因并解决。阿里巴巴杭州西溪园区,距离深圳云栖大会的会场1300公里,如何保证这么远距离的大数据量稳定传输,又是一个难题。如图所示,通过专线,把直播现场(阿里巴巴杭州西溪园区)连接到
    发表于 04-08 10:55

    阿里财报:计算年度营收133亿,季度营收连续12个季度翻番

    摘要: 北京时间5月4日晚间,阿里巴巴集团公布2018财年第四季度和全年财报,该季度内(2018年1月至3月底)阿里营收43.85亿元,同比增长103%;2018财年(2017年4月
    发表于 05-07 14:50

    阿里免费使用及手册

    自己使用阿里服务器搭建的一个个人知识分享博客网站,基于网站搭建过程,分享一些经验。先对阿里服务器大体介绍下,后续有时间再分享技术方面的东
    发表于 05-10 21:17

    阿里发布企业数字化及上外包平台服务:阿里众包平台

    :免费项目保险担保。凡发布在阿里众包平台的需求,在与服务商沟通确认下单后都会获得一份由保险公司担保的免费的项目保险。此项服务就是要解决困扰外包需求客户:保证金无法覆盖保证项目,付款出现问题无法追偿的难题
    发表于 06-19 18:03

    上拍客梨视频 基于阿里技术实践分享

    摘要: 梨视频大部分的业务都选择了阿里,其中一个主要原因是阿里提供基于钉钉群构建的24贴身技术
    发表于 06-28 16:13

    阿里 APM 解决方案地图

    ,取决于用户是否进一步使用容器技术来优化开发和运维。应用还会直接依赖各类的PaaS/SaaS服务,如OSS,OTS, MQ, RDS等,对应用提供响应平台服务,简化应用的运维成本。阿里
    发表于 07-05 16:54

    阿里容器服务如何使用

    阿里容器服务使用教程
    发表于 04-28 14:46

    阿里平台操作

    一、阿里平台操作  首先我们要知道BC26连接阿里是连接阿里上的某个设备,因此首先需要在
    发表于 08-03 06:43

    阿里开放物联网技术开发平台

    中国杭州,2021 年 12 月 8 日-阿里巴巴集团的数字技术和智能骨干阿里宣布已开放其专有的物联网设备全栈技术开发平台 Yun on
    发表于 03-08 08:50

    Fibocom 公有阿里 技术资料

    Fibocom 公有阿里 技术资料内容如下:1、阿里连接教程2、
    发表于 01-05 15:03