0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从阿里云盘崩溃谈起,云平台稳定性如何保证?

白犀牛通信 来源:白犀牛通信 2023-02-09 10:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,阿里云盘爆发故障,停服了近5小时,随后官方发了道歉信,也明确了赔偿方案,但故障原因至今未公布。坊间传言是因为用户集中下载某电视剧资源所致,具体情况不明。

阿里云盘和阿里云有没有关系呢?虽然这是两个独立的品牌,但阿里云盘应该算是阿里云主要的SaaS产品之一,其资源肯定也是承载在阿里云的平台上的,所以这个故障算到阿里云头上应该不冤。

这是继阿里云香港区故障后,又一次引发社会舆论关注的故障事件。当然,发生故障并不可怕,IT系统发生故障太正常不过了,但一个机房出问题就全局宕机了?一个系统故障就导致服务中断5个小时?说好的可用区隔离,跨区高可用,自动恢复自动切换,这些写进SLA里的保障措施全部失效!这就有点不同寻常了。

从这个角度看,这两次故障事件正在折射出阿里云一些内部的问题,甚至直接暴露出包括阿里云在内的云厂商巨头在前些年野蛮生长、快速扩张过程中遗留下来的很多bug还有待修补。这些bug的构成非常复杂,有技术的因素,也有机制流程的因素,还有人的责任意识的因素,如果这些bug不能在短时间内得到有效解决,可以预料,这样级别的故障可能还将发生,这对阿里云等巨头们的品牌形象、客户信任度都是严重的伤害。

更关键的是,当前国内云计算应用已从互联网拓展至政务、金融、工业、医疗、交通等传统行业,在这个过程中,云上系统的复杂度极大提升,给云厂商带来的挑战将会更大!

其一,云上系统深度应用微服务等云原生技术架构,应用之间存在错综复杂的依赖关系,服务性能瓶颈难以分析,故障影响范围难以评估,故障根因难以定位,给平台的运维保障工作带来了诸多困难;

其二,云上系统的故障率会随设备的增加而呈指数级增长,单一节点问题可能会被无限放大,日常运行过程中不可避免的伴随异常发生,如何解决这些偶发、突发的问题,仍是一个技术难题;

其三,云上系统节点分布范围更广、数量更多,高度依赖网络质量,给日常运维过程中的日志采集、变更升级等都带来了新的挑战。

与此同时,由于产业互联网核心业务上云进程加速,而核心业务系统作为支撑用户服务的关键,往往具备业务连续性要求高、并发请求量大、业务激增随机性强的特点,一旦发生故障,其影响范围更大,后果更严重。为什么阿里云香港区事件直接导致阿里云换帅,正是因为事件影响的范围极广,对阿里云的品牌形象造成了极大的损害。

那该怎么办呢?

从阿里云近期接连的两次故障来看,云服务商亟需加深对云上系统稳定性的认知,构建安全生产和稳定性保障双体系,推动云上系统的稳定性持续提升。

第一、建设云上业务安全生产体系,完善流程管理机制

一是事前的主动防御,通过完备的故障分析、风险检测、全局管控等事前风险防护治理手段,变被动为主动,尽量减少故障风险发生的概率;

二是事中的全局监控,通过深度应用大数据、人工智能等技术,对信息系统进行全局监测和预警,实现实时风险态势感知;

三是事后的应急保障,将信息化手段与传统方式相融合,多种应急方式,最大程度降低业务系统故障导致的损失和影响,有效保障业务系统的稳定性和连续性。

在这个过程中还有一个关键点在于人的责任意识的培养,所有管理机制流程到最后还是需要人来执行落地。在这方面,运营商云或许更有优势,毕竟电信运营商刻在DNA里的就是对“保障通信生命线”的追求,电信级服务对他们来说是一种信仰,也是一种职业习惯。

第二、构筑全流程稳定性保障体系,提升技术保障能力

事前做好规划工作,设计高度韧性系统。在软件设计阶段,重点关注系统架构和容量规划的设计,同时配合混沌工程实验持续保持、提升系统韧性。

事中全方位检测,提高系统故障逃逸能力。通过对链路中各环节运行数据的整合及联动,在故障发生时帮助运维人员迅速定位故障原因,最大化利用系统的观测数据辅助进行根因分析,实现高效的故障修缮与恢复。此外,要确保“应用多活”成为保障业务连续性的关键抓手,而并非是一句宣传口号。当灾难(含基础设施故障)发生时,多活系统在分钟级内实现业务流量切换,有效保障业务系统持续稳定运行,提升系统故障逃逸能力。

事后构建故障闭环,降低故障复现率。完善故障管理机制,故障管理机制包括规范管理故障响应流程、故障升级机制、故障复盘机制,规范技术人员在应对突发故障时的操作流程,明确职责边界,提升沟通效率,推动故障解决,提升故障处理效率。

在以上这些方面,一些正在崛起的新兴云厂商可能比老牌巨头走得更快更前,比如,移动云一直聚焦云服务稳定性领域涉及的关键技术,从混沌工程、全链路压测建设、可观测性平台建设、应用多活架构等多方面提升移动云稳定性。同时加速运维系统的“平台化”、“数据化”、“智能化”建设,持续加强移动云稳定性。在去年8月工信部召开的“云服务稳定安全运行应急演练专项活动”中,移动云荣获“十佳优秀报告”荣誉称号。

最后,张勇在就任阿里云总裁后又发了一封内部信,里面有一段话——

“唯有日积月累的客户信任,才可以让我们真正在市场中保持领先优势,才能让我们拥有持久的核心竞争力。任何故障的发生,对阿里是万分之一、百万分之一的概率,一旦发生在每个客户身上就是百分之百。我们必须急客户所急,想客户所想,既主动解决客户看得到的问题,更要把客户尚未感知到的风险防患于未然。”

望行业共勉吧。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    8003

    浏览量

    143100
  • 智能化
    +关注

    关注

    15

    文章

    5209

    浏览量

    59705
  • 阿里云
    +关注

    关注

    3

    文章

    1028

    浏览量

    45498

原文标题:从阿里云盘崩溃谈起,云平台稳定性如何保证?

文章出处:【微信号:baixiniu2018,微信公众号:白犀牛通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何保证合金电阻的稳定性与精度?

    保证合金电阻的稳定性与精度需材料选择、制造工艺、结构设计、环境控制及测试验证等多维度综合施策。以下技术原理、关键措施及实际应用三个层面展开分析: 一、材料选择:奠定
    的头像 发表于 10-27 15:29 256次阅读
    如何<b class='flag-5'>保证</b>合金电阻的<b class='flag-5'>稳定性</b>与精度?

    低延迟高带宽电机驱动方案优化手持台动态响应与姿态稳定性

    在当今影像拍摄领域,手持台已成为专业摄影师和内容创作者不可或缺的设备。随着4K/8K超高清视频、VR全景拍摄等技术的普及,用户对台动态响应速度和姿态稳定性的要求越来越高。这直接推动了电机驱动技术的革新,低延迟高带宽的无刷电机
    的头像 发表于 08-12 17:40 683次阅读

    阿里设备的物模型数据里面始终没有值是哪里的问题?

    如上图,不知道讲清楚没有。 IG502自定义TOPIC 上发到阿里没问题。采用阿里物模型的格式来上发就不行。请大佬指教!
    发表于 08-05 06:43

    手持台马达驱动:提升摄影稳定性与观感的秘密武器

    在摄影的世界里,稳定性一直是影响作品质量的关键因素。无论是专业摄影师捕捉精彩瞬间,还是普通爱好者记录生活点滴,画面的稳定与流畅都至关重要。而手持台马达驱动的出现,如同给摄影设备装上了“稳定
    的头像 发表于 07-22 16:51 433次阅读

    MUN12AD03-SEC的热性能如何影响其稳定性

    意味着模块在不同环境条件下都能保持稳定工作。在低温环境下,模块的电气性能和机械性能可能会受到一定影响,但 MUN12AD03-SEC 能在 -40°C 的低温下正常工作,这保证了其在寒冷环境中的稳定性
    发表于 05-15 09:41

    阿里是什么?企业不可不知的云端架构服务!

    稳定性上皆有完善的解决方案,同时也提供加速器产品 CDN、DCDN。 内容分发网络 CDN 阿里内容分发网络(Content Delivery Network,CDN)的加速服务操作易上手,用户可以轻松通过“智能调度系统”就近
    的头像 发表于 03-16 09:43 1292次阅读

    阿里代理优惠上指南——火伞如何助力企业降本增效

    成本获得更适合自身需求的服务?如何避免因技术门槛导致的资源浪费?这正是专业代理商的价值所在。作为国内领先的阿里、腾讯、华为
    的头像 发表于 02-19 15:48 981次阅读

    HarmonyOS官网上线“稳定性”专栏 助力更稳定流畅的鸿蒙原生应用开发

    鸿蒙应用稳定性是影响用户体验的重要因素之一,常见的稳定性问题包括:崩溃、应用Freeze、内存泄漏、内存越界等。这类问题的定界与定位往往需要丰富的经验积累和技术沉淀,定位过程通常耗时耗力。 最近,在
    发表于 02-17 17:17

    A/D变换器采样速率和稳定性的关系,是什么影响了转换器的稳定性?

    我在测量A/D转换器时出现这样一个问题。采样率的提高,其A/D转换器的稳定性随之降低。我个人理解,采样率的提高已经在测量有效位数上将误差算出来了,我只需要考虑在高采样率时,有效分辨率的位数
    发表于 02-11 08:24

    阿里官网电脑版,阿里电脑版的下载使用教程

        在计算蓬勃发展的时代,阿里作为行业的领军者,旗下的阿里官网电脑版为用户带来了功能强大且便捷的云端服务。它整合了
    的头像 发表于 01-23 14:49 1868次阅读
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>官网电脑版,<b class='flag-5'>阿里</b><b class='flag-5'>云</b>电脑版的下载使用教程

    华为 Flexus X 实例性能实测:速度与稳定性的完美结合

    前言 在当今快速发展的计算领域,华为 Flexus X 实例以其卓越的性能和稳定性脱颖而出。通过全面的实测,我们验证了其在处理能力、网络延迟和安全性等方面的出色表现。本文将深入探讨华为
    的头像 发表于 01-17 09:21 1205次阅读
    华为<b class='flag-5'>云</b> Flexus X 实例性能实测:速度与<b class='flag-5'>稳定性</b>的完美结合

    旋转测径仪的底座如何保证稳定性

    关键字:旋转测径仪,底座材质,测径仪底座结构,旋转测径仪稳定性, 旋转测径仪的底座保证稳定性是确保测量精度和仪器长期稳定运行的关键。以下是一些常见的
    发表于 01-09 14:04

    电源滤波器的频率响应稳定性如何保证

    电源滤波器清除电源无用频率,保障后端设备电能稳定。频率响应稳定性至关重要,受元件性能、拓扑结构、阻抗匹配、环境干扰影响。需选用高性能元件、优化结构等保证稳定性,未来趋势为高频、宽频带、
    的头像 发表于 12-19 15:01 909次阅读
    电源滤波器的频率响应<b class='flag-5'>稳定性</b>如何<b class='flag-5'>保证</b>?

    探究阿里代理商的奥秘

    在数字化时代,阿里服务器以其卓越的性能和可靠的稳定性,成为了众多企业首选的服务提供商。然而,你是否曾好奇,为何选择阿里
    的头像 发表于 12-12 14:24 605次阅读

    库存平台稳定性建设实践

    作者:京东物流 尹昊喆 前言 本文总结库存平台稳定性建设中遇到的问题以及解决方案。感谢【金鹏】、【孙静】、【陈瑞】同学在本文撰写中提供的内容及帮助! 库存平台面临的稳定性挑战 库存
    的头像 发表于 12-11 09:50 922次阅读
    库存<b class='flag-5'>平台</b><b class='flag-5'>稳定性</b>建设实践