0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云崩了:企业未来该怎么选择云厂商?

jf_81200783 来源:jf_81200783 作者:jf_81200783 2023-11-23 10:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2023 年 11 月 12 日 17:44 开始,阿里云发生严重故障,导致阿里巴巴大量产品无法连接,一时间,“阿里云盘崩了”、“淘宝又崩了”、“闲鱼崩了”、“钉钉崩了”等话题相继登上热搜。

wKgaomVeA_2AY0gXAAGNlbzRN8g21.jpeg

阿里云出现大规模故障,也成为政企们热议的话题,大家关心的问题在于:公有云到底还安全吗?是否还能继续上云?未来应该采取哪些措施来保障稳定可靠?

不要动摇“上云”的方向

一个不争的事实是:阿里云出现严重故障,给上云企业,特别是核心业务跑在云上的企业带来了损失。

一个是故障波及的范围广,故障期间阿里云控制台无法正常登录,API 调用异常,导致阿里云全系列产品服务及全球区域数据中心都受到了影响;另一个是持续的时间长,故障持续了 3 个多小时才基本完全恢复。据不完全统计,除了阿里系几乎全线产品出现故障外,整数云、理工小蜜蜂、饿乐送、cooleasy、IOTTEC、纳思云、语雀等平台均受到影响。

如此大的影响规模,如此严重的程度,在公有云历史上都非常罕见。于是,有一些人出现了是否继续上云的疑虑,甚至有人说应该退回到过去自建的模式。

笔者首先给出结论:千万不要动摇“上云”的方向。虽然这次阿里云出现的故障很严重,但我们仍不能否认云相比物理主机具有更高的可靠性。

这是因为传统服务器硬件受到厂商品牌、机型、服务器运行时间以及部件型号故障率等诸多因素影响,更容易出现故障,而云服务提供商通常遵循一对多的模型,而且具有专业的基础运维团队和内核团队,能够在出现问题时快速恢复。相比自建机房的方式,公有云不仅运维成本更低,而且运维更专业、可靠。

某电商公司 2018 年投入数百万资金自建物理机房,起初系统稳定性连 90%都达不到,2020 年双 11 大促活动期间,因业务中断两小时,造成高达 100 余万的损失。后来该公司改用移动云云主机,公司业务系统稳定性提高至 99%,建设维护成本下降 60%,问题迎刃而解。

更重要的是,上云相比自建机房更是能为企业带来无可比拟的价值。在数字化转型的大背景下,云作为数字化转型的重要支撑技术,具有按需使用、弹性伸缩、资源共享等优势,可以提升企业的业务敏捷性,降低企业的成本。而且,云计算也是人工智能的基座,只有在云的基础上,企业才能更好地拥抱智能时代。

从千行万业无数企业的实践也能看到这一点。例如,对可靠性要求最为苛刻的金融企业,也在将核心业务上云。以邮储银行为例,其新一代分布式核心系统为全行 6 亿多个人客户提供了日均 20 亿笔的处理能力,联机交易处理效率提升一倍,批处理效率提升 33%。

正如长江黄河不会倒流,上云的大方向也不会因为出现一些坎坷而发生改变。

鸡蛋不要放在一个篮子里

上云的方向没问题,但是上云的路径和具体策略却需要借助阿里云故障时间进行重新审视。

比如对于核心业务上云的企业,就有必要警惕云集中的风险,实施多云战略势在必行。

Gartner 公布的 2023 年三季度新兴风险报告显示,云集中风险连续第二年进入“五大新兴风险”综合榜单,其中中国市场的这种风险尤为突出。正如 Gartner 法律风险与合规实践部门研究总结徐然所说,“云服务集中化风险正在成为大多数企业的共识,许多企业和机构现在面临这样的处境:一旦单个云服务商出现故障,将导致业务发生严重中断。”

破局云集中风险的一个有效途径,就是实施多云战略,就像不要将鸡蛋放在同一个篮子里一样。Flexera 发布的《2021 年云计算市场发展状态报告》显示,有 92%的企业采用了多云战略,就是如此。

采用多云战略的好处显而易见,一方面,企业可以将风险分散,防止出现某个云厂商出现故障时企业业务中断的风险,实现双保险、多保险;另一方面,企业也能选择各领域最优的云服务厂商,形成最佳组合来满足业务需求。

通过这次阿里云宕机事件,还有一个警示意义,那就是必须要重视灾备。事实上,灾备服务也是云相比自建机房的重要优势,云服务提供商通常会提供灾备服务,以满足企业数据安全和业务连续性需求。

但是需要指出的是,不同云厂商的灾备服务能力也是有差异的。例如,华为云就具有同城 AZ(AvailableZone,可用区)内、跨 AZ、异地跨区的两地三中心容灾方案和 1000 公里以上的城市级容灾能力。河钢集团,就采用华为云提供的两地三中心容灾备份方案,实现了系统的平稳可靠运行,任何时候都能实现业务 0 中断。

所以,对于将核心业务放在云上的企业,只有不将鸡蛋放在一个篮子里(多云与多地灾备),才能最大限度保障企业核心数据的安全和业务的平稳运行。

后记:选云,要选可靠的云

毋庸置疑,阿里云这次出现如此大的故障,会对其未来的市场开拓带来负面影响。野村综研(上海)数字化能力中心总监陶旭骏就表示,政府和国企央企市场是云市场的非常重要的客户群,他们对安全性和稳定性的要求是压倒成本和性能的,阿里云会在开拓企业市场时受到挑战。

可以预计,这次事件也会对政企在选择云服务厂商时带来影响,大家会有一个强烈的共识:选云,要选可靠的云。因为,不管是性能,还是成本,都必须有一个前提,那就是高可靠性、高可用性。打个比方,高可靠性和高可用性是 1,其他是 0,如果没有前者,后者也不复存在。

那么什么是可靠的云呢?我觉得,首先要看企业的基因。比如华为云,就根植华为的基因,华为从运营商业务起家,运营商对于产品的可靠性、稳定性有极高的要求,如我们经常听到的电信级要求,要求在不间断运行、高稳定性、可靠性上有 5 个 9 的级别。正是这样严苛的要求,让高可靠性、高可用性刻在了华为、华为云的骨子里,渗透到了血液里。

其次要看企业在高可靠性、高可用性上的技术能力,尤其是运维安全上的内功。事实上,在软硬件迭代加速、企业需求瞬息万变、不确定性加剧的大背景下,云服务的运维也在发生变革,运维既要保稳,也要敏捷。令人欣喜的是,业界的头部厂商正在身体力行地推动运维模式的变革,从运维组织、人员能力、知识体系发展等全维度进行变革,强化稳定可靠性。

稳定可靠一直是各云厂商的业务重点和难点,为此进行了各种组织上和体制上的设计。例如,华为云内部就专门有一种职业,叫做 SRE(SiteReliabllitiyEngineer,站点可用工程师),还系统定义了包括质量管理机制、运维平台等 SRE 的能力体系。京东云通过京东云云泰-稳定性主动管理平台,为客户提供全链路的云上安全保障,其基于混沌工程原理,可以做到先于用户发现问题、先于感知修复问题。金山云服务器带来完善的管理员面板功能,可以让用户快速了解实例情况、配置实例、挂载和扩容硬盘等,随时掌控资源使用情况。

总而言之,针对阿里云出现故障这一事件,需要客观理性看待:既不能因噎废食,改变上云的大方向;也不能置若罔闻,需要对上云的路径和策略进行重新审视,需要对云服务厂商进行全面审视。

只有这样,企业的云上之旅和数字化转型步伐才能既快又稳。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    14

    文章

    10438

    浏览量

    91846
  • 云服务
    +关注

    关注

    0

    文章

    867

    浏览量

    41116
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿里发布128卡超节点服务器

    5月20日,2026阿里峰会正式拉开帷幕。在这场备受瞩目的年度盛会上,阿里重磅发布了基于平头哥新一代AI芯片真武M890打造的128卡超节点服务器,搭载自研互联芯片ICN Swit
    的头像 发表于 05-21 09:06 775次阅读

    新一代微服务全家桶AlibabaCloud+SpringCloud实战

    团队已经全面切换到 双微服务架构 ——业务跑在阿里,AI跑在华为,数据备份在腾讯,三家
    发表于 05-18 17:04

    科技再获阿里卓越架构生态合作伙伴认证 共筑混合数智化新底座

    前言近日,科技再次获得阿里卓越架构生态合作伙伴认证,并凭借最佳实践荣膺筑领航奖。这一认可,既是对
    的头像 发表于 05-18 10:01 720次阅读
    <b class='flag-5'>云</b>边<b class='flag-5'>云</b>科技再获<b class='flag-5'>阿里</b><b class='flag-5'>云</b>卓越架构生态合作伙伴认证 共筑混合<b class='flag-5'>云</b>数智化新底座

    阿里上线团队版Token Plan

    2026年5月11日,阿里正式上线团队版Token Plan,这是一款专为企业和开发者打造的AI大模型订阅服务。计划以Credits为统一计量单位,内置Qwen3.6、Kimi-K
    的头像 发表于 05-12 11:05 901次阅读

    深化阿里生态合作 优化治理能力再获权威认可

    前言2026年2月5日,阿里上海大区合作伙伴年度颁奖仪式圆满举办,科技凭借在优化治理领域的深厚技术积淀、丰富的行业落地成果与卓越的
    的头像 发表于 02-09 17:29 1253次阅读
    深化<b class='flag-5'>阿里</b><b class='flag-5'>云</b>生态合作 <b class='flag-5'>云</b>优化治理能力再获权威认可

    阿里SLB负载均衡配置指南

    当业务流量超过单台服务器的承载能力,或者需要实现服务的高可用时,负载均衡成为必不可少的基础设施。阿里SLB(Server Load Balancer)作为国内使用最广泛的负载均衡服务,承载着海量的互联网流量。
    的头像 发表于 01-30 17:47 1857次阅读

    声智科技亮相2026阿里通义智能硬件展

    1月8日至11日,备受瞩目的阿里通义智能硬件展在深圳火热开启。作为专注声学AI的全球创新企业,声智科技(SoundAI)与阿里通义大模型
    的头像 发表于 01-19 16:06 788次阅读

    双百!100%中国车企全球业务接入阿里

    摘要:AI和汽车行业正在加速融合,未来阿里全栈AI将支撑全球车企建立领先的技术架构与智能体验。 近日,在2026年新加坡国际车展上,阿里云表示已在汽车行业实现“双百”突破:中国车企不
    的头像 发表于 01-13 10:25 363次阅读
    双百!100%中国车企全球业务接入<b class='flag-5'>阿里</b><b class='flag-5'>云</b>

    什么是企业服务器-计算

    企业服务器是指为企业提供的基于计算技术的服务器解决方案。华纳是一家计算服务提供商,为
    的头像 发表于 12-29 17:57 1235次阅读

    延锋国际 X 阿里:全栈AI加速汽车产业智能升级!

    近日,全球领先汽车零部件企业延锋国际与阿里正式签署全栈AI合作协议。未来,依托阿里领先的全栈
    的头像 发表于 12-12 09:16 499次阅读
    延锋国际 X <b class='flag-5'>阿里</b><b class='flag-5'>云</b>:全栈AI加速汽车产业智能升级!

    英特尔助力阿里推出多款实例和存储方案

    AI时代数据爆发式增长,让企业对数据的实时处理、深度分析与智能决策等提出了更高要求,同时也对基础设施在性能、成本效益上的综合能力提出了更迫切的需求。为应对这些挑战,阿里与英特尔推出
    的头像 发表于 10-16 10:22 829次阅读

    中宇联持续深化与阿里Well-Architected卓越架构合作,共筑企业智能升级基石

    ,更是对双方携手推动企业AI与转型成果的肯定。在加速企业智能化升级的浪潮中,中宇联与阿里的技术融合正为
    的头像 发表于 10-11 10:18 1612次阅读
    中宇联持续深化与<b class='flag-5'>阿里</b><b class='flag-5'>云</b>Well-Architected卓越架构合作,共筑<b class='flag-5'>企业</b>智能升级基石

    赛思PTP时间同步服务器推荐 赛思×阿里 |30ns精度编织全球算力无界网

    受国际好评。《歌手2025》的全球直播的成功,不仅是中国企业出海的有力印证,更是阿里分布式数据中心与赛思时间同步技术深度融合的缩影。#阿里
    的头像 发表于 08-15 17:59 2794次阅读
    赛思PTP时间同步服务器推荐 赛思×<b class='flag-5'>阿里</b><b class='flag-5'>云</b> |30ns精度编织全球算力无界网

    阿里设备的物模型数据里面始终没有值是哪里的问题?

    如上图,不知道讲清楚没有。 IG502自定义TOPIC 上发到阿里没问题。采用阿里物模型的格式来上发就不行。请大佬指教!
    发表于 08-05 06:43

    四维图新与阿里达成战略合作

    近日,北京四维图新科技股份有限公司(以下简称“四维图新”)与阿里计算有限公司(以下简称“阿里”)正式签署战略合作框架协议,宣布建立长期战略合作伙伴关系。双方将深度融合四维图新在辅助
    的头像 发表于 06-05 17:53 1340次阅读