0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook宕机事故,暴露了上云不是唯一的答案

脑极体 来源:脑极体 作者:脑极体 2021-10-13 09:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当国内人民欢度假期的时候,互联网巨头Facebook却收获了“负面新闻大礼包”。

负面之一,就是长达6小时的全球大宕机。

据说,这是Facebook创办以来最严重的一次网络访问事故,除了Instagram、Whatsapp、Messenger这几大海外冲浪必备平台,虚拟现实平台Oculus的游戏,部分企业端服务以及很多需要Facebook账号登录的平台都上不去了,就连Facebook公司的内网也受到影响。要知道,这里可汇聚了全球最厉害、薪酬最高的一大批程序员啊!

互联网公司宕机,并不是一件很稀奇的事。

今年早些时候,国内某视频平台就因为服务器突然故障,一度崩溃,大量用户“流浪”到其他网站,巨大的流量洪峰又让其他平台也连锁式瘫痪了,各厂程序员们都感受到了被宕机统治的恐惧,一度登上微博热搜,被网友戏称为——互联网内卷之《谁也别想睡觉》。

同样是宕机,为什么Facebook就面临着“非死不可”的吐槽声,而不是一笑了之呢?

这可能是因为,Facebook庞大的产品生态,已经不再是娱乐冲浪的一部分,而成为了数字生活的基础设施。

尤其是在疫情之后,许多企业服务、办公教育等都依赖互联网来完成,服务中断会直接导致严重的经济损失。

在WhatsApp(Facebook旗下一款类似微信的软件)的官网就显示,巴黎的医疗人员会在WhatsApp 群组内更新医院病床、资源等信息;印度企业依靠WhatsApp售卖产品;巴西政府、医疗和教育系统都通过WhatsApp提供C端服务,比如接收考试成绩、远程预约挂号等等。

可想而知,作为数字化底座的互联网服务,一旦中断,将连带产生不少次生灾害。

而面对宕机,我们第一时间总会想到云服务商,云中断导致的问题,互联网企业自然也是受害者。

不过,像Facebook这样的巨头,往往核心业务和数据都放在自家数据中心的服务器上。这次宕机之后,就有不少工程师“打飞的”到位于加州的主数据中心参与维修,科技媒体The Verge还曾爆料,因为门禁卡失效,工程师们使用切割机,锯开了数据中心的服务器铁笼。

Facebook面临的挑战,也是许多互联网巨头的缩影:一方面,作为数字化底座,最大程度地保证基础设施的稳定性、可靠性,是巨头们应尽的社会责任;同时,又不能将希望全部都放在云服务上,增加了IT系统的复杂度和运维难度。

这次大型宕机事件也掀开了全面上云的另一面,为什么互联网巨头们都没有把鸡蛋放在一朵云上?

不是唯一的答案:云服务的另一面

互联网公司,可谓是云服务的先遣部队。在传统行业还不知道什么是互联网浪潮、什么是云的时候,互联网公司就成了云厂商的高价值客户。

常规情况下,互联网企业会将移动应用、电商之类前端流量业务放到云上,以节省自建机房的高昂成本。

不过,别看互联网企业上云这么积极,它们可是“狡兔三窟”,一边迁移上云,一边也有本地数字基础设施。2018年,Facebook斥资10亿美元在新加坡打造了亚洲首个数据中心,这也是它在全世界的第15个数据中心。相当于一边从发电厂买商业用电,但也在造自己的发电机

这两年来,上云浪潮如火如荼,出现了一些观点,认为云服务会彻底消除数据中心,但事实上,越来越多的企业在尝试让部署数据中心上的旧应用升级,而不是将一切业务都云化。

甚至有企业IT人员告诉我,他们可能会让自家的数据中心永远运转下去。

要知道,数据中心几乎占据了企业网络支出的最大组成部分,每年需要支付不小的租金和改造、维护费用,这无疑会增加额外的成本,为什么互联网企业依然坚持这么做呢?

第一,传统机房可能会宕机,但上云也未必完全稳定。

云服务虽然不需要维护传统机房,数据存储、计算都在云端,但几乎没有哪个云服务厂商实现过100%的连续性,都出现过计划外的停机。2017年,IBM、AWS、谷歌、苹果等主要云服务提供商也都经历过云中断,将Netflix、Quora、Reddit和 Foursquare等热门应用“一波带走”,影响了大大小小的企业。

第二,成本效益很重要,但数据资产安全更重要。

云服务能够避免维护机房带来的麻烦,但除非付费搭建私有云,否则依然要与其他云用户共享硬件资源,这就使得企业无法对远程硬件拥有足够的控制权。任何拥有凭据的人可以从任何有网络连接的地方访问云端数据,也意味着广泛的接入点,如果不能在每个位置都部署安全措施,那么传输的数据风险也很大。

要论最安全、最可控,还是要属自建数据中心,只允许拥有凭证和设备的人才能访问本地网络,可以让企业完全控制数据,以及基础硬件,更适合那些业务复杂多元的组织。

第三,多云/混合云有帮助,但无法彻底解决顾虑。

既然这样,不把鸡蛋放在一个篮子里,一次用两个甚至两个以上的云,不就可以在出现故障时快速启动“备胎”吗?道理虽然如此,但多云部署的成本很高,并且依然不能完全防止短期终中断,有时还需要人工参与,并不像我们想象的那样能够瞬间丝滑切换。

比如Gov.uk 就在亚马逊的 CloudFront服务上运行了备份 CDN, 但需要人工干预才能切换到备份。

而适合建设云基础设施的环境也常常会出现扎堆的情况,从而导致几家云服务商要停机就一起停的尴尬。此前,亚马逊和微软在爱尔兰都柏林的云基础设施,就因为遭遇雷暴天气,让使用亚马逊EC2和微软BPOS服务的客户都宕机了。

另外,并不是所有的云都是完全开放、可互操作的,这时候为了用好每一个云平台,企业还需要通过多个系统来配合,增加了额外的支出和运维难题。

所以说,只有足够可靠的云服务,才能打消客户的顾虑,从本地容灾备份、混合云等其他方案,转变为全面依赖云,并且只依赖某一朵云。

当许多人呼吁着,把云看作万能神药的时候,必须考虑一个前提:云服务怎样才能变得足够稳定和安全?而这一点,似乎跟现实还有点距离。

安全力Max:Facebook的冗余启示录

归根结底,想要业务更可靠,每个组织都没有“一刀切”的解决方案。

公共云、私有云、混合云或传统数据中心,如何选择应该按照不同企业、不同数据隐私敏感度、成本预算等来综合考量。

简单来说,传统数据中心成本高,控制强,很适合那些已经在IT方面进行了大量投资,对数据隐私要求谨慎的组织,所以像Facebook这样涉及到全球几十亿用户信息的互联网企业,数据中心是必须配置的。

而大多数企业,完全没有必要自己搭建服务器。直接上云省心又省力,可以快速搭建起网络业务,但过程中必须对隐私访问进行密切监控。

而即拥有IT 基础设施的大型组织,但也希望开始云之旅的大型企业和组织,可以同时尝试混合云,将云平台的所有优势都“一网打尽”。不过,跟踪多个云可能会比较棘手,往往需要第三方仪表板等协助。

看到这里,你可能会发现数字时代业务安全的核心密码:冗余思维。分别来自:

硬件的冗余,有充足的服务器保障,如果整个数据中心受到冲击,数据可以复制到其他地理位置的数据中心上;

服务的冗余,利用多个云服务商的服务耦合,比如主要云服务商停电期间,二级供应商的云服务可以作为补救措施,确保业务继续;

视角的冗余,更多数据源头也被纳入考量中来,比如工业部门常见的边缘设备,传感器、监视器和控制/驱动设备等,就正在成为云时代的“新数据源”,需要被纳入到主动管理中来,比如增加DNS(域名解析服务)解决方案,避免单一DNS中断或减速。

VMware的一些统计数据表明,未来五年内,许多组织的工作负载将按 30% 数据中心、40%公有云,以及 30% 的边缘计算来分布。

从这个角度来说,云市场还有不少空间可待挖掘,厂商之间的明争暗斗还将持续一段时间。

而企业在数字化过程中考虑云服务时,也需要重视三个基本前提。

1.将云安全作为优先事项。互联网充满了机会,也意味着无法继续躲在防火墙背后得到充分的保护,因此安全必须作为重中之重。

2.引入多云和混合云策略。如果对云端安全不了解,那么引入多个云供应商可以有效降低被单一云锁定的风险,为云策略的后续优化留下空间。

3.优先将前端流量处理业务迁移上云。尤其是大量视频和音乐流量的业务,可以迁移到云上,灵活扩展带宽,避免网络使用高峰时响应不及时的情况发生。而一些放在原本数据中心的应用,仍然留在本地设施上。

Facebook的故事背面,是互联网巨头托举起国家和社会服务的现实景象,这也使我们反思,一味强调云,是不是将数字化想得过于简单。

云服务产生的变革固然让人兴奋不已,但这并不代表,云就会干掉传统数据中心,或者某朵云“独霸天下”。

容纳共存,在这个基础上重新定义云和网络服务,或许会帮我们看清新信息技术的新模式,以及云市场的新机会。

fqj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    55

    文章

    11350

    浏览量

    110444
  • 云服务
    +关注

    关注

    0

    文章

    861

    浏览量

    41075
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Cloudflare宕机!全球网络崩了

    错误提示。而这切的原因在于互联网基础设施服务商Cloudflare又宕机了。   尽管Cloudflare随后表示,目前已修复问题。但对此已经造成的数十亿美元的损失,这次事件持续超三小时,影响范围极广,甚至波及用于监测网站状态的平台Downdetector本身,因其也依
    的头像 发表于 11-21 08:57 9675次阅读

    天时间让AI重写个超轻量的AI 助手,并在60块的开发板跑起来!

    :AIAgent能不能走出MacMini,跑在更多现有硬件?PicoClaw给出的答案是——10MB内存,10美元硬件,够了。发布不到个月,GitHubStar突破25K,社区开
    的头像 发表于 04-01 07:59 285次阅读
    用<b class='flag-5'>一</b>天时间让AI重写<b class='flag-5'>一</b>个超轻量的AI 助手,并在60块的开发板<b class='flag-5'>上</b>跑起来!

    翎智能铁路巡检AI执法记录仪构筑铁路施工“零事故”智能屏障

    、全链路的智能感知网络,为铁路施工筑起道不可逾越的零事故科技防线。翎智能铁路巡检AI执法记录仪核心技术:厘米级精准定位与AI深度识别的“双引擎”该智能记录仪的核
    的头像 发表于 03-03 22:36 192次阅读
    <b class='flag-5'>云</b>翎智能铁路巡检AI执法记录仪构筑铁路施工“零<b class='flag-5'>事故</b>”智能屏障

    企业后,数据不通、访问卡顿?这份网融合解决方案请收好

    前言在数字化转型的浪潮中,“业务”早已成为企业升级的标配。但很多企业完成后却发现,理想中的高效流畅并未如期而至,反而陷入了新的困境:不同
    的头像 发表于 03-02 11:28 332次阅读
    企业<b class='flag-5'>上</b><b class='flag-5'>云</b>后,数据不通、访问卡顿?这份<b class='flag-5'>云</b>网融合解决方案请收好

    ZWS智慧储能平台:让多形式设备“,各显其长”

    多形式储能设备怎样快速,又能各显其长?ZWS智慧储能平台次讲透。前言上期我们介绍了ZWS智慧储能平台的基础接入能力——通过EM系列
    的头像 发表于 02-12 11:39 298次阅读
    ZWS智慧储能<b class='flag-5'>云</b>平台:让多形式设备“<b class='flag-5'>一</b>次<b class='flag-5'>上</b><b class='flag-5'>云</b>,各显其长”

    PCB阻焊覆盖的唯一依据:Gerber文件

    PCB阻焊覆盖的唯一依据:Gerber文件 工程师研习社 工程师研习社 2026年1月15日 08:02 广东 PCB交付后,制造商时常收到如上问题反馈。 部分工程师认为阻焊覆盖只需在下单时勾选
    发表于 01-23 13:58

    存储大涨价时,企业如何在「渡劫」?

    ,找到对抗硬件通胀的终极答案
    的头像 发表于 01-02 02:06 8322次阅读
    存储大涨价时,企业如何在<b class='flag-5'>云</b><b class='flag-5'>上</b>「渡劫」?

    当业务遭遇网络瓶颈?科技SD-WAN,交付确定性业务体验

    前言企业全面拥抱、AI与全球化时,他们的基础设施网络,是否真的准备好了?答案可能比我们想象的更复杂。在智能制造、跨境出海、AI训练等前沿领域,我们看到个共同的困境:企业边在公有
    的头像 发表于 11-10 13:37 756次阅读
    当业务<b class='flag-5'>上</b><b class='flag-5'>云</b>遭遇网络瓶颈?<b class='flag-5'>云</b>边<b class='flag-5'>云</b>科技SD-WAN,交付确定性业务体验

    翎智能高精度人员定位工作记录仪助力铁路隧道施工实现零事故目标

    ,助力施工零事故目标高效达成。具体实现路径如下:翎智能铁路人员高精度定位解决方案1.厘米级定位破解隧道定位难题技术组合:采用北斗/GPS双模卫星信号+RTK实时动态
    的头像 发表于 10-30 21:16 401次阅读
    <b class='flag-5'>云</b>翎智能高精度人员定位工作记录仪助力铁路隧道施工实现零<b class='flag-5'>事故</b>目标

    工业智能网关支持MQTT

    工业智能网关普遍支持MQTT,这是其核心功能之,旨在解决工业设备与云端平台间的协议兼容性、数据标准化传输及远程管理问题。
    的头像 发表于 09-02 18:15 922次阅读
    工业智能网关支持MQTT<b class='flag-5'>上</b><b class='flag-5'>云</b>吗

    请问如何保证UID(唯一ID)的唯一性?

    如何保证UID(唯一ID)的唯一性?
    发表于 08-21 08:18

    中软国际迁移服务充分释放计算价值

    在数字经济时代,企业已成为提升业务敏捷性、降低成本、增强安全性的关键路径。然而,迁移涉及复杂的业务系统、海量数据和高可用性要求,如何确保迁移过程高效、稳定、安全,成为企业面临的
    的头像 发表于 07-25 14:32 1075次阅读
    中软国际<b class='flag-5'>上</b><b class='flag-5'>云</b>迁移服务充分释放<b class='flag-5'>云</b>计算价值

    工控体机散热不良导致宕机?聚徽揭秘3 步优化散热方案 + 选型避坑指南

    在工业自动化进程加速的当下,工控体机凭借高度集成化和强大的运算能力,成为生产线上不可或缺的核心设备。然而,散热不良引发的宕机问题,却如同隐藏在设备中的 “定时炸弹”,不仅中断生产流程,还可能造成
    的头像 发表于 07-02 10:23 1156次阅读

    根技术生态,为何需要繁荣?

    根技术生态,科技自立自强的下个目标
    的头像 发表于 07-01 10:11 2745次阅读
    根技术生态,为何需要<b class='flag-5'>云</b><b class='flag-5'>上</b>繁荣?

    工业组态在智慧水利的应用

    工业组态在智慧水利中发挥着重要作用,通过将组态软件的功能迁移到云端,实现了设备、数据、应用和服务的全面集成,为水利业务的精细化管理、智能化决策和泛在化服务提供了有力支持。以下从应用场景、功能优势
    的头像 发表于 06-20 16:11 627次阅读