0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌突然遭遇全球大面积故障 到底是哪里出了问题

ss 来源:常言道 作者:丁常彦 2020-12-22 15:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自动配额管理系统出现故障,属于典型的运维问题。

据彭博社报道,美国太平洋时间12月14日凌晨3点47分左右,谷歌突然遭遇全球大面积故障,导致旗下的YouTube、Gmail、Google Drive、Google Search等服务出现异常,用户无法正常使用,全球多个国家及地区用户均受到影响。直到当地时间早上8点左右,谷歌的大多数服务才恢复正常。

这已经是谷歌5个月内第三次“掉链子”了。今年8月20日,谷歌旗下多项服务出现异常,涉及美国、印度、日本等多个地区,官方抢修5小时后才恢复正常;今年9月25日,谷歌系统瘫痪多半集中在美国东岸Gmail、YouTube、Google云端在系统死机时,不断有用户持续尝试进入,但都无法顺利使用。

到底是哪里出了问题?

对于12月14日这次全球大面积瘫痪,谷歌的工程师们连夜奋战,反应不可谓不迅速。但相比较危机之后的迅速反应,用户更希望谷歌能够提前做出预判,避免问题发生。

12月15日,谷歌官方出具的一份调查报告显示,导致宕机的原因是“internal storage quota issue”,即内部存储配额问题。具体来说就是:“我们的自动配额管理系统出现了问题,降低了谷歌中央身份管理系统的容量,导致其在全球范围内返回错误。因此,我们无法验证用户请求是否经过认证,并向用户提供错误。”

自动配额管理?这概念根本不理解啊,小编赶紧去咨询了华为存储的专家,经过专家解释,小编终于明白了。原来数据要写入到存储中,需要将数据存放在一个池中,每个要存进来的数据都要在对应的空间内存放,业务能写多少数据到池中,则需要“配额”来管理。

这就类似于仓库管理一样,货物来了要想入库,必须先让仓库管理员给指定位置。而自动配额管理出了问题,就相当于来了一卡车货,仓库管理员只给了几平米的空间,仓库管理员又没有及时调整地方,货物根本无法入库,不报错才怪。

华为存储的专家认为,自动配额管理系统出现故障,属于典型的运维问题;配额的出发点是希望限制应用对存储资源的无节制使用,但凡事总有例外,如果有突发情况,自动配额管理系统不能及时调整配额或者给出了错误的配额,就会导致谷歌这样的问题出现。

搞清楚了问题根源,以后如何彻底避免类似问题出现呢?专家建议,运维工作不仅仅在存储池即将写满的时候报警,如果能做到提前预测,在存储池即将写满的几个月之前就能发出预警,提前扩容来避免自动配额管理系统“罢工”。

存储的智能运维该怎么做?

调查显示,随着全球数据规模的爆炸式增长,企业数据中心的故障中,与存储设备有关的故障占到70%以上。尤其在新技术和新应用层出不穷的今天,运维工作日趋复杂。传统运维高度依赖人的经验,如何借助AI等技术的应用,实现智能运维已经成为行业发展的大势所趋。

谷歌自动配额管理系统出现问题无疑给智能运维提出了更高要求,企业必须选择更先进的存储容量预测和管理解决方案,以应对在智能运维上可能遇到的风险。为此,华为存储也在逐步构建起面向智能运维的AI能力,围绕客户关心的设备异常、容量预警等关键场景,逐步发布多个重量级AI特性,为客户业务的正常运行保驾护航。

DME(Data Management Engine,数据管理引擎DME)是华为数据基础设施智能运维平台,该平台通过与存储设备内置的设备AI以及云端AI(eService)实现三层AI协同,并通过融合统一的管理界面、自动化的闭环机制以及开放的API、旨在使能数据存储的“规划、建设、运维、优化”全生命周期场景的管理与运维自动化,帮助客户简化存储管理,提升数据中心的运营效率。

在容量预测方面,如果客户能够提前预知存储设备或存储池,甚至是更细粒度对象的容量变化趋势,那么容量配额不足导致服务宕机的发生可能性则会大大降低。华为提供的云上+本地联动运维能力,基于时序预测等关键技术,能够向客户提供未来最长365天的容量趋势预测,并能够提前预警80%配额,提醒用户提前扩容。

在风险盘预测方面,华为硬盘异常检测模型服务依托华为自身在硬件领域的技术及经验积累,基于S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)等硬盘关键数据信息构建机器学习模型,每日采集数据中心硬盘数据(硬盘ID、SN、硬盘非安全断电次数、通电时长),从历史数据中识别硬盘不同属性的突变模式对当前状态进行预测。

结合用户反馈数据,定期执行模型自优化,持续提升预测精度,可以为数据中心硬盘提供主动运维。截至目前,华为硬盘异常检测模型服务已经覆盖200多家企业数据中心,可帮助客户提前14天识别硬盘故障或风险,其中查全率达80%,误报率低于0.1%。

在存储性能异常预测管理方面,华为可以围绕存储性能相关问题提供全面分析处理方案。其中,基于时间序列预测等关键技术的性能预测特性以及基于阈值触发的性能潮汐预警,能够让客户预知设备关键性能指标变化趋势,如时延、IOPS、块带宽等,从而提早发现设备性能瓶颈点,辅助客户尽早规避可能发生的异常。

基于机器学习的关键性能KPI异常检测及根因定界特性,无监督自学习的异常检测模型能够实时检测设备时延是否异常,现网数据验证,异常检测准确率近90%;存储设备内置基于多集成树算法融合模型,外加皮尔逊相关性关联分析算法,实现异常根因的定界分析,基于现网数据的验证结果,根因定界Top3命中准确率近83%,提升客户发现性能问题、定位问题边界的效率。

未来,华为存储将基于领先的三层AI架构,通过与客户的联合创新,逐步推动产业迈向数据基础设施的“自动驾驶”时代,实现异常场景的快速自愈等L3级特性,不断降低客户运维门槛和运维成本,实时保障客户业务不受干扰。

数据基础设施进入AIOps时代

AIOps的概念最早出现在Gartner的报告上,即将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题。简单地说,过去需要花费数个小时、数天甚至数周才能完成的故障诊断和修复工作,AIOps可能只需要花几秒钟,而且判断更加精准。

Gartner相关报告预测,AIOps的全球部署率将从2017年的10%增加到2020年的50%。到了2022年,部署AIOps平台的大型企业数量将2017年的不足5%,迅速提升到40%左右。如今,AIOps主要应用于电信、互联网、金融等多个涉及的IT运维领域,涉及网络、存储等多个层面。

尤其在数据基础设施层面,AIOps的应用不仅可以提升其自动化运维、故障处理和数据管理等能力,还可以进一步推动数据基础设施的智能管理,从而帮助存储管理员从繁琐、复杂的工作中解放出来。

华为DME作为融合AIOps理念的产品,正在开启数据基础设施运维自动化时代。以某全国性商业银行为例,该银行基于华为DME数据管理引擎,在融合管理、业务变更以及统一运维等场景引入安全可控的自动化以及智能能力,显著提升了运维效率及业务敏捷水平。

其中,在业务变更方面,传统方式下,银行为了确保零失误,往往采用堆人堆时间的方式,每一个具体任务都由运维工程师出具一个设计脚本,单任务脚本往往需要45分钟,而通过华为DME的应用,单任务脚本准备时间从45分钟降低到10分钟。在变更执行阶段,通过自动化能力的引入,变更前预审时间从20分钟直接减少到半分钟;不仅如此,DME还能够实现所有任务的并发执行,大大减少人力投入,变更任务越重,效率提升越明显。

而在性能分析方面,通过华为DME的引入,相较之前的逐段分析,通过端到端的拓扑呈现以及快速关联分析,性能问题的定位时间从小时级锐减到分钟级。

从谷歌的此次全球宕机事件,我们可以看出,在数据基础设施的运维层面,拥有强大的AIOps能力,才能在短时间内完成故障诊断和自动修复,对于保障业务连续性意义重大。正因为如此,华为也在通过DME与自身存储产品的融合,致力于为企业实现AIOps提供软硬搭配的全方位解决方案,为企业的数字化转型提供有力支撑。

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110263
  • 智能化
    +关注

    关注

    15

    文章

    5209

    浏览量

    59712
  • 运维
    +关注

    关注

    1

    文章

    281

    浏览量

    8501
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大面积钙钛矿组件规模化制备:沉积工艺、器件封装及稳定性测试

    大面积组件,面临核心瓶颈:传统旋涂工艺在放大时因离心力作用导致薄膜不均与缺陷增殖,致使组件性能显著衰减。美能钙钛矿复合式MPPT测试仪采用AAA级LED太阳光模拟器作
    的头像 发表于 12-08 09:02 41次阅读
    <b class='flag-5'>大面积</b>钙钛矿组件规模化制备:沉积工艺、器件封装及稳定性测试

    认证效率达24%,激光退火实现大面积钙钛矿组件的高效无损制备

    钙钛矿太阳能电池在小面积电池中已实现超过27%的功率转换效率,展现出巨大的商业化潜力。然而,从实验室小面积电池向大面积组件的产业化推进过程中,传统热退火工艺面临关键瓶颈:为获得高质量晶体需要在惰性
    的头像 发表于 12-01 09:01 317次阅读
    认证效率达24%,激光退火实现<b class='flag-5'>大面积</b>钙钛矿组件的高效无损制备

    振华真空镀膜设备亮相广东真空展,攻克大面积均匀光学镀膜难题

    在2025年11月13日至15日于广东佛山举办的真空与半导体行业展会上,真空镀膜设备制造商振华真空推出的“大平面光学镀膜生产线”受到业内广泛关注。该方案基于自研的磁控光学沉积技术,有效改善了大面积
    的头像 发表于 11-17 16:00 731次阅读
    振华真空镀膜设备亮相广东真空展,攻克<b class='flag-5'>大面积</b>均匀光学镀膜难题

    大面积太阳光模拟环境舱的原理

    大面积太阳光模拟环境舱主要依据的是使用具有近似全光谱的金卤灯作为光源,通过其在汞和稀有金属卤化物蒸气中的电弧放电产生强光,再通过灯箱组、机械支架和控制器等结构,根据测试精确控制灯组数量、功率
    的头像 发表于 09-26 18:04 287次阅读
    <b class='flag-5'>大面积</b>太阳光模拟环境舱的原理

    美能光伏亮相钙钛矿产业大会,推出大面积钙钛矿组件全流程检测解决方案

    在刚刚圆满落幕的“2025中国钙钛矿产业发展大会”上,美能光伏(MillennialSolar)作为光伏检测领域的领先企业,携其最新研发的大面积钙钛矿组件制程检测与可靠性检测全栈解决方案精彩亮相
    的头像 发表于 09-25 09:03 562次阅读
    美能光伏亮相钙钛矿产业大会,推出<b class='flag-5'>大面积</b>钙钛矿组件全流程检测解决方案

    大面积钙钛矿太阳能电池薄膜制备:从实验室到规模化量产

    钙钛矿太阳能电池(PSCs)凭借高效率、低成本及广泛的应用潜力,已成为光伏领域的研究热点,在光伏领域显示出巨大的商业化潜力。然而,大面积钙钛矿太阳能电池的功率转换效率(PCE)与稳定性仍未达到产业化
    的头像 发表于 09-24 09:02 560次阅读
    <b class='flag-5'>大面积</b>钙钛矿太阳能电池薄膜制备:从实验室到规模化量产

    大面积柔性全钙钛矿串联组件:原位添加剂涂层策略实现23%效率并通过ISOS标准测试

    柔性钙钛矿太阳能电池(F-PSCs)为轻质、低成本、可贴合的能源解决方案,但其功率转换效率(PCE)低于刚性电池,尤其在大面积组件中,因柔性基板上难制备均匀、高质量的钙钛矿膜而受限。现有研究多通过
    的头像 发表于 09-15 09:03 812次阅读
    <b class='flag-5'>大面积</b>柔性全钙钛矿串联组件:原位添加剂涂层策略实现23%效率并通过ISOS标准测试

    IEC 到底是什么?为什么它能影响全球

    IEC 到底是什么?为什么它能影响全球
    的头像 发表于 09-04 17:07 2486次阅读

    大面积LED太阳光模拟器的辐照均匀性优化研究

    在材料工程、生物技术、能源科学等众多科研领域,模拟太阳光环境进行实验至关重要,随着LED技术的快速发展,基于LED的太阳模拟器逐渐成为研究焦点。Luminbox全光谱大面积LED太阳模拟器,致力于
    的头像 发表于 07-24 11:31 352次阅读
    <b class='flag-5'>大面积</b>LED太阳光模拟器的辐照均匀性优化研究

    太阳模拟器技术新突破:卤素-LED混合光源的大面积应用研究

    与LED协同的混合式太阳模拟器,深度解析其光学架构设计、性能测试及中大面积场景的应用潜力,为Luminbox研发高精度太阳模拟器提供可复现的理论模型与实验依据。太阳模拟
    的头像 发表于 07-24 11:29 414次阅读
    太阳模拟器技术新突破:卤素-LED混合光源的<b class='flag-5'>大面积</b>应用研究

    大面积太阳光模拟器 | 设计组成与多领域应用

    大面积太阳光模拟器通过人工光源精准复现太阳辐射的光谱特性、辐照强度与空间分布,为大尺寸样品测试提供标准化、可调控的光照环境,成为连接基础研究与工业应用的核心技术装备。紫创测控Luminbox依托集团
    的头像 发表于 07-24 11:26 382次阅读
    <b class='flag-5'>大面积</b>太阳光模拟器 | 设计组成与多领域应用

    大面积薄膜光学映射与成像技术综述:全光谱椭偏技术

    在微电子制造与光伏产业中,大面积薄膜的均匀性与质量直接影响产品性能。传统薄膜表征方法(如溅射深度剖析、横截面显微镜观察)虽能提供高精度数据,但测量范围有限且效率较低,难以满足工业级大面积表面的快速
    的头像 发表于 07-22 09:53 1093次阅读
    <b class='flag-5'>大面积</b>薄膜光学映射与成像技术综述:全光谱椭偏技术

    高速、高分辨率、大面积成像应用的理想选择——Falcon4-CLHS工业相机

    在机器视觉高性能成像应用领域,TeledyneDalsa的Falcon4-CLHS工业相机系列无疑是理想之选。它运用了TeledyneImaging的先进CMOS架构,为大面积、高分辨率、高速
    的头像 发表于 02-21 17:05 1247次阅读
    高速、高分辨率、<b class='flag-5'>大面积</b>成像应用的理想选择——Falcon4-CLHS工业相机

    纤纳光电刷新钙钛矿组件大面积效率纪录,冻晶技术开创GW级生产新时代

    ),刷新了大面积钙钛矿组件效率纪录,标志着纤纳光电在大面积钙钛矿技术领域取得了又一重要突破。 图1 国家光伏产业计量测试中心认证报告 (红色字体为纤纳批注) 铢积寸累、日就月将,这一成果的取得离不开纤纳光电在2024年完成的多项关键技术攻关。2024年11月,公司自主
    的头像 发表于 02-08 10:47 682次阅读
    纤纳光电刷新钙钛矿组件<b class='flag-5'>大面积</b>效率纪录,冻晶技术开创GW级生产新时代

    高温大面积碳化硅外延生长装置及处理方法

    碳化硅(SiC)作为一种具有优异物理和化学性质的半导体材料,在电力电子、航空航天、新能源汽车等领域展现出巨大的应用潜力。高质量、大面积的SiC外延生长是实现高性能SiC器件制造的关键环节。然而
    的头像 发表于 01-03 15:11 382次阅读
    高温<b class='flag-5'>大面积</b>碳化硅外延生长装置及处理方法