0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

亚马逊云科技帮助客户在云中构建具有高可靠性和韧性的应用程序

电子产品技术与应用 来源:科技新思路 作者:科技新思路 2023-11-20 16:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在一个理想的世界里,一切都非常完美,并且一直都在顺畅运作。早晨的通勤没有交通堵塞,最喜欢的停车位一直空着,一杯温度适宜的饮料,生活一帆风顺,没有任何中断。在需要时,您能得到所需的东西。但这只存在于想象中的完美世界里。在现实世界里,一切往往不总是按计划进行。交通情况是多变的,每天我们可能停在不同的车位,有时,可能把一杯烫手的咖啡不小心弄洒了。

现在,考虑一下IT世界里发生的这些类似中断,而且规模更大:在全球范围内运行的服务和应用程序可能会遭遇意外中断,从而产生轻微或重大影响,具体取决于业务本身的性质。

例如在机场候机时,常用的手机应用程序意外发生崩溃,这属于影响轻微的中断;相比之下,由于网络服务中断,飞行员无法与机场塔台人员沟通,导致所有航班停飞,这就是影响重大的中断了。

韧性应用程序可减小发生此类中断的可能性,并尽量缩短发生故障时的恢复时间。韧性应用程序可确保服务在发生各种规模的中断时恢复过来,并在尽可能短的时间内再次可用。

我们来更深入地了解一下什么是韧性、我们如何构建云本身的韧性,以及亚马逊云科技如何帮助客户在云中构建具有高可靠性和韧性的应用程序。

架构可靠:亚马逊云科技全球云基础设施及架构设计稳定可靠

云的韧性和可靠是承载云服务的硬件、软件、网络和设施所具备的抵御故障并快速从中断中恢复的能力,并尽可能减少云服务的中断。亚马逊云科技在确保云可靠性方面进行了大量投资,设计了高度可用的全球基础设施,在服务设计和部署机制中建立了保障措施,并将韧性融入平台的运营文化中。

全球基础设施:亚马逊云科技在全球范围内部署了32个区域、102个可用区,并宣布计划增加15个可用区和5个亚马逊云科技区域,以便支持为全球客户提供的200多项功能齐全的服务,并且这一数字还在不断增加。每个区域由一个地理区域内的多个隔离的且在物理上分隔的可用区组成,每个区域设计为3个以上的可用区,每个可用区都有独立的电力、冷却和物理安全性,并通过冗余的超低延迟网络进行互联。可以将应用程序在多个可用区或者多个区域内部署以实现更大的容错能力。

故障边界的隔离:在全球部署的同时,亚马逊云科技使用多种故障隔离结构来实现服务的韧性。这些故障隔离的边界将故障控制在已有故障域且可预测的范围内。亚马逊云科技服务的隔离边界包括:可用区(AZ)、区域(Region)、控制平面和数据平面。从故障隔离边界的维度看,亚马逊云科技运营三种不同类别的服务:可用区性、区域性和全球性。例如,每个区域级服务都部署了专用的基础设施和服务堆栈,且互相隔离,在跨区域调用时也足够的隔离机制。同时,每种服务的控制平面和数据平面都在不同的范围内进行隔离,即控制面的失败不影响数据面的运行,且不会扩散到相邻范围。(例如,控制台的失败不会影响现有云主机的运行)。综上,亚马逊云科技将故障发生时的爆炸半径控制住最小的范围内。

静态稳定设计:亚马逊云科技韧性设计的关键是保持“静态稳定性”。“静态稳定性”是依赖项发生故障或不可用期间系统无需进行更改就可以依然可以保持继续正常运行,在数据平面对资源的访问一旦配置,就不依赖于控制平面,因此不会受到任何控制平面失效的影响。换句话说,即使创建、修改或删除资源的能力受损,现有资源仍然可用。

单元架构:亚马逊云科技的服务采用单元架构的部署方式,即将单元作为云服务部署的基本单位,单元的大小受到限制且彼此隔离。这种设计减少了故障的影响范围,整体可用性得以提高并保持了服务的连续性,类似于船只中多个水密舱的设计。

卓越运营:实现云的可靠和韧性需要的不仅仅可靠的技术,它也需要人员、文化、流程和工具的支持。亚马逊云科技基于Two-Pizza team的服务所有模式组建团队和文化,通过安全的持续发布、运营就绪审查、错误更正流程等流程和工具来维护云服务的稳定运行。

事件预警:提供主动预警工具与机制,提前预防云上问题发生

同时,亚马逊云科技提供系列的工具、解决方案及方案论,帮助客户利用云本身的韧性,提升“云中的韧性”。

Amazon Health是您的权威信息来源,可从中了解关乎您的亚马逊云科技云资源的相应服务事件和计划更改情况。Amazon Health会向您发送有关服务事件、计划变更和账户的通知,以帮助您进行管理并采取行动。登录Amazon Health Dashboard可使用Amazon EventBridge查看特定于账户的Health信息或接收Health事件更新。您还可以使用Amazon Premium Support提供的Amazon Health API以编程方式访问Amazon Health。

Amazon Managed Services提供主动、预防和检测功能,这些功能提高了操作门槛,并帮助降低风险,而不限制敏捷性,使您能够专注于创新。AMS通过运营能力扩展您的团队,包括监控、事件管理、亚马逊云科技事件检测及响应服务、安全、补丁、备份和成本优化。

事前优化:提供系列工具及方法论,帮助客户提升云上业务可靠性

通过Well-Architect框架,构建韧性系统最佳实践:包含自动从故障中恢复,测试恢复过程,横向扩展以提高工作负载的可用性,在设计时,分布式系统的工作负载架构必须能够预防与减少故障,符合静态稳定性的实践,并具备隔离机制。同时系统的设计应能够检测故障并自动加以修复或转移。

全栈可观测性:包括亚马逊云科技原生、应用程序性能监控(APM)和开源解决方案,让您能够随时了解整个技术栈中发生的情况。可观测性让您可以在云、混合或本地环境中的网络、基础设施和应用程序中收集、关联、聚合和分析遥测数据,以便深入了解系统的行为、性能和运行状况。这些见解可帮助您更快地检测、调查和修复问题;结合人工智能机器学习,以主动反应、预测和预防问题。

事后协助:帮助客户构建云上可靠性能力,保障应用和数据高可靠运行

最后,实现业务连续性,合适的业务容灾备份策略也是十分重要的。亚马逊云科技提供完善的容灾与备份机制,从冷备份、实时异步复制业务数据,到实时复制业务数据、实时同步/异步双向复制业务数据,适用于不同RPO/RTO目标需求,帮助您提前做好准备提升可用性。

总结

云上业务连续性是创新的基石,亚马逊云科技基础设施经过精心构建,是当今最安全、最可靠的云计算环境之一,旨在提供一个高可扩展性、高可靠的平台,使您能够快速安全地部署应用程序、构建高可用的业务系统。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 应用程序
    +关注

    关注

    38

    文章

    3347

    浏览量

    60511
  • 云服务
    +关注

    关注

    0

    文章

    867

    浏览量

    41124
  • 亚马逊
    +关注

    关注

    8

    文章

    2746

    浏览量

    85947
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    松下高可靠性金属薄膜贴片电阻:特性、参数与使用指南

    松下高可靠性金属薄膜贴片电阻:特性、参数与使用指南 电子设备的设计中,电阻作为基础元件,其性能直接影响着整个电路的稳定性和可靠性。松下的金属薄膜(薄膜)贴片电阻ERA A型系列,以其高可靠性
    的头像 发表于 05-17 17:05 458次阅读

    无线通信技术核心定位从 “速度竞赛” 转向超高可靠性

    定位从“速度竞赛”转向超高可靠性(UHR, Ultra-High Reliability),打破无线网络“尽力而为”的局限,实现接近有线网络的稳定、低时延、低丢包连接,为工业、医疗、XR、智能家居等场景
    发表于 04-23 17:31

    TDK-Lambda ZWS-BAF系列电源:高性价比与高可靠性之选

    TDK-Lambda ZWS-BAF系列电源:高性价比与高可靠性之选 电子设备的设计中,电源供应是至关重要的一环。TDK-Lambda推出的ZWS-BAF系列电源,以其50W至300W的单输出功率
    的头像 发表于 04-18 13:40 201次阅读

    LAMBDA NN系列高可靠性线性电源:设计与应用的理想之选

    LAMBDA NN系列高可靠性线性电源:设计与应用的理想之选 电子工程师的日常工作中,电源设计是至关重要的一环。一款性能优异、可靠性高的电源能够为整个系统的稳定运行提供坚实保障。今天,我们就来深入
    的头像 发表于 04-18 10:15 260次阅读

    F2914高可靠性SP4T射频开关:特性、应用与设计要点

    的SP4T(单刀四掷)射频开关,50 MHz至8000 MHz的宽频范围内展现出卓越的性能,为众多射频应用提供了理想的解决方案。 文件下载: F2914NBGK8.pdf 二、F2914概述 2.1 基本特性 F2914是一款专为多种射频应用设计的开关,具有
    的头像 发表于 04-16 17:00 502次阅读

    Voohu:功率电感高可靠性工业电源中的选型与降额设计

    工业电源长期运行于恶劣环境,对功率电感的可靠性要求远高于消费电子。从温度循环到振动冲击,从长期老化到瞬态过载,每一个因素都可能导致电感失效。本文从高可靠性设计角度,系统介绍功率电感的选型要点与降额设计方法。
    的头像 发表于 04-02 09:14 184次阅读

    通信电源导热胶:高可靠性散热材料

    |本文介绍通信电源导热胶作为高可靠性散热材料的核心优势,包括工作原理、关键性能数据(如导热系数高达9 W m·K、温度降低10℃)及5G基站、数据中心等场景的应用价值,帮助您选择合适的热管理解决方案。
    的头像 发表于 03-28 00:36 260次阅读
    通信电源导热胶:<b class='flag-5'>高可靠性</b>散热材料

    高可靠性导热凝胶极端环境性能 |铬锐特实业

    铬锐特实业|东莞导热胶厂家|高可靠性导热凝胶-50℃~200℃宽温域、85℃ 85%RH高温高湿、强振动等极端环境下仍保持优异导热稳定性和长期可靠性,广泛应用于新能源汽车、航空航天、5G基站等领域。
    的头像 发表于 03-11 00:43 423次阅读
    <b class='flag-5'>高可靠性</b>导热凝胶极端环境性能 |铬锐特实业

    高可靠性电流检测电路设计的关键要点

    准确的电流检测对于实现控制、确保保护功能以及提高电源效率至关重要。这是电动汽车(EV)、能源系统、工业设备等各种应用领域共同面临的课题。ROHM解决方案具备高可靠性电流检测所需的 高精度、高稳定性及强抗噪
    的头像 发表于 03-06 10:26 2579次阅读
    <b class='flag-5'>高可靠性</b>电流检测电路设计的关键要点

    什么是高可靠性

    满足后续PCBA装配的生产条件,并在特定的工作环境和操作条件下,一定的时期内,可以保持正常运行功能的能力。 二、为什么PCB的高可靠性应当引起重视? 作为各种电子元器件的载体和电路信号传输的枢纽
    发表于 01-29 14:49

    MGDM-155系列高可靠性DC-DC电源模块

    MGDM-155系列高可靠性DC-DC电源模块MGDM-155是法国GaiaConverter公司专为航空航天、军事及高端工业领域打造的高可靠性(Hi-Rel)DC/DC电源模块系列,采用标准
    发表于 01-28 08:41

    KEMET HRA系列SMD MLCCs:高可靠性电容的理想之选

    KEMET HRA系列SMD MLCCs:高可靠性电容的理想之选 电子设备设计领域,电容作为关键元件,其性能和可靠性直接影响着整个系统的稳定性和性能表现。KEMET的High
    的头像 发表于 12-15 13:50 597次阅读

    可靠性设计的十个重点

    专注于光电半导体芯片与器件可靠性领域的科研检测机构,能够对LED、激光器、功率器件等关键部件进行严格的检测,致力于为客户提供高质量的测试服务,为光电产品各种高可靠性场景中的稳定应用提
    的头像 发表于 08-01 22:55 1329次阅读
    <b class='flag-5'>可靠性</b>设计的十个重点

    高可靠性车规级电感器汽车智能座舱中的应用

    智能座舱系统的不断升级离不开被动元件的支持,电感器智能座舱中主要发挥储能、滤波、噪声抑制、平滑电流等作用。选择高可靠性车规级电感器,将助力汽车座舱更高效、更智能。
    的头像 发表于 07-29 18:13 1380次阅读

    聚徽工业液晶屏的高可靠性的设计要点与实践意义

    工业自动化、智能控制、能源管理等复杂且严苛的工业环境中,工业液晶屏作为人机交互与信息展示的核心设备,其可靠性直接影响生产效率、设备安全与决策准确。聚徽厂家工业液晶屏凭借高可靠性优势
    的头像 发表于 07-11 18:09 955次阅读