0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

亚马逊云科技帮助客户在云中构建具有高可靠性和韧性的应用程序

科技新思路 来源:科技新思路 作者:科技新思路 2023-11-20 16:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在一个理想的世界里,一切都非常完美,并且一直都在顺畅运作。早晨的通勤没有交通堵塞,最喜欢的停车位一直空着,一杯温度适宜的饮料,生活一帆风顺,没有任何中断。在需要时,您能得到所需的东西。但这只存在于想象中的完美世界里。在现实世界里,一切往往不总是按计划进行。交通情况是多变的,每天我们可能停在不同的车位,有时,可能把一杯烫手的咖啡不小心弄洒了。

现在,考虑一下IT世界里发生的这些类似中断,而且规模更大:在全球范围内运行的服务和应用程序可能会遭遇意外中断,从而产生轻微或重大影响,具体取决于业务本身的性质。

例如在机场候机时,常用的手机应用程序意外发生崩溃,这属于影响轻微的中断;相比之下,由于网络服务中断,飞行员无法与机场塔台人员沟通,导致所有航班停飞,这就是影响重大的中断了。

韧性应用程序可减小发生此类中断的可能性,并尽量缩短发生故障时的恢复时间。韧性应用程序可确保服务在发生各种规模的中断时恢复过来,并在尽可能短的时间内再次可用。

我们来更深入地了解一下什么是韧性、我们如何构建云本身的韧性,以及亚马逊云科技如何帮助客户在云中构建具有高可靠性和韧性的应用程序。

架构可靠:亚马逊云科技全球云基础设施及架构设计稳定可靠

云的韧性和可靠是承载云服务的硬件、软件、网络和设施所具备的抵御故障并快速从中断中恢复的能力,并尽可能减少云服务的中断。亚马逊云科技在确保云可靠性方面进行了大量投资,设计了高度可用的全球基础设施,在服务设计和部署机制中建立了保障措施,并将韧性融入平台的运营文化中。

全球基础设施:亚马逊云科技在全球范围内部署了32个区域、102个可用区,并宣布计划增加15个可用区和5个亚马逊云科技区域,以便支持为全球客户提供的200多项功能齐全的服务,并且这一数字还在不断增加。每个区域由一个地理区域内的多个隔离的且在物理上分隔的可用区组成,每个区域设计为3个以上的可用区,每个可用区都有独立的电力、冷却和物理安全性,并通过冗余的超低延迟网络进行互联。可以将应用程序在多个可用区或者多个区域内部署以实现更大的容错能力。

故障边界的隔离:在全球部署的同时,亚马逊云科技使用多种故障隔离结构来实现服务的韧性。这些故障隔离的边界将故障控制在已有故障域且可预测的范围内。亚马逊云科技服务的隔离边界包括:可用区(AZ)、区域(Region)、控制平面和数据平面。从故障隔离边界的维度看,亚马逊云科技运营三种不同类别的服务:可用区性、区域性和全球性。例如,每个区域级服务都部署了专用的基础设施和服务堆栈,且互相隔离,在跨区域调用时也足够的隔离机制。同时,每种服务的控制平面和数据平面都在不同的范围内进行隔离,即控制面的失败不影响数据面的运行,且不会扩散到相邻范围。(例如,控制台的失败不会影响现有云主机的运行)。综上,亚马逊云科技将故障发生时的爆炸半径控制住最小的范围内。

静态稳定设计:亚马逊云科技韧性设计的关键是保持“静态稳定性”。“静态稳定性”是依赖项发生故障或不可用期间系统无需进行更改就可以依然可以保持继续正常运行,在数据平面对资源的访问一旦配置,就不依赖于控制平面,因此不会受到任何控制平面失效的影响。换句话说,即使创建、修改或删除资源的能力受损,现有资源仍然可用。

单元架构:亚马逊云科技的服务采用单元架构的部署方式,即将单元作为云服务部署的基本单位,单元的大小受到限制且彼此隔离。这种设计减少了故障的影响范围,整体可用性得以提高并保持了服务的连续性,类似于船只中多个水密舱的设计。

卓越运营:实现云的可靠和韧性需要的不仅仅可靠的技术,它也需要人员、文化、流程和工具的支持。亚马逊云科技基于Two-Pizza team的服务所有模式组建团队和文化,通过安全的持续发布、运营就绪审查、错误更正流程等流程和工具来维护云服务的稳定运行。

事件预警:提供主动预警工具与机制,提前预防云上问题发生

同时,亚马逊云科技提供系列的工具、解决方案及方案论,帮助客户利用云本身的韧性,提升“云中的韧性”。

Amazon Health是您的权威信息来源,可从中了解关乎您的亚马逊云科技云资源的相应服务事件和计划更改情况。Amazon Health会向您发送有关服务事件、计划变更和账户的通知,以帮助您进行管理并采取行动。登录Amazon Health Dashboard可使用Amazon EventBridge查看特定于账户的Health信息或接收Health事件更新。您还可以使用Amazon Premium Support提供的Amazon Health API以编程方式访问Amazon Health。

Amazon Managed Services提供主动、预防和检测功能,这些功能提高了操作门槛,并帮助降低风险,而不限制敏捷性,使您能够专注于创新。AMS通过运营能力扩展您的团队,包括监控、事件管理、亚马逊云科技事件检测及响应服务、安全、补丁、备份和成本优化。

事前优化:提供系列工具及方法论,帮助客户提升云上业务可靠性

通过Well-Architect框架,构建韧性系统最佳实践:包含自动从故障中恢复,测试恢复过程,横向扩展以提高工作负载的可用性,在设计时,分布式系统的工作负载架构必须能够预防与减少故障,符合静态稳定性的实践,并具备隔离机制。同时系统的设计应能够检测故障并自动加以修复或转移。

全栈可观测性:包括亚马逊云科技原生、应用程序性能监控(APM)和开源解决方案,让您能够随时了解整个技术栈中发生的情况。可观测性让您可以在云、混合或本地环境中的网络、基础设施和应用程序中收集、关联、聚合和分析遥测数据,以便深入了解系统的行为、性能和运行状况。这些见解可帮助您更快地检测、调查和修复问题;结合人工智能机器学习,以主动反应、预测和预防问题。

事后协助:帮助客户构建云上可靠性能力,保障应用和数据高可靠运行

最后,实现业务连续性,合适的业务容灾备份策略也是十分重要的。亚马逊云科技提供完善的容灾与备份机制,从冷备份、实时异步复制业务数据,到实时复制业务数据、实时同步/异步双向复制业务数据,适用于不同RPO/RTO目标需求,帮助您提前做好准备提升可用性。

总结

云上业务连续性是创新的基石,亚马逊云科技基础设施经过精心构建,是当今最安全、最可靠的云计算环境之一,旨在提供一个高可扩展性、高可靠的平台,使您能够快速安全地部署应用程序、构建高可用的业务系统。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 应用程序
    +关注

    关注

    38

    文章

    3342

    浏览量

    59973
  • 云服务
    +关注

    关注

    0

    文章

    860

    浏览量

    40450
  • 亚马逊
    +关注

    关注

    8

    文章

    2725

    浏览量

    85462
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    KEMET HRA系列SMD MLCCs:高可靠性电容的理想之选

    KEMET HRA系列SMD MLCCs:高可靠性电容的理想之选 电子设备设计领域,电容作为关键元件,其性能和可靠性直接影响着整个系统的稳定性和性能表现。KEMET的High
    的头像 发表于 12-15 13:50 52次阅读

    可靠性设计的十个重点

    专注于光电半导体芯片与器件可靠性领域的科研检测机构,能够对LED、激光器、功率器件等关键部件进行严格的检测,致力于为客户提供高质量的测试服务,为光电产品各种高可靠性场景中的稳定应用提
    的头像 发表于 08-01 22:55 827次阅读
    <b class='flag-5'>可靠性</b>设计的十个重点

    高可靠性车规级电感器汽车智能座舱中的应用

    智能座舱系统的不断升级离不开被动元件的支持,电感器智能座舱中主要发挥储能、滤波、噪声抑制、平滑电流等作用。选择高可靠性车规级电感器,将助力汽车座舱更高效、更智能。
    的头像 发表于 07-29 18:13 738次阅读

    聚徽工业液晶屏的高可靠性的设计要点与实践意义

    工业自动化、智能控制、能源管理等复杂且严苛的工业环境中,工业液晶屏作为人机交互与信息展示的核心设备,其可靠性直接影响生产效率、设备安全与决策准确。聚徽厂家工业液晶屏凭借高可靠性优势
    的头像 发表于 07-11 18:09 527次阅读

    高可靠性冗余电源系统设计方案

    随着船舶电气化的发展,对电源系统的要求越来越高,本文设计了一种高可靠性冗余电源,该电源系统主要完成对输入电源的电源滤波、电气隔离及电压转换,为负载设备提供工作所需的电源。该系统具有AC220 V
    的头像 发表于 05-23 09:49 2.2w次阅读
    <b class='flag-5'>高可靠性</b>冗余电源系统设计方案

    如何设计高可靠性的稳压电路?MDD稳压二极管的典型应用实战

    电子产品的小型化、高效率、长寿命趋势日益明显的今天,稳压电路的可靠性直接关系到整机性能和产品稳定性。作为现场应用工程师(FAE),我们常常会遇到客户电路设计中对稳压方案既要求简单,
    的头像 发表于 05-12 11:23 801次阅读
    如何设计<b class='flag-5'>高可靠性</b>的稳压电路?MDD稳压二极管的典型应用实战

    提供半导体工艺可靠性测试-WLR晶圆可靠性测试

    和有源区连接孔电流应力下的失效。 氧化层完整:测试结构检测氧化层因缺陷或高电场导致的击穿。 热载流子注入:评估MOS管和双极晶体管绝缘层因载流子注入导致的阈值电压漂移、漏电流增大。 连接可靠性——键合
    发表于 05-07 20:34

    光颉晶圆电阻:高可靠性和耐久助力电子设备稳定运行

    ,广泛应用于多种高精度、高可靠性需求的场景。 核心特性:可靠性与耐久 1. 高可靠性——稳定性能的基石 光颉晶圆电阻的可靠性体现在其能够
    的头像 发表于 04-10 17:52 624次阅读
    光颉晶圆电阻:<b class='flag-5'>高可靠性</b>和耐久<b class='flag-5'>性</b>助力电子设备稳定运行

    高可靠性嵌入式主板设计

    设计直接影响整个系统的稳定性和寿命。因此,设计高可靠性的嵌入式主板不仅是技术挑战,也是提高产品竞争力的关键因素。本文将深入探讨高可靠性嵌入式主板设计的各个方面,包括硬件选型
    的头像 发表于 03-25 15:11 826次阅读
    <b class='flag-5'>高可靠性</b>嵌入式主板设计

    ​从ISO到UL:捷多邦如何确保高端PCB的高可靠性

    电子制造领域,高端PCB(印刷电路板)的质量直接决定了产品的性能和可靠性。为了确保PCB的高可靠性和高性能,国际认证标准成为了衡量PCB质量的重要依据。作为全球领先的PCB制造商,捷多邦始终将质量
    的头像 发表于 03-20 15:40 739次阅读

    拉压力传感器的高精度和高可靠性是如何实现的?

    拉压力传感器的高精度和高可靠性是现代工业测量和控制系统中至关重要的因素。这些特性不仅决定了传感器实际应用中的表现,还直接影响到整个系统的性能和可靠性。本文将深入探讨拉压力传感器如何实现高精度
    的头像 发表于 03-06 09:40 998次阅读
    拉压力传感器的高精度和<b class='flag-5'>高可靠性</b>是如何实现的?

    三环电容的高可靠性汽车电子中的应用!

    三环电容以其高可靠性汽车电子领域中得到了广泛应用,以下是对其在这一领域应用的详细分析: 一、三环电容的高可靠性特点 三环电容具有多种优点,这些优点共同构成了其
    的头像 发表于 02-14 15:53 789次阅读
    三环电容的<b class='flag-5'>高可靠性</b>,<b class='flag-5'>在</b>汽车电子中的应用!

    美的携手亚马逊科技,提升全球客户体验

    字化转型方面的卓越实力,也彰显了亚马逊科技全球业务扩展中的强大支持。通过Amazon Connect,美的得以构建一个高效、便捷的客户
    的头像 发表于 12-24 11:48 899次阅读

    超级应用程序Grab选择亚马逊科技为首选服务商

    推动技术创新与业务增长 北京2024年12月19日 /美通社/ -- 亚马逊科技2024 re:Invent全球大会上,亚马逊科技与东
    的头像 发表于 12-19 15:31 869次阅读

    低温高可靠性锡膏逐步引领趋势,深受客户青睐!

    东莞市大为新材料技术有限公司推出DG-SAC88K低温高可靠性焊锡膏,针对各类封装而设计,以减少温度敏感的芯片封装中因高温焊接而引起的缺陷。降低峰值回流温度和最大程度地减少翘曲引起的缺陷,并提
    的头像 发表于 12-16 11:01 876次阅读
    低温<b class='flag-5'>高可靠性</b>锡膏逐步引领趋势,深受<b class='flag-5'>客户</b>青睐!