0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

IT系统灾难恢复计划的12大要素

存储D1net 2022-12-22 16:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数字化时代,企业需要更加复杂的 IT 基础架构以确保业务的正常开展。因此,IT 基础架构一旦出现问题就有可能给企业带来巨大的损失,甚至使企业消失。因此,现代企业中,IT 灾害仍然是对生产过程最大的威胁。

什么是灾难?

灾难是具有挑战性的麻烦,它能够立即让可用的人力、IT、财务和其他资源的能力不堪重负,并导致宝贵资产(例如文档、知识产权对象、数据或硬件)的重大损失。

在大多数情况下,灾难是导致非典型威胁的突然事件链,一旦灾难开始,这些威胁就很难或不可能停止。根据灾难的类型,企业必须制定严格的预警方案。

灾难主要有三种类型:

1)自然灾害:当听到“灾难”一词时,大部分人可能会想到的第一件事就是自然灾害。不同类型的自然灾害包括洪水、地震、森林火灾、异常高温、强雪、暴雨、飓风和龙卷风以及海洋风暴。

2)技术和人为灾害:技术灾难是与技术基础设施故障、人为错误或邪恶意志有关的任何事物,包括软件中断、发电故障等在内的任何问题。

3)混合灾害:这些灾难包括全球软件中断、关键硬件故障、停电和任何电力供应问题、恶意软件(包括勒索软件)、电信问题(包括网络隔离)、军事冲突、恐怖主义事件、大坝故障、化学事件。

要说明的是,第三类灾害包括了将自然和技术因素的特征结合在一起的混合灾害。例如,大坝故障可能导致洪水,导致整个地区或国家的停电和通信问题。

什么是灾难恢复?

灾难恢复 (DR) 是在发生全球破坏性事件后应采取的一组操作(方法),用于恢复和还原操作。主要的灾难恢复活动侧重于重新获得对数据、硬件、软件、网络设备、连接和电源的访问权限。灾难恢复行动还可以涵盖重建后勤、搬迁工作人员和购买办公设备,以防资产损坏或毁坏。

若要创建灾难恢复计划,需要考虑在以下时间段内要完成的操作序列:

1)灾难发生前(构建、维护和测试 DR 系统和策略)。

2)在灾难期间(采取即时响应措施以避免或减轻资产损失)。

3)灾后(应用灾备系统恢复运营,联系客户、合作伙伴,分析损失和恢复效率)。

灾难恢复计划中包含的12大要素

1)业务影响分析和风险评估数据

在此步骤中,主要研究对组织造成的典型和最危险威胁和漏洞。有了这些知识,能够计算特定灾难发生的概率,衡量对生产的潜在影响,并更加轻松地实施合适的灾难恢复解决方案。

2)恢复目标:定义的 RPO 和 RTO

RPO 恢复点目标:该参数定义在不对生产产生重大影响的情况下可以丢失的数据量。

RTO 恢复时间目标:即企业可以容忍的最长停机时间,因此也是完成恢复工作流的最长时间。

3)职责分配

建立一个了解每个成员在发生灾难时的负责的主要工作的团队,是高效灾难恢复计划的必备组成部分。组建一个特殊的灾难恢复团队,为每位员工分配特定角色,并培训他们在实际灾难发生之前履行自己的角色,这是在需要实际行动来保存企业资产和生产时避免混淆和缺失链接的方法。

4)灾难恢复站点创建

任何规模或性质的灾难都可能严重损坏企业主服务器和生产数据,使恢复运营变得不可能或非常耗时。在这种情况下,具有关键工作负载副本的 DR 站点是将 RTO 降至最低并在紧急情况期间和之后继续向企业客户端提供服务的最佳选择。

5)故障恢复准备

故障恢复是在主数据中心再次运行时,将工作负载返回到主站点的过程,在规划灾难恢复时可能会忽略。

尽管如此,事先建立故障恢复顺序,有助于使整个过程更加顺畅,并避免可能发生的轻微数据丢失。此外,灾难恢复站点通常不是为长时间支持基础结构的功能而设计的。

6)关键文档和资产的远程存储

如今,即使是小型企业也会生成和处理大量关键数据。丢失硬拷贝或数字文档可能会使其恢复变得耗时、昂贵甚至不可能。

因此,准备远程存储(例如,用于数字文档的 VPS 云存储和用于硬拷贝资产的受保护物理存储)是确保在发生灾难时重要数据可访问性的可靠选择。

7)注明设备要求

此 DR 计划需要审核支持企业 IT 基础结构正常运行的节点。这包括计算机、物理服务器、网络路由器、硬盘驱动器、基于云的服务器托管设备等。

这些知识使您能够查看在灾难发生后恢复 IT 环境的原始状态所需的元素。此外,企业还可以查看至少支持任务关键型工作负载所需的设备列表,并确保在主要资源不可用时生产连续性。

8)通信通道定义

确保为员工、管理层和灾难恢复团队提供稳定可靠的内部通信系统。设置通信通道的使用顺序,以处理灾难发生后主服务器和内部网络不可用的情况。

9)概述响应程序

在灾难恢复计划中,最初的几个小时至关重要。创建有关如何执行 DR 活动、监视和执行流程、故障转移序列、系统恢复验证等的分步说明。尽管采取了所有预防措施,但如果生产中心仍然发生灾难,对特定事件的集中和快速响应可以帮助减轻损害。

10)快速报告事件

在灾难发生并中断生产后,不仅应通知灾难恢复团队成员。您还需要通知相关人员,包括营销团队、第三方供应商、合作伙伴和客户。

作为灾难恢复计划的一部分,创建大纲和脚本,向员工展示如何通知每个关键组其关注的问题。此外,事先创建的基本新闻稿可以帮助您避免在实际事件中浪费时间。

11)灾难恢复计划测试和调整

成功的企业会随着时间的推移而变化和扩展,其灾难恢复计划应根据相关需求和恢复目标进行调整。完成计划后立即对其进行测试,并在每次引入更改时执行其他测试。因此,企业可以衡量灾难恢复计划的效率并确保资产的可恢复性。

12)应用最佳灾难恢复策略

灾难恢复策略可以在DIY(自己动手)的基础上实施,也可以委托给第三方供应商。前一种选择是为了经济而牺牲可靠性的方式,而后者可能更昂贵但更有效。

灾难恢复策略的选择完全取决于企业的功能,包括团队规模、IT 基础架构复杂性、预算、风险因素和所需的可靠性等。

总结

灾难是突然的破坏性事件,可能使组织无法运行。自然、人为和混合灾害具有不同级别的可预测性,但在组织级别上几乎无法预防。确保组织安全的唯一方法是根据组织的特定需求创建可靠的灾难恢复计划。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IT
    IT
    +关注

    关注

    2

    文章

    959

    浏览量

    65539

原文标题:IT系统灾难恢复计划的12大要素

文章出处:【微信号:D1Net11,微信公众号:存储D1net】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA DGX Spark系统恢复过程与步骤

    在使用 NVIDIA DGX Spark 的过程中,可能会出现配置故障,而导致开发中断的问题,本篇教程将带大家了解如何一步步完成系统恢复
    的头像 发表于 11-28 09:46 3570次阅读
    NVIDIA DGX Spark<b class='flag-5'>系统</b><b class='flag-5'>恢复</b>过程与步骤

    解析虚拟电厂聚合、通信与控制三大核心要素

    、控制”三大核心要素,将分散能源拧成“一股绳”,成为新型电力系统的“灵活调节器”。今天,我们用“一张全景图”的视角,拆解这三大要素如何协同发力,让虚拟电厂从概念落地为能源变革的关键力量。
    的头像 发表于 11-19 11:35 67次阅读
    解析虚拟电厂聚合、通信与控制三大核心<b class='flag-5'>要素</b>

    华为提出三大要素构筑Agent-Verse社会

    走向智变,AI Agent带来生产工具、生产关系和生产力的巨大变革,全面迈向万智互联的Agent-Verse。他在发言中进一步强调:“构筑Agent-Verse,需具备三大关键要素:AoNR全能超宽网络,保障多维Agent体验;多智终端互联,使能多样化智能交互;泛在百模千态,普及多模态智慧应用。”
    的头像 发表于 10-10 17:56 874次阅读

    Commvault全面数据保护方案助力企业高效恢复

    可行性恢复是应对威胁的关键策略。今天,我们将聚焦Commvault的解决方案,看如何高效帮助企业在遭受攻击或灾难后迅速恢复核心运营。
    的头像 发表于 08-27 09:16 647次阅读

    西门子840D数控系统备份及恢复方法

    西门子840D数控系统的备份及恢复是确保数据安全与系统稳定运行的重要环节。以下提供了几种备份及恢复方法: 一、利用系统自身进行数据备份与
    的头像 发表于 06-22 23:13 1633次阅读
    西门子840D数控<b class='flag-5'>系统</b>备份及<b class='flag-5'>恢复</b>方法

    门型展架 创新工坊553闪光系统 商业计划书.rar

    *附件:门型展架 创新工坊553闪光系统 商业计划书.rar *附件:12.rar
    发表于 06-21 08:28

    服务器数据恢复—Linux系统服务器崩溃的数据恢复案例

    服务器数据恢复环境: linux操作系统服务器中有一组由4块SAS接口硬盘组建的raid5阵列。 服务器故障: 服务器工作过程中突然崩溃。管理员将服务器操作系统进行了重装。 用户方需要
    的头像 发表于 05-20 15:46 549次阅读

    恢复桥如何进行全面检查?

    恢复桥凭借其快速恢复特性,在高频电力转换领域发挥着不可替代的作用。通过视觉检测、电气参数测量、热成像监测与频谱分析等系统化检测手段,可实现对快恢复桥的全方位性能评估,及时消除潜在隐患
    的头像 发表于 04-22 11:49 429次阅读
    快<b class='flag-5'>恢复</b>桥如何进行全面检查?

    虚拟化数据恢复—VMware虚拟化环境下重装系统导致服务器数据丢失的数据恢复

    VMware虚拟化平台 vmfs文件系统 工作人员误操作重装操作系统,服务器崩溃。 重装系统会导致文件系统元文件被覆盖。要恢复数据,必
    的头像 发表于 03-13 10:33 632次阅读
    虚拟化数据<b class='flag-5'>恢复</b>—VMware虚拟化环境下重装<b class='flag-5'>系统</b>导致服务器数据丢失的数据<b class='flag-5'>恢复</b>

    中科曙光旗下中科天玑推出全要素AI舆情系统

    近日,中科曙光旗下中科天玑正式推出实现全数据要素覆盖的AI舆情系统。该系统运用DeepSeek、曙光神玑等大模型技术内核,构建覆盖文本、视频、图像及跨平台社交数据的全要素分析能力,将舆
    的头像 发表于 02-28 16:13 1577次阅读

    HPC工作负载管理的关键要素

    HPC工作负载管理是一个复杂而精细的过程,涉及资源分配、作业调度、性能监控与优化以及故障处理与恢复等多个关键要素。下面,AI部落小编带您了解HPC工作负载管理的关键要素
    的头像 发表于 02-08 09:53 532次阅读

    网络恢复灾难恢复更加复杂

    技术已然成为维持企业运营的重要动力。对于大多数企业来说,IT服务中断直接影响到运营目标的实现。关注业务连续性的IT策略非常重要。虽然许多企业已经制定了完善的传统灾难恢复计划,但它们往往无法应对当今数据意外事件的复杂性。企业亟需制
    的头像 发表于 01-17 15:49 1028次阅读

    服务器数据恢复—Zfs文件系统服务器数据恢复案例

    服务器数据恢复环境&故障: 一台zfs文件系统的服务器,管理员误操作删除了服务器上的数据。
    的头像 发表于 01-16 17:27 631次阅读

    Diode的反向恢复特性的机理和模型原理

    现代集成电路中MOSFET的体二极管的反向恢复特性对系统安全具有重要影响,本文探讨了Diode的反向恢复特性的机理和模型原理。   半桥、全桥和 LLC 的电源系统以及电机控制
    的头像 发表于 01-03 10:36 1842次阅读
    Diode的反向<b class='flag-5'>恢复</b>特性的机理和模型原理

    XSAN数据恢复-XSAN文件系统数据恢复案例

    XSAN数据恢复环境: 昆腾存储+MAC OS操作系统,存储数据主要是视频类数据如MXF、MOV等格式文件。 该昆腾存储中有9个数据卷:1个META信息卷和8个DATA信息卷。 XSAN故障情况: 将存储空间从XSAN架构迁移到STORNEXT架构后,发现存储
    的头像 发表于 12-30 17:10 689次阅读
    XSAN数据<b class='flag-5'>恢复</b>-XSAN文件<b class='flag-5'>系统</b>数据<b class='flag-5'>恢复</b>案例