0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Raid磁盘阵列故障类型和原因分析

Frombyte 来源:Frombyte 作者:Frombyte 2023-04-21 14:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

由于raid的特点和优势,磁盘阵列技术被广泛应用于服务器和存储等商用领域。由于用户基数大,出现故障的情况也不少。通过这篇文章介绍一下常见的raid磁盘阵列数故障类型和原因。

故障类型一、磁盘阵列处于降级状态时未及时rebuild。

RAID磁盘阵列的数据安全冗余是利用部分空余空间实现的,阵列中有成员盘下线便无法继续提供冗余空间。如果此时未能及时更换新磁盘并rebuild整个卷,一旦raid中有其他成员盘离线将会导致整个raid卷无法工作。这类故障是北亚企安数据恢复工作中会经常遇到case。

故障类型二、raid控制器故障。

磁盘阵列控制器在充当着操作系统与物理硬盘之间的连接纽带。磁盘阵列中的硬盘数量、容量大小、raid级别、校验方式等raid信息有的存储于硬盘,有的存储于阵列卡或者在二者中都有存储。如果控制器出现故障,raid信息就无法还原,如果出现这种故障,即使能够还原raid结构并再次重建raid阵列也无法恢复数据。

故障类型三、固件算法缺陷。

RAID的创建、重建、降级、保护等功能的实现依靠的raid固件上的一套非常复杂的算法,任何复杂的算法都会有BUG,尽管厂商不会轻易承认自家产品固件算法的BUG(有可能自己也不知道)。因为固件算法BUG,发生无法解释的故障可能性肯定是有的。比如在北亚企安接到的数据恢复case中就遇到过早期生产的某品牌服务器RAID中一块盘OFFLINE后,故障盘与报警灯不一致的情况。用户在更换故障盘进行REBUILD时被误导拔错盘,导致整个RAID崩溃。

故障类型四、IO通道受阻导致RAID掉盘。

RAID控制器在设计时候优先考虑的是数据的安全性,RAID会尽可能避免将数据写到不稳定的存储介质上。当控制器与物理盘进行IO时,如果时间超过某个阈值或校验关系不满足,RAID控制器便会认为对应的存储介质已不具备持续稳定工作的能力并让其强制下线,然后通知管理员尽快解决问题。这种设计的初衷从技术上和逻辑上来看没有问题,但对于如物理连接线路松动,硬盘工作反应超时(硬盘还是完好的)等场景来说,控制器无法分辨存储介质是否真的出现物理故障,这种情况下会大概率强制磁盘下线。这类故障发生概率比较高且无法避免,很多用户因此类故障质疑服务器厂商。实际上。越是设计安全的RAID控制器,越容易发生此类故障。

故障类型五、控制器的稳定性。

RAID的控制器在ONLINE状态下(无离线盘)工作是最稳定的。当部分硬盘(物理故障或者逻辑故障)离线后控制器便会工作在一个相对不稳定的状态,这也是好多中低端的RAID控制器在有磁盘离线后就表现出读写性能下降的原因。控制器的不稳定会增加数据吞吐时IO滞留的可能性,从而导致上述第四个类型的故障的发生。中低端的控制器(无高性能处理芯片或者大容量高速缓存)发生这类故障的概率要高得多。

故障类型六、阵列中硬盘故障。

很多人认为磁盘阵列只要在正常工作,阵列中就不会存在有物理故障的硬盘。这个观点的判断依据是一旦raid中有硬盘出现物理故障,阵列控制器就会将故障硬盘踢下线。然而实际上并非如此。

RAID很少会读取到物理硬盘的所有磁盘空间,同一时间更是不可能。部分情况下,硬盘会在RAID没有读取到的区域或者RAID以前读取过的区域出现坏道,这类坏道因为没有被RAID读过,所以在控制器来看还是好的。

出现这种情况后可能会产生的直接后果就是在REBUILD过程中,当一块物理硬盘离线后,在进行REBUILD过程中,如果其他硬盘存在这类没有被RAID读取到的坏道,由于REBUILD是对全盘做全面同步,在REBUILD过程中就一定会读写到这类之前没有被RAID读取到的坏道。这时REBUILD还没完成,新盘无法上线,又在旧盘发现了坏道,RAID极有可能将发现坏道的旧盘踢出,这样就会导致RAID故障。

故障类型七、人为误操作。

人为误操作导致的RAID故障,例如:误拔了RAID里的硬盘、更换坏盘不及时、拔出硬盘更换或者进行其他操作后忘记硬盘在RAID中的顺序、不小心删除了原RAID配置等。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    14

    文章

    10467

    浏览量

    91890
  • RAID
    +关注

    关注

    0

    文章

    294

    浏览量

    37798
  • 磁盘
    +关注

    关注

    1

    文章

    403

    浏览量

    26627
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    磁盘阵列柜怎么选?先厘清这4个关键维度

    在构建高性能工作站、服务器、NAS系统或工业嵌入式平台时,引入硬件级磁盘阵列是提升数据冗余、读写性能与管理效率的核心手段。盲目选型可能导致兼容、散热乃至稳定性问题。专业的选择始于对自身工作负载的清晰
    的头像 发表于 05-09 15:11 258次阅读
    <b class='flag-5'>磁盘阵列</b>柜怎么选?先厘清这4个关键维度

    服务器数据恢复—服务器异常断电致存储不可识别的数据恢复过程

    给大家分享一起服务器RAID磁盘阵列数据恢复案例,故障起因是服务器多次遭遇意外断电,最终造成RAID阵列信息丢失,业务数据无法正常访问。
    的头像 发表于 05-08 11:23 235次阅读

    磁盘阵列RAID写缓存掉电保护怎么做?永铭双电层超级电容模块SDM 8.0F/13.5V为服务器存储提供短时后备供电解决

    在企业级服务器、磁盘阵列、边缘存储等设备中,磁盘阵列RAID通常会将正在写入的数据和关键元数据暂存在Cache(高速缓冲存储器)中,以提升写性能。当整机突发掉电时,若后备能源不能及时接管供电
    的头像 发表于 04-18 16:47 238次阅读
    <b class='flag-5'>磁盘阵列</b><b class='flag-5'>RAID</b>写缓存掉电保护怎么做?永铭双电层超级电容模块SDM 8.0F/13.5V为服务器存储提供短时后备供电解决

    RAID 1≠备份! RAID1正确操作指南与致命误区全解析 #RAID #RAID1 #磁盘阵列

    磁盘
    ICY DOCK硬盘盒
    发布于 :2026年01月30日 16:28:24

    服务器数据恢复—5盘RAID5中的4盘重建RAID5,RAID5数据恢复秘籍!

    一台某品牌服务器,挂接一台同品牌的磁盘阵列,有一组由5块硬盘组建的RAID5阵列raid5阵列中有一块硬盘掉线,由于
    的头像 发表于 11-13 16:20 818次阅读
    服务器数据恢复—5盘<b class='flag-5'>RAID</b>5中的4盘重建<b class='flag-5'>RAID</b>5,<b class='flag-5'>RAID</b>5数据恢复秘籍!

    高效部署磁盘阵列:选对硬盘抽取盒,省心又强力

    在服务器、工作站或高性能PC中部署磁盘阵列RAID)是提升存储性能或保障数据安全的成熟方案。无论是追求速度的RAID0,注重安全的RAID1,还是兼顾性能与冗余的
    的头像 发表于 11-07 16:34 1346次阅读
    高效部署<b class='flag-5'>磁盘阵列</b>:选对硬盘抽取盒,省心又强力

    服务器数据恢复—EqualLogic存储上raid5磁盘阵列数据恢复案例

    服务器存储数据恢复环境&故障: 某品牌EqualLogic PS6100存储阵列上有一组由16块硬盘组建的raid5磁盘阵列磁盘阵列上层
    的头像 发表于 10-21 15:04 520次阅读

    服务器数据恢复—Raid5多盘掉线,存储复活大揭秘!

    某单位同友存储,存储中有一组raid5磁盘阵列。存储内部共有虚拟机若干台,raid5阵列崩溃导致存储无法启动。
    的头像 发表于 10-10 13:44 561次阅读
    服务器数据恢复—<b class='flag-5'>Raid</b>5多盘掉线,存储复活大揭秘!

    服务器数据恢复—Raid5两盘损坏热备盘未启咋恢复?

    EMC存储上有一组由多块stat硬盘组建的raid5磁盘阵列,该raid5阵列中有两块热备盘。上层采用的是zfs文件系统。 raid5
    的头像 发表于 10-09 17:31 784次阅读

    服务器数据恢复—Raid6阵列数据恢复案例

    服务器存储数据恢复环境: 一台infortrend某型号存储,存储设备上有12块硬盘,组建一组raid6磁盘阵列阵列上层有一个lun,映射到WINDOWS系统上使用。WINDOWS系统划分了一个
    的头像 发表于 09-09 11:07 778次阅读

    服务器数据恢复—服务器断电导致raid模块损坏的数据恢复案例

    某品牌服务器中有12块硬盘,组建了一组raid5磁盘阵列,服务器内存储的是普通文件。 机房供电不稳定导致服务器断电,管理员重启服务器后发现服务器无法正常工作。 根据描述的故障发生过程,北亚企安数据恢复工程师推断
    的头像 发表于 09-04 12:57 1196次阅读

    服务器数据恢复—StorNext文件系统数据丢失的数据恢复案例

    服务器存储数据恢复环境&故障: 一台昆腾存储设备中有一组raid5磁盘阵列阵列上有两块硬盘先后离线,raid5
    的头像 发表于 08-19 11:43 827次阅读

    服务器数据恢复—服务器硬盘状态灯变红色,分区数据恢复案例

    某公司服务器上有一组由3个硬盘组建的raid5磁盘阵列。 服务器上1块硬盘的状态灯变为红色,磁盘阵列出现故障,分区无法识别。
    的头像 发表于 08-12 12:05 719次阅读
    服务器数据恢复—服务器硬盘状态灯变红色,分区数据恢复案例

    服务器数据恢复—坏道“突袭”Raid5阵列,数据恢复大揭秘

    北京市某单位的办公用服务器。服务器上有一组由6块硬盘组建的raid5磁盘阵列。 服务器崩溃,经过初步检测,发现raid5阵列的两块硬盘掉线。这2块硬盘经过初步检测,硬件工程师推断掉线
    的头像 发表于 08-05 11:24 842次阅读

    raid5数据恢复—Raid阵列重建后如何恢复原阵列的数据?

    raid5阵列数据恢复环境&故障: 一台服务器上有一组raid5磁盘阵列,该raid5
    的头像 发表于 07-10 12:27 792次阅读