0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心存储系统出现故障应该从这几个方面入手

dKBf_eetop_1 作者:工程师李察 2018-11-03 07:59 次阅读

存储系统作为如今大数据云计算时代的根基,它的稳定才是支撑起如此海量数据的根本。所以各大相关行业对于这部分非常重视,所以在此针对存储系统的故障处置简单提出自己学习总结的一些思路。

首先在处理存储系统发生的可能故障前必须对于整个存储系统的架构以及原理有一个清楚的了解。普遍来说存储系统由主机、交换机及存储设备组成。它们之间可以是直连或者是IP网络或FC网络的方式进行连接。整个系统的稳定性跟每个组成部分都息息相关。

其次了解故障的分类,故障分类大致分为硬件故障、配置故障或者license类问题,先外部后内部,先处理高级警告后处理低级警告,先共性后个性。

面对故障的发生,第一步永远都是先进行必要的信息收集,对于整个存储系统的基本信息,故障信息、存储设备信息以及组网、主机服务器信息要有了解。这些部分可以直接管理到主机、交换机或存储设备中进行收集,如今厂商也都有专门研发维护工具来帮助管理者做这些事情。收集清楚这些信息之后,才能对整个存储系统有一个普遍清晰的认知。至少对如今的故障可能发生原因有一个了解,然后再细化到每个组成部分上排查可能问题。

一、主机层

在主机层面大多需要检查的是操作系统版本,相应的HBA卡是否达到合适的标准,如速率、IOPS及带宽等。其次是在主机上安装的多路径软件,查看一下与存储设备连接的物理路径的状态以及存储LUN等信息。

二、网络层

网络层次可能发生的问题大多是连通性问题,由于链路故障导致的丢包或者误码率上升等现象,此现象可以在交换机上观察端口的信息,观察误码率是否在持续增长,如有,则可能存在链路部件异常或接触不良的现象。其次可能是端口速率或带宽未达到标准,查看端口配置及协商状况,这些都有可能导致故障或者性能问题。

三、存储层

存储设备可以在导出相关告警,事件或者运行数据、系统日志和硬盘日志来进一步分析可能发生故障的原因,到底是存储控制器问题还是底层的硬盘问题都需要一一排查。在底层存储方面主要考虑存储模块的配置,指示灯状态等信息,从指示灯状态我们可以分析出是否存在硬件故障等,其次在配置方面:RAID级别、分条深度、LUN读写策略、cache策略,LUN归属、硬盘类型等是否符合业务的特点以及不符合时可能导致的问题。都是需要我们在故障排查处理时需要考虑的。

总之面对存储系统的故障,一定要具备一个清晰的思路,不要盲目的去做。盲目的去做可能会恶化故障,从而使得排查难度进一步加大。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    38

    文章

    7344

    浏览量

    135706
  • 数据中心
    +关注

    关注

    15

    文章

    4184

    浏览量

    69959
  • 存储系统
    +关注

    关注

    2

    文章

    381

    浏览量

    40702

原文标题:示波器专用芯片TEK061/049白皮书有奖下载

文章出处:【微信号:eetop-1,微信公众号:EETOP】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    西部数据退出存储系统:出售IntelliFlash部门

    专门从事数据中心存储以及全闪存存储阵列的硬件和软件公司,以构建竞争激烈的存储系统。由于西部数据在2016年接管S
    的头像 发表于 09-23 11:24 6924次阅读

    数据中心子系统的组成

    时间断电,燃料的及时供应或大量存储可以保持关键系统运转数天。(5)加热和冷却加热和冷却子系统数据中心提供基本的工作环境。由于在大部分情况下计算机设备产生妁热量非常大,所以必须认真考虑
    发表于 11-11 10:16

    如何升级存储系统及解决存储故障

    的高速SATA驱动器,1TB空间用来存储原始数据。设备买齐了,下面该动手安装了。首先,分别设定一个系统驱动器和一个数据驱动器。为了保证大影音文件运行时磁盘性能,剩余的两个驱动器设置为R
    发表于 12-12 15:56

    松下推出“冷数据”光盘存储系统

    路之遥电子网讯1月6日消息,日本松下公司周二正式向外推出一款被称为“freeze-ray”的光盘数据归档系统。该存储系统是专为解决数据中心里的“冷
    发表于 01-06 18:23

    轻松玩转数据中心可靠性的几个概念

    的设备MTBF也有所不同,所以对于数据中心的MTBF应该取所有设备MTBF的最小值。一些数据中心充分考虑了设备的业务备份,从而很大程度上避免了因设备故障造成业务中断的情况,所以MTBF
    发表于 04-26 14:43

    易天重点解析监控系统数据中心机房的重要性

    系统其实是包含多方面的,而不是简单的视频监控,当数据中心机房出现一些隐患时,通过监控系统及时发现,就可以将危险消灭在摇篮之中,理论上,在
    发表于 10-09 15:00

    解决采样数据系统难题,应该从这几个方面入手

    简介数字X射线 (DXR)、磁共振成像和其他医疗设备要求数据采集系统具备小型、高性能、低功耗等特性,以满足竞争市场上医生、病人和制造商的需求。本文展示一款高精度、低功耗信号链,可解决多通道应用(如数
    发表于 11-06 08:00

    数据中心是什么

    数据中心是什么:数据中心是全球协作的特定设备网络,用来在因特网络基础设施上传递、加速、展示、计算、存储数据信息。数据中心大部分电子元件都是由
    发表于 07-12 07:10

    基于单机存储系统故障恢复

    本文中介绍的故障恢复主要是只单机存储系统中的故障恢复,就是只有一台电脑,与之相对的是分布式存储系统,暂且不谈。
    发表于 06-10 01:41 796次阅读

    存储系统体系的变化

    随着价格适中的大容量闪存芯片的面市,数据中心巨大的存储系统体系结构出现了很大的变化。通常的情况是,大容量低成本应用出现变化时,结果会很快扩展到其他计算领域,包括嵌入式领域。今年闪存峰会
    的头像 发表于 06-05 14:39 2755次阅读

    数据中心存储系统面临的问题,存储虚拟化技术及其实现方式

    由于采用了存储虚拟化技术,数据中心的运维人员在日常管理与维护中通常无需对单一存储设备进行操作,而是通过存储虚拟化控制器提供的统一界面,对存储
    的头像 发表于 08-16 18:03 6308次阅读

    排队叫号机出现故障怎么解决,从这几个方面入手

    了服务质量,同时也树立了良好的形象。在很多服务场所已经离不开排队系统。因为是一些电子设备,在使用过程当中难免会遇到故障,排队叫号机出现故障应该
    发表于 08-19 18:03 4449次阅读

    数据中心存储架构升级解决方案

    能够支持呈指数级增长的数据量和实施分布式低延迟处理。这些趋势还导致了更复杂和更昂贵的数据中心存储架构,用于支持不同负载下,不同接口配置的硬盘驱动器与固态驱动器(SSD)组合。本文将解释如何使用PCI Express(PCIe)5.0/6.0 PHY IP在
    的头像 发表于 06-21 10:07 1968次阅读

    分享数据中心机房建设应该注意哪些方面-科兰

    的问题。分享数据中心机房建设应该注意哪些方面数据中心机房建设应该注意哪些方面? 1、
    的头像 发表于 05-30 11:35 579次阅读

    数据中心存储的趋势

    的优越性能,全闪存存储阵列在数据中心中越来越受欢迎。这些存储系统使用SSD作为主存储和辅助存储,提供更快的
    的头像 发表于 03-18 17:39 210次阅读