0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么存储系统的性能涉及到无数的IO环节?

lhl545545 来源:H3C 作者:H3C 2020-08-29 09:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

性能一直是存储的核心话题,如果说可靠性是业务数据的生命线,那么性能就是业务加速发展的推进器。

存储系统的性能来自于软件和硬件的配合,硬件体系包括CPU、内存、网络、硬盘,组网方式,软件架构等等,所有这些软硬件协同作用的合力就表现为存储系统对外提供的性能吞吐能力。

相比于传统存储,分布式存储的性能问题尤为棘手,涉及到多个节点之间的数据转发,IO路径更长,因此对性能的影响点更多,更复杂。纯软件由于其硬件的多样性,往往出现性能体验的波动和不稳定,在某些配置上得到的性能数据,在最终用户得到的硬件配置上却不一定能达到。

面向场景 补齐影响性能的每块短板

新华三集团存储产品线X10000产品首席架构师陈钊介绍:“存储系统的性能问题是个典型的木桶效应,再解决当前短板之前,很难准确预知下一个短板;或者是否存在比当前发现的短板更短的短板。存储性能优化团队通过在整个存储IO路径协议栈上进行细致的打点分析,逐个排查性能瓶颈点,不断突破性能极限。”

“同时,我们深耕业务场景,比如广电、运营商、HPC等,专项进行性能优化,从硬件驱动到协议栈,一层一层分析系统瓶颈,逐项优化。H3C UniStor X10000存储一体机从用户场景出发,通过软硬件的联合调优,基于业务场景给出最佳的硬件典配,交付用户有保障的存储性能。”

除了针对各项场景应用进行定向优化精细开发,研发团队还介绍了X10000性能优化过程中的一个小小的难点……

不走回头路 用聪明的方法解决问题

原来,随着新的特性功能不断开发,加载了新功能后的产品,很有可能出现性能的倒退。那么,要怎样解决和避免这样的问题呢?

负责自动化性能看护系统的研发人员冯翔宇介绍,中央电视台和中科大洋联合poc测试是一次难忘的经历,当时,X10000存储系统在用户的测试环境中出现了性能回退。为了排查确切的引入问题源,测试团队重新对每一个列入问题单的性能影响因素进行了测试评估,整个周期持续了一月有余。

同时,针对新版本性能回退的主要矛盾,测试团队决定建立一套自动化性能系统。通过自动化CI集成,在性能倒退的最初就能识别并解决;当性能优化成果合入版本后,又刷新性能基线。从而使存储产品的性能能够不断提升。

冯翔宇介绍,性能自动化系统建立初期,测试团队查找和尝试了大量的开源工具和资料,决定了基于一个开源的基础框架。真正开展后却发现,框架虽然体系清晰,但是原生系统却是基于块业务实现的,且该系统实际上仅仅是一个预研阶段的产物,实际操作的资料基本没有。在初次部署时,便有层层报错。

测试团队花费了大量的时间梳理系统框架、终于建立了文件系统测试系统框架。然而,进行初步测试的过程中,却发现存储关注的性能数据分析和统计功能并不适配。

众所周知,存储产品的性能测试与硬件环境强相关,在保证性能测试数据能及时、有效提供的同时,还需要保证周边的测试环境、可供分析的perf数据准确抓取,这对于长期的性能稳定性至关重要。

为此,测试与开发团队内部专家反复沟通性能perf数据的抓取,建立可以反复、长期使用的perf数据库,确定抓取、命名、分类等准则;针对代码的简洁准确性、接口可复用继承性、异常流程处理等,测试人员反复考虑和优化已经调试走通的代码,对加强异常报错代码的提示信息也格外注重,快速解决问题。

团队的努力没有白费,经过反复的测验和不断集思广益优化,当前自动化测试系统具备一键完成自动安装、多个测试任务一键下发、性能数据准确收集等功能,让运维人员从性能测试环境确认、脚本确认、数据人力收集等诸多重复操作中解放,节约一半以上的人力投入,真正实现版本性能看护,为用户的业务开展提供最强加速度。

后记:披荆斩棘 初露锋芒

排查完性能问题之后的X10000存储系统,到客户的应用测试环境中,也表现出了优异的性能,为X10000在广电行业的破冰与开拓奠定了坚实的基础。

上文我们记载的是X10000性能研发过程中的一个小小的插曲,正如前文提到的,存储系统的性能涉及到无数的IO环节,只有我们扫除了每个IO环节上的瓶颈,才能造就存储系统优异稳定的性能,在这个不断排查瓶颈的过程中,研发中心上演了一幕幕感人的小故事,奠定了X10000存储系统的性能基础,铺就了X10000在多个行业开疆扩土的发展前景!
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11332

    浏览量

    225947
  • 软件
    +关注

    关注

    69

    文章

    5364

    浏览量

    91924
  • 存储系统
    +关注

    关注

    2

    文章

    439

    浏览量

    41954
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    卫星数据管理:127GB单次过境数据,硬盘存储系统如何应对?

    在卫星数据管理全链路中——从信号捕获、解码分析长期归档——存储系统虽处幕后,却是保障业务连续性的关键基础设施。一旦存储环节出现故障,整个数据处理链路将面临中断风险。卫星数据特征与
    的头像 发表于 04-23 17:15 258次阅读
    卫星数据管理:127GB单次过境数据,硬盘<b class='flag-5'>存储系统</b>如何应对?

    高端磁带库存储系统功率MOSFET选型方案——高效、可靠与智能电源管理设计指南

    在数据存储需求爆炸式增长与数据中心绿色化转型的双重驱动下,高端磁带库存储系统作为冷热数据分层存储的核心设施,其电源与电机驱动系统的可靠性、能效及功率密度直接决定了数据中心的运营成本与数
    的头像 发表于 04-16 10:39 206次阅读
    高端磁带库<b class='flag-5'>存储系统</b>功率MOSFET选型方案——高效、可靠与智能电源管理设计指南

    高端容灾存储系统功率链路设计实战:效率、可靠性与热管理的平衡之道

    在数据中心朝着高密度、高可用与绿色节能不断演进的今天,其内部存储系统的供电与电机驱动链路已不再是简单的能量转换单元,而是直接决定了数据存取性能系统可靠性(RAS)与总体拥有成本(TCO)的核心
    的头像 发表于 04-09 09:35 100次阅读
    高端容灾<b class='flag-5'>存储系统</b>功率链路设计实战:效率、可靠性与热管理的平衡之道

    戴尔科技蝉联全球服务器市场与外部存储系统行业份额第一

    近日,知名研究机构IDC公布的2025年第三季度《全球服务器季度追踪报告》和《全球企业存储季度追踪报告》显示,戴尔科技集团再次双双位列榜首,蝉联全球服务器市场与外部存储系统行业份额第一。
    的头像 发表于 01-21 16:04 687次阅读
    戴尔科技蝉联全球服务器市场与外部<b class='flag-5'>存储系统</b>行业份额第一

    国产高性能ONFI IP解决方案全解析

    )时代,数据存储的吞吐量瓶颈日益凸显,高性能的ONFI IP能够确保大规模数据的高效存取,是SSD及先进存储系统的核心技术基石。2. 奎芯科技 ONFI IP 的核心技术规格奎芯科技提供的 ONFI
    发表于 01-13 16:15

    性能网络存储设计:NVMe-oF IP的实现探讨

    Initiator 并发访问支持(Multi-Initiator Sharing) 系统从协议栈调度机制均支持多个 Initiator(多个客户端)同时访问单个Target: •每个 Initiator拥有独立
    发表于 12-19 18:45

    全球前四!京东云云海AI存储跻身IO500高性能存储榜单

    存储技术,云海AI存储不采用 PMEM 硬件,具备更强通用性的同时也实现了更低存储成本。 IO500是全球高性能计算HPC领域最权威、最具影
    的头像 发表于 11-27 14:51 466次阅读
    全球前四!京东云云海AI<b class='flag-5'>存储</b>跻身<b class='flag-5'>IO</b>500高<b class='flag-5'>性能</b><b class='flag-5'>存储</b>榜单

    集装箱储能系统标准解析系列(二)|IEC TS 62933-3-1电能存储系统的规划和性能评估

    IEC TS 62933-3-1电能存储(EES)系统 第3-1部分:电能存储系统的规划和性能评估
    的头像 发表于 11-25 15:30 718次阅读
    集装箱储能<b class='flag-5'>系统</b>标准解析系列(二)|IEC TS 62933-3-1电能<b class='flag-5'>存储系统</b>的规划和<b class='flag-5'>性能</b>评估

    集装箱储能系统标准解析系列(三)| IEC TS 62933-4-1电能存储系统(EES) 第4-1部分:环境问题指导

    IEC TS 62933-4-1电能存储系统(EES) 第4-1部分:环境问题指导 通用规范
    的头像 发表于 11-25 15:11 555次阅读
    集装箱储能<b class='flag-5'>系统</b>标准解析系列(三)| IEC TS 62933-4-1电能<b class='flag-5'>存储系统</b>(EES) 第4-1部分:环境问题指导

    曙光存储支持西湖大学高性能计算中心部署完成全新存储系统

    近日,曙光存储支持西湖大学高性能计算中心部署完成全新存储系统,为AI研发、科学计算和信息化平台等提供存力支持。性能实测显示,该系统单节点带宽
    的头像 发表于 08-25 11:48 1465次阅读

    NAS存储系统断电风险大?UPS电源守护数据安全刻不容缓

    在数字化时代,企业数据已成为最宝贵的资产。NAS存储系统作为企业数据存储的核心设备,一旦遭遇意外断电,轻则导致数据丢失,重则造成设备损坏,给企业带来难以估量的损失。作为专业UPS电源厂家,优比施
    的头像 发表于 08-25 10:13 1212次阅读
    NAS<b class='flag-5'>存储系统</b>断电风险大?UPS电源守护数据安全刻不容缓

    霄云科技银河存储:重构AI时代的存储新范式

    计算(HPC)、生命科学等场景设计的存储系统,以“极速、高可用、全链路可视”为核心,重新定义企业级存储性能边界。三大核心场景,释放存储潜能1.人工智能模型训练与推
    的头像 发表于 08-21 10:36 1098次阅读
    霄云科技银河<b class='flag-5'>存储</b>:重构AI时代的<b class='flag-5'>存储</b>新范式

    Ceph分布式存储系统解析

    在当今数据爆炸的时代,企业对存储系统的需求日益增长,传统的集中式存储已经无法满足大规模数据处理的要求。分布式存储系统应运而生,而Ceph作为开源分布式存储系统的佼佼者,以其高可用性、高
    的头像 发表于 07-14 11:15 1241次阅读

    在低功耗蓝牙产品开发的过程中,会涉及到一些参数的选择和设定,这些参数是什么意思,该如何设定呢?(蓝牙广播)

    在低功耗蓝牙产品开发的过程中,会涉及到一些参数的选择和设定,这些参数是什么意思,该如何设定呢?在此介绍一些: 蓝牙的广播类型(Advertising Type) 可连接广播(ADV_IND):允许
    发表于 06-25 18:25

    智能手环PCB设计涉及到的分立器件

    现代社会,人们的各种压力越来越大,睡眠质量显得尤为重要。智能手环作为热门的穿戴式智能设备,其中集成了运动监测、睡眠追踪、心率测量、体温检测等多种功能,其内部电路集中在较小的PCB板上要实现低功耗、高精度的平衡。合科泰将在以下讲解其构成和PCB设计注意事项。
    的头像 发表于 05-07 14:32 919次阅读
    智能手环PCB设计<b class='flag-5'>涉及到</b>的分立器件