0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

怎么样才能让你的SSD潜能得到最大的释放?

电子工程师 来源:陈定宝,Lightbits Labs解决方 作者:陈定宝,Lightbits 2021-04-01 18:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在过去十几年中,CPU的性能提升了100倍以上,而传统的HDD硬盘(Hard Disk Drive)才提升了1.5倍不到,这种不均衡的计算存储技术发展,极大地影响了IT系统整体性能的提升。直到固态硬盘SSD(Solid State Drive)被发明出来,其性能有了颠覆性的提升,才解决了存储的瓶颈问题。然而,SSD作为一项新技术,仍然存在一些固有的缺陷,如何充分发挥SSD的优势,是一个值得研究的方向。下面从性能、持久性、使用成本等方面对此话题做一些探讨。

一、如何充分发挥出SSD的性能

首先,我们来看看传统HDD的使用方式:

1.协议一般都采用SASSATA接口

2.Linux的IO调度需要用电梯算法来对IO进行重排以优化磁头的路径;

3.企业级存储通常使用Raid卡做数据保护。

在接口协议方面,随着SSD的发明,NVMe协议应运而生。相较于SAS、SATA的单队列机制,NVMe最多可以有65535个队列,并且直接采用PCIe接口,消除了链路和协议瓶颈。

在控制卡生态方面,各大厂商也纷纷推出自己的NVMe控制卡芯片,有PMC(现属于Microchip)、LSI、Marvel、Intel、慧荣以及国内的得瑞等,技术也已经非常成熟。

在Linux驱动和IO协议栈方面,也做了相应的优化,如下图所示,NVMe驱动可以直接绕过那些传统的、专为HDD设计的调度层,大大缩短了处理路径。

1617182467119858.png

到目前为止,为了充分发挥SSD的性能,上面提到的三个传统HDD的问题中前两个已经得到了解决,然而在企业级市场上,基于NVMe的Raid始终没有太好的方案。传统企业最广泛使用的Raid5/Raid6数据保护机制(N+1, N+2),通常是把数据条带化分片,然后计算出冗余的Parity Code(奇偶校验码),将数据存放到多块硬盘,写入新数据通常是一种“读改写”的机制。这种机制本身就成为了性能瓶颈,并且“读改写”对SSD的使用寿命有很大的损耗。

另外,因为NVMe协议把控制卡放到了NVMe盘的内部,IO都由NVMe盘内部的DMA模块来完成,这就给基于NVMe的Raid卡设计带来了更大的困难。目前市场上这类Raid控制卡可用方案也很少,并且性能上也无法发挥出NVMe的优势,因此没能被广泛使用。

基于目前这种状况,很多企业级存储方案仍然在使用SAS/SATA的SSD加传统的Raid卡,这种方式又会出现前面已经解决的两个问题,SSD的性能得不到充分发挥。

然而,这样的情况也在发生改变,由Lightbits Labs发明的NVMe over TCP(NVMe/TCP)存储集群解决方案就对这个问题做了很好的处理。该解决方案通过自主研发的一块数据加速卡,采用Erasure Code(纠删码)机制可以做到超过1M IOPS的随机写性能,并且可以避免“读改写”带来的使用寿命损耗。

另外,Lightbits提出了Elastic Raid机制,该机制提供弹性的N+1保护(类似于Raid5),相较于传统的Raid5需要热备盘或者需要及时替换损坏盘,该机制在一块硬盘发生损坏之后能自动平衡形成新的保护。比如一个节点内原先有10块盘,采用9+1的保护,当某块盘损坏后,系统会自动切换成8+1的保护状态,并且把原先的数据再平衡到新的保护状态,从而在可维护和数据安全性方面实现了大幅提升。此外,该数据加速卡还能做到100Gb的线速压缩,显著提高了可用容量,进而能大幅降低系统使用成本。

二、如何提升NVMe盘的持久性

目前使用最广泛的SSD是基于NAND颗粒的,而NAND一个与生俱来的问题就是持久性(endurance)。并且随着技术的发展,NAND的密度也越来越高,最新一代已经到了QLC(4bits per Cell),同时每个Cell可被擦写的次数也在减少(1K P/E Cycles)。发展趋势如下图所示。

1617182467564069.png

另外,对NAND的使用有一个特点,就是可擦的最小单位比较大,如下图所示,写的时候可以4KB为单位往里面写,但是擦的时候(比如修改原有数据)却只能以256KB为颗粒来操作(不同的SSD大小不一样,但原理都一样)。这就容易形成空洞而触发SSD的GC(Garbage collection)数据搬移,进而导致所谓的写放大现象,对盘的持久性会产生进一步影响。

1617182456526293.png

在企业级存储中,通常使用Raid5/6这种“读改写”的机制,会对盘的写操作数量进一步放大,一般使用场景下大约是直接写入方式的2倍损耗。此外,很多Raid5还会启动Journal机制,对盘的使用寿命会进一步损耗。

最后,对于最新的QLC来说,使用中还需要考虑另一个因素——Indirection Unit(IU)。比如有些QLC盘使用16KB的IU,如果要写入较小的IO,也会触发内部“读改写”,对使用寿命又多一重损伤。

由此可以看出,基于NAND的SSD还是比较娇弱的。不过,只要能正确地使用,还是可以避免这些问题。比如以某常用的QLC盘为例,通过如下两组关于性能和持久性相关的参数可以看出,在持久性上顺序写是随机写的5倍,而性能更是26倍:

顺序写0.9 DWPD,随机4K写0.18 DWPD;

顺序写1600 MB/s,随机4K写15K IOPS(60MB/s)。

通过上面的分析发现,能把盘使用在一个最佳的工作状态至关重要。好消息是目前一些先进的解决方案,比如Lightbits的全NVMe集群存储解决方案就可以解决这个问题。该方案通过把随机IO变成顺序IO的方式,以及独有的Elastic Raid技术避免了Raid“读改写”的弊端,从而能大幅提高盘的持久性及随机性能。

三、如何降低使用成本

由于SSD相对于HDD而言是一项新技术,再加上产业的生产规模和需求量的矛盾,目前价格相比HDD仍然偏高。那么如何降低SSD使用成本就变得非常重要。

降低使用成本最重要的一环就是要把SSD充分使用起来,无论是容量还是性能。不过就目前而言,大多数NVMe盘都是直接插在应用服务器上使用,而这种方式非常容易造成大量的容量和性能浪费,因为只有这台服务器上的应用才能使用它。根据调研发现,使用这种DAS(Direct Attached Storage,直连式存储)方式,SSD的利用率大概在15%-25%。

针对这个问题比较好的解决方法是近几年来市场上被广泛接受的“解耦合”架构。解耦合之后,把所有的NVMe盘变成一个大的存储资源池,应用服务器用多少就拿多少,只要控制总数量够用就行,可以非常容易地将利用率推到80%。另外,因为资源集中起来,可以有更多的手段和方法用于降低成本,比如压缩。例如,平均应用数据压缩比在2:1,就相当于多了一倍的可用容量,也相当于每GB价格降了一半。当然压缩本身也会带来一些问题,比如压缩本身比较费CPU,另外很多存储解决方案在开启压缩之后性能就会大大降低。

针对压缩方面的问题,Lightbits的NVMe/TCP集群存储解决方案可以通过存储加速卡来予以解决。该卡可以做到100Gb的线速压缩能力,并且不消耗CPU,不增加延迟。利用这样的解决方案,压缩功能几乎没有额外的成本。此外,正如前面在介绍提高持久性时所提到的,Lightbits解决方案能提高使用寿命并支持使用QLC盘,从整个使用周期来看,在使用成本方面也会有非常大的降低。总的来说,通过解耦合提高使用效率,压缩提高可用容量,优化提高使用寿命或启用QLC,经过这样的重重提升,SSD的使用成本可以得到极大的控制。

以上从性能、持久性、使用成本三个方面分析了如何用好SSD盘,可以看到要用好NVMe SSD盘还是不容易的。因此,对一般用户而言,选择一个好的存储解决方案就至关重要。为此,以色列创新公司Lightbits以充分发挥NVMe盘的最大价值为使命,发明了NVMe/TCP协议,并推出了新一代的全NVMe集群存储解决方案,可以帮助使用者轻松地将SSD盘用好。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SSD
    SSD
    +关注

    关注

    21

    文章

    3061

    浏览量

    121786
  • 磁头
    +关注

    关注

    0

    文章

    19

    浏览量

    9445
  • HDD
    HDD
    +关注

    关注

    0

    文章

    155

    浏览量

    28621
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    戴尔科技PowerStore如何释放QLC闪存全部潜力

    转眼间,QLC SSD问世已有几个年头,从问世之初被质疑的“短命鬼”,到如今市场的又一大主流选择,QLC和它的前辈们一,在批判中前进,在螺旋中上升。
    的头像 发表于 11-30 09:25 329次阅读

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在驱动 KUAE 集群高效运转方面的核心技术与创新成果。   摩尔线程GPU 计算软件开发
    的头像 发表于 07-28 13:47 5513次阅读
    摩尔线程吴庆详解 MUSA 软件栈:以技术创新<b class='flag-5'>释放</b> KUAE 集群<b class='flag-5'>潜能</b>,引领 GPU 计算新高度​

    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,释放 AI 发展新潜能

    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,释放 AI 发展新潜能
    的头像 发表于 07-28 11:33 880次阅读
    WAIC 直击|Arm 邹挺:突破基础设施、数据安全与人才三重挑战,<b class='flag-5'>释放</b> AI 发展新<b class='flag-5'>潜能</b>

    没有掉电保护的SSD为什么不适合工业级场景?

    PLP保护的SSD为什么不适合工业级场景? 首先,什么是PLP? PLP(掉电保护)是一种专为工业级SSD设计的防护机制。天硕(TOPSSD)工业级SSD固态硬盘集成 钽聚合物电容 ,在SSD
    的头像 发表于 07-16 10:54 447次阅读
    没有掉电保护的<b class='flag-5'>SSD</b>为什么不适合工业级场景?

    工业级SSD为什么需要掉电保护?天硕工业级SSD固态硬盘告诉答案

    在工业控制和嵌入式系统中,电源波动或突发断电是常见问题。这种情况下,如果SSD正在写入数据,很可能导致数据丢失或文件系统损坏,甚至引发系统宕机。天硕(TOPSSD)G40工业级固态硬盘,针对这一
    的头像 发表于 07-09 17:05 571次阅读

    ​紫光闪芯新一代企业级SATA SSD E1200产品系列发布

    提供“存储中国化”解决方案。这款产品不仅实现了核心器件与固件算法的全面升级,更以性能、成本与可靠性的优势,有效契合了SATA SSD 产品在企业级市场的实际应用需求。         技术创新:性能与可靠性双提升,释放企业级存储潜能
    的头像 发表于 06-26 16:57 647次阅读

    华为汪涛提出解锁5G-A潜能的五大关键方向

    在2025 MWC上海期间举办的全球移动宽带菁英论坛上,华为常务董事汪涛发表了“共赢移动AI时代:解锁5G-A潜能释放商业价值”主题演讲。他表示,移动AI时代发展速度超乎想象,为移动产业带来三大变化,倡议产业界共迎变化,加速激活5G-A五大
    的头像 发表于 06-23 11:23 797次阅读

    5G IIoT如何释放工业4.0全部潜能

    与我们的家以及城市一,工厂也变得越来越智能。借助远程监控、自动化和其他智能技术,工业4.0有望使制造业更安全、更高效、更具有生产力。与此同时,5G生态系统正在迅速扩展,提供了非常适合智能工业的多功能混合技术。
    的头像 发表于 06-17 10:57 3892次阅读
    5G IIoT如何<b class='flag-5'>释放</b>工业4.0全部<b class='flag-5'>潜能</b>

    面向AI WAN的华为解决方案释放算网潜能 使能差异化服务

    凯受邀发表了“AI WAN释放算网潜能,使能差异化服务”的主题演讲。 刘凯指出,AI快速发展正催生多元化业务形态,这不仅深刻改变着人们的生活方式和工作模式,更对通信网络提出更高技术要求,包括确定性时延保障、零丢包传输能力及可信安全
    的头像 发表于 05-19 09:33 686次阅读
    面向AI WAN的华为解决方案<b class='flag-5'>释放</b>算网<b class='flag-5'>潜能</b> 使能差异化服务

    cyusb3014 slave fifo模式In和Out缓存大小不一时,显示错误怎么解决?

    cyusb3014 slave fifo 模式 In 和 Out 缓存大小设置不一时(比如:U2P DMA缓存16K,P2U DMA缓存1K),可以测出来实际就是设置值,但在USB Control Center 显示的USB信息都显示 16K, 这个 需要怎么修改才能让
    发表于 05-13 06:55

    DLP6500+DLPC900怎么才能达到最大帧率?

    从DLPC900手册获悉8bit Pattern 任何模式下帧率可达250FPS, 高速模式可达1031 FPS: 文档中解释达到最大帧率: 所以我的问题是: 1、我该如何配置才能达到这个整理,同时这里对LED的要求是什么?LED的亮度动态调制?
    发表于 02-27 06:19

    忆联天工平台:加速SSD产品验证,释放超凡产能

    SSD产品由概念设计至市场投放的复杂旅程中,产品测试验证环节扮演着至关重要的角色。它不仅是确保产品质量的坚实壁垒,更是推动SSD性能不断攀升的核心动力。 作为固态存储解决方案领域的佼佼者,忆联
    的头像 发表于 02-07 11:26 845次阅读

    如何给ADS1247发送指令,才能让它开始转换温度?

    最新在使用ADS1247测量PT100,MCU51模拟SPI访问ADS1247,可以读写所有的寄存器。但是无法测量温度,DOUT交永远是低电平,而且差分电压也总是0.000V。想请问,应当如何给ADS1247发送指令,才能让它开始转换温度。
    发表于 01-22 06:25

    见多识广的,知道Mini SSD吗?

    在全球数字化转型加速的背景下,存储设备已不再是单纯的数据存储工具,而是推动信息安全、提升运算效率和支持业务创新的关键基石。佰维存储顺应行业趋势,发布全新一代存储解决方案——Mini SSD,突破
    发表于 01-09 10:52 853次阅读
    见多识广的<b class='flag-5'>你</b>,知道Mini <b class='flag-5'>SSD</b>吗?

    力神磷酸铁锂电池批发 磷酸铁锂电池批发,了解多少?

    磷酸铁锂电池批发蕴含着诸多机遇,但也需要我们谨慎选择,把握好各个环节,才能让其在自己的业务中发挥最大的价值,助力我们更好地在市场中前行。
    的头像 发表于 01-02 17:22 787次阅读
    力神磷酸铁锂电池批发 磷酸铁锂电池批发,<b class='flag-5'>你</b>了解多少?