电子发烧友网 > 人工智能 > 正文

大规模存储基础设施对于AI有着怎样的要求

2020年04月05日 21:23 次阅读

大规模的人工智能(AI)在容量和性能方面提高了存储基础设施的门槛。对于人工智能或机器学习(ML)环境,期望增长到数十个甚至数百TB的容量并不少见。尽管那些只提供全闪存阵列的供应商可能会宣称,这些环境实在太大而无法仅存储在全闪存的一层上。这些环境中的大多数(由于它们的并行性质)在硬盘的服务几乎与从闪存中获得的服务一样好。

大规模存储基础设施对于AI有着怎样的要求

要求1:高性能网络

人工智能/机器学习环境创建使用内部或直接连接存储(DAS)的计算服务器集群的情况并不少见。即使共享存储在使用可用容量和将工作负载更均匀地分配给计算节点方面效率更高,组织仍愿意牺牲这些效率来消除计算节点和共享存储创建之间的网络延迟。

NVMe光纤网络(NVMe-oF)是明确设计用于基于内存的存储设备(如闪存和非易失性内存的下一代网络。它提供的延迟几乎与DASNVMe相同。NVMe的深度命令和队列深度使其也非常适合高度并行化的工作负载,并且人工智能/机器学习可能是所有工作负载中最并行的。NVMe-oF可能是专门为内存存储而设计的,但它也是为人工智能/机器学习量身定制的。

要求2:共享存储

如果NVMe-oF可以解决计算和存储之间的延迟问题,那么它将启用第二个要求,即共享存储。通过NVMe-oF连接的共享存储解决方案,工作负载可以受益于共享存储的所有自然属性。首先,所有节点都可以访问所有数据,这意味着工作负载可以更均匀地分配其计算负载。这也意味着具有图形处理单元(GPU)的节点可以访问所有数据。由于图形处理单元(GPU)的价格比CPU贵得多,因此让图形处理单元(GPU)处于繁忙状态是当务之急,而共享存储则使这变得更加容易。

在衡量数十个甚至几百PB的工作负载容量需求时,存储效率的任何提高都可以节省大量成本。在每个计算节点都有专用驱动器的群集中,IT部门无法轻松地将可用存储容量重新分配给群集中的其他节点。直接连接存储(DAS)模型中缺乏资源池,这也意味着组织无法有效使用制造商推向市场的大容量驱动器。现在,具有双重用途的节点(计算和存储)可以安装12个或更多16TB以上闪存驱动器或18TB以上硬盘驱动器,而单个节点可能无法有效使用。如果人工智能/机器学习存储体系结构从专用服务器中池化那些相同的硬盘,则可以对其进行更精细的分配。人工智能/机器学习工作负载不仅需要扩展以满足容量需求,而且还必须可以直接访问存储节点以满足性能需求。

要求3:多层存储

考虑到人工智能/机器学习数据集的大小,分层几乎是必须的,因为数十PB的闪存太昂贵了。公平地说,某些人工智能工作负载不遵循80/20规则,在任何给定时间,80%的数据都是不活动的。这些工作负载可以从100%休眠状态变为100%活跃状态。尽管如此,它们是高度并行的,并且数百个性能较低的硬盘驱动器可同时满足工作负载的需求,从而可以提供这些工作负载所需的性能。如果没有,他们可以在当前网络技术允许的范围内尽快传送数据。

要求4:并行访问

并行访问意味着存储基础架构中的每个节点为人工智能/机器学习集群中的每个计算节点提供对其所需数据的直接访问。单个控制节点不会成为瓶颈。高水平的并行性对于人工智能/机器学习至关重要,因为可能需要同时访问存储池的计算节点数量众多。正是这种并行性使吞吐量能够使硬盘作为人工智能/机器学习存储基础设施中的组件而变得可行。并行文件系统几乎总是需要客户端或代理,但是与提供典型访问相比,该代理除了提供并行访问外,还通常需要较少的开销。

要求5:多种协议

尽管需要并行访问进行处理,但另一个要求是多协议访问,这对于将数据提取到存储基础架构中特别有用。许多人工智能和机器学习项目都从物联网(IoT)设备接收数据。这些设备通常需要与其附带的协议进行通信。许多设备通过SMB或NFS进行通信,少数设备使用S3。更重要的是,几乎没有人使用本机并行文件系统客户端。

要求6:高级元数据处理

人工智能/机器学习工作负载是元数据繁重的,尽管不是典型地因为它们使用像媒体和娱乐工作负载那样的丰富元数据而并非如此。元数据在人工智能/机器学习工作负载中的重要性来自其通用文件的数量。在大多数情况下,数十亿至数百PB的人工智能工作负载由数十亿个文件组成。这些文件中的每个文件都有元数据,就像其他工作负载一样,大部分IO事务都来自元数据。人工智能/机器学习存储基础结构必须管理元数据,以便即使文件数量增加,它也可以维持系统的性能。元数据需要在整个存储群集中进行分配,以便所有节点都可以参与其管理。供应商可能还会查看每个存储节点中闪存上的存储元数据,以确保系统始终响应。

结论

人工智能/机器学习工作负载与组织过去可能运行的任何其他工作负载从根本上不同。早期的人工智能/机器学习项目已经依靠DAS进行数据存储。问题在于直接连接存储(DAS)无法平均分配负载,这对于每个人工智能工作负载的GPU数量增加至关重要。此外,直接连接存储(DAS)的效率极低,复制和移动数据所花费的容量和时间上的浪费消除了廉价硬盘的价格优势。

责任编辑:ct

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

【现场直播】第五届IoT大会之人工智能分论坛

直播主题:● AI知名企业大佬现场分享观点,解读行业趋势● 中国AI产品制造商和系统集成商的产品、技术和市场战略● AI
发烧友学院发表于 2018-12-18 00:00 1912次阅读
【现场直播】第五届IoT大会之人工智能分论坛

哪一些行业需要人工智能带来颠覆

以消费者为中心的人工智能和自动化应用正在帮助消除一些公众的误解,即这些技术只会对企业有益,而对就业和....
发表于 2020-04-05 21:12 21次阅读
哪一些行业需要人工智能带来颠覆

机器设计会受到AI技术的影响吗

人工智能如今应用越来越广泛。在大多数情况下,健壮和自适应的人工智能可以为人类的专业知识提供补充,而不....
发表于 2020-04-05 21:09 3次阅读
机器设计会受到AI技术的影响吗

人工智能真的可以和人类一样学习吗

随着企业将人工智能集成到自己的系统中,科技人员将目光投向了人工智能创新的新领域。
发表于 2020-04-05 21:04 32次阅读
人工智能真的可以和人类一样学习吗

为什么要采用人工智能技术

人工智能能够为企业提供更好、更清晰的视野,从而根据客户需求塑造服务和产品。
发表于 2020-04-05 20:58 34次阅读
为什么要采用人工智能技术

SK Hynix的DDR5内存路线图公布,下一代...

智能手机中的运行内存与存储内存是作为手机存储的硬件搭配,在PC电脑硬件平台上面的话,则是对应内存和硬....
发表于 2020-04-03 17:31 371次阅读
SK Hynix的DDR5内存路线图公布,下一代...

华为2019年中国企业级存储市场出货份额排名第一

IDC于近日发布《中国企业级外部存储市场2019年四季度跟踪报告》,报告显示,华为在2019年企业级....
发表于 2020-04-03 17:30 310次阅读
华为2019年中国企业级存储市场出货份额排名第一

AI数据服务野蛮生长后是怎样的

随着科技技术不断更新迭代,企业变革的方向已由信息化向智能化发展,而在此过程中,如何获取数据成为最重要....
发表于 2020-04-03 16:40 215次阅读
AI数据服务野蛮生长后是怎样的

产业链上下互联互通“三化”战略助力煤炭产业智能化...

4月3日消息,针对煤炭产业的智能化发展需求,找煤网推出了“通过互联网化助推行业交易效率;通过信息化作....
发表于 2020-04-03 16:29 239次阅读
产业链上下互联互通“三化”战略助力煤炭产业智能化...

人工智能如何显示自己的神通

疫情发生以来,企业的生存与发展成为全社会关注的问题。对于大多数企业来说,如何在疫情中变被动为主动,能....
发表于 2020-04-03 16:19 59次阅读
人工智能如何显示自己的神通

人工智能有可能冲击国际安全吗

演进派则认为人工智能更应被看作是武器的“放大器”,其作为武器本身并不是直接引发国际安全范式性变革的主....
发表于 2020-04-03 16:07 43次阅读
人工智能有可能冲击国际安全吗

谷歌Art Transfer工具将照片转换

随着机器学习和人工智能技术的发展,搜索巨头谷歌已经将自家研究成果应用于方方面面。比如近日推出的一款名....
发表于 2020-04-03 15:55 174次阅读
谷歌Art Transfer工具将照片转换

人工智能助力新药研发,它的优势是什么

近日,一家英国初创公司表示,该公司成功使用人工智技术开发出了一款药物。据悉,这款借助人工智能而开发的....
发表于 2020-04-03 15:52 159次阅读
人工智能助力新药研发,它的优势是什么

人工智能技术怎样升级

不管是VR逛展或看房能够带来多么真实的体验,还是各式机器人灵活强大的功能,非接触式服务的兴起依靠的是....
发表于 2020-04-03 15:50 79次阅读
人工智能技术怎样升级

人工智能技术如何控制水下机器人

爱丁堡机器人中心提供机器人平台和基于深度强化学习的算法框架指导,沈自所面向机器人平台特点进一步深入进....
发表于 2020-04-03 15:44 43次阅读
人工智能技术如何控制水下机器人

AI赋能新客服可以强化什么

随着“新基建”的提出,给中国的科技发展带来新的发展机遇,人工智能基础设施面临全面升级。
发表于 2020-04-03 15:36 29次阅读
AI赋能新客服可以强化什么

人工智能拓展的领域有哪一些

人工智能是一门贯穿性的综合学科,主要包含计算机、控制论、信息论、神经生理学、语言学,人工智能是从计算....
发表于 2020-04-03 15:33 39次阅读
人工智能拓展的领域有哪一些

人工智能主要在哪一些场景出现

深度学习作为人工智能领域的一个应用分支,不管是从市面上公司的数量还是投资人投资喜好的角度来说,都是一....
发表于 2020-04-03 15:30 30次阅读
人工智能主要在哪一些场景出现

你有没有发现你身边的人工智能

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应....
发表于 2020-04-03 15:24 26次阅读
你有没有发现你身边的人工智能

传统产业如何快速驶入数字化新基建,中琛源多重优势...

从传统的“铁公基”,到如今涉及5G、特高压、城际高速铁路和城市轨道交通、新能源汽车充电桩、大数据中心....
发表于 2020-04-03 15:21 147次阅读
传统产业如何快速驶入数字化新基建,中琛源多重优势...

如何让AI走上“高速”

随着国家加速新基建的步伐,人工智能企业即将进入发展的快车道,安顿将直接受益于5G、大数据中心、人工智....
发表于 2020-04-03 15:18 12次阅读
如何让AI走上“高速”

人工智能产业进入哪里怎样的拐点

近期的AI领域处于震动与酝酿的时期,一些看似寻常的新闻线索,却隐含着不平凡的市场迹象。
发表于 2020-04-03 15:14 292次阅读
人工智能产业进入哪里怎样的拐点

AI应用的落地还需要解决哪一些难题

人工智能的应用落地,需要市场、应用场景、各行各业海量的专业数据和专业人才的共同支持参与,这是人工智能....
发表于 2020-04-03 15:10 107次阅读
AI应用的落地还需要解决哪一些难题

人工智能在预测单机风电功率上有什么优势

人工智能在处理非线性预测问题上具有优势,对单机风电功率预测建模有一定的价值。
发表于 2020-04-03 15:05 73次阅读
人工智能在预测单机风电功率上有什么优势

英特尔扩大与中国百度的AI合作

这家芯片制造商表示, 与百度的合作非常重要,因为它已发展成为一种“普遍的能力”,将被用于增强中国的几....
发表于 2020-04-03 15:04 346次阅读
英特尔扩大与中国百度的AI合作

智能机器人面对疫情有哪一些挑战

作为“新基建”的一部分,工业互联网行业近日迎来诸多利好,随着疫情的日渐好转,在后疫情时代,利用人工智....
发表于 2020-04-03 15:01 47次阅读
智能机器人面对疫情有哪一些挑战

一款利用人工智能和物联网来帮助老年人和他们的看护...

凯伦·罗比:机器学习,人工智能——我们在TechRepublic和ZDNet上谈论了很多这方面的内容....
发表于 2020-04-03 15:01 184次阅读
一款利用人工智能和物联网来帮助老年人和他们的看护...

阿里巴巴云为冠状病毒医疗提供人工智能平台

例如,CT图像分析解决方案被吹捧为提高COVID-19诊断的检测准确性和检测速度。阿里巴巴表示,该人....
发表于 2020-04-03 14:59 145次阅读
阿里巴巴云为冠状病毒医疗提供人工智能平台

一项关于可解释人工智能规划(XAIP)的工作调查

可解释AI(X AI)近年来一直是一个积极的研究课题,受到DARPA2016年倡议的推动。 计算机视....
发表于 2020-04-03 14:57 165次阅读
一项关于可解释人工智能规划(XAIP)的工作调查

人工智能和5G技术怎样带领各行业的转型

基于云计算、5G、大数据技术的助力,数字经济正在进化到以人工智能为核心驱动力的智能经济新阶段,与之相....
发表于 2020-04-03 14:56 121次阅读
人工智能和5G技术怎样带领各行业的转型

KiloGram是一种用于管理文件中的大型n-g...

在KDD 2019网络安全学习和采矿研讨会上发表的论文中,来自马里兰大学和网络安全公司Endgame....
发表于 2020-04-03 14:55 121次阅读
KiloGram是一种用于管理文件中的大型n-g...

人工智能正在改变我们与技术互动的方式

对客户体验的期望已经改变,并且对于这种改变越来越重要的一个因素是机器学习。我们经常使用的大多数数字产....
发表于 2020-04-03 14:54 138次阅读
人工智能正在改变我们与技术互动的方式

微软和合作伙伴宣布Deepfake检测挑战

在最近的博客文章中,Facebook的首席技术官Mike Schroepfer宣布,Facebook....
发表于 2020-04-03 14:52 404次阅读
微软和合作伙伴宣布Deepfake检测挑战

大脑活动可以利用人工智能来变成文本?

计算机生成的大脑图像美国的研究人员跟踪了人们说话时的神经数据。
发表于 2020-04-03 14:51 19次阅读
大脑活动可以利用人工智能来变成文本?

英伟达公司第二季度的收入轻松超过了预期

该公司报告的不计 某些特殊费用的利润,例如股票摊薄后每股1.24美元。该季度收入超过25.8亿美元,....
发表于 2020-04-03 14:48 225次阅读
英伟达公司第二季度的收入轻松超过了预期

ICMEC与AWS一起创建了一个集中式平台

夏皮罗回忆说:“她说要从事这项工作,每天都要这样做,你会放弃自己的一点纯真,以保留他人的纯真。” “....
发表于 2020-04-03 14:46 154次阅读
ICMEC与AWS一起创建了一个集中式平台

人工智能放射科医生是如何兴起的

人工智能应用程序正迅速进入诊所,医生们对这项技术既感到兴奋,又担心自己的工作被机器抢走。
发表于 2020-04-03 14:45 22次阅读
人工智能放射科医生是如何兴起的

Google推出AI平台-构建运行和管理ML项目...

AI平台是您进行此恐怖旅程的地方,它源于一个想法,即如何通过启动安全,可靠的部署在企业中一直使用AI....
发表于 2020-04-03 14:44 258次阅读
Google推出AI平台-构建运行和管理ML项目...

人工智能上存在什么分歧

人工智能一再言过其实,却未能兑现其承诺。
发表于 2020-04-03 14:41 14次阅读
人工智能上存在什么分歧

机器学习的异常检测算法

吴恩达机器学习Coursera-week9
发表于 2020-04-03 11:34 21次阅读
机器学习的异常检测算法

机器学习的决策树介绍

机器学习——决策树算法分析
发表于 2020-04-02 11:48 24次阅读
机器学习的决策树介绍

手术显微镜瘫痪,整体无法开机运行怎么办

手术显微镜瘫痪,整体无法开机运行怎么办 经过拆机探查发现其VGA线路与硬盘线路以及UPS线路被人为拔断,同时UP...
发表于 2020-03-31 10:50 123次阅读
手术显微镜瘫痪,整体无法开机运行怎么办

我是如何掌握CCD视觉检测系统项目的?

《双ccd+视觉通用框架-LabVIEW视觉必学高阶课程》报名链接:视觉软件工程师目前现状 自动化行业当前最热且高薪的...
发表于 2020-03-27 15:34 480次阅读
我是如何掌握CCD视觉检测系统项目的?

吴恩达机器学习clustering分类算法

吴恩达机器学习Coursera-week8
发表于 2020-03-27 07:34 44次阅读
吴恩达机器学习clustering分类算法

Mariadb的存储路径修改

修改Mariadb存储路径
发表于 2020-03-23 11:17 31次阅读
Mariadb的存储路径修改

【战疫专题】第五期:智慧物流,疫情之中显担当

2020年,新型冠状病毒席卷了整个中国,同时也在促进着产业的变革与生活变化。 电子发烧友在此期间推出【战疫专题】活...
发表于 2020-03-18 11:00 2095次阅读
【战疫专题】第五期:智慧物流,疫情之中显担当

人工智能、数据挖掘、机器学习和深度学习的关系

人工智能、数据挖掘、机器学习和深度学习之间,主要有什么关系?...
发表于 2020-03-16 11:35 98次阅读
人工智能、数据挖掘、机器学习和深度学习的关系

详解定时执行存储过程

定时执行存储过程
发表于 2020-03-16 07:11 33次阅读
详解定时执行存储过程