电子发烧友网 > 人工智能 > 正文

人工智能数据存储的选择有哪些准则

2020年04月05日 21:27 次阅读

企业选择错误的人工智能存储平台可能会产生严重影响。因此,人们需要了解可能影响企业选择人工智能数据存储策略的6个准则。

人工智能数据存储的选择有哪些准则

人工智能和机器学习如今已成为企业最重要的两个工具,可帮助企业利用其核心数字资产创造竞争优势。但是在采用人工智能数据存储之前,企业必须根据机器学习平台如何获取、处理和保留数据来考虑一系列要求。

首先检查一下机器学习软件使用的数据的生命周期,因为这可以帮助企业了解为人工智能选择存储时应考虑的事项。最初,企业必须获取数据以训练机器学习或人工智能算法。这些是处理数据以学习任务的软件工具,例如识别对象、处理视频和跟踪运动。数据可以从各种来源产生,并且通常在本质上是非结构化的,例如对象和文件。

训练过程将获取数据资产,并使用机器学习或人工智能软件来创建用于处理未来数据源的算法。在训练或开发算法时,人工智能软件将处理源数据以开发模型,该模型可以创建洞察力或满足业务需求。

开发机器学习算法很少是一个单一的过程。随着企业积累越来越多的数据,其算法也会得到完善和改进。这意味着很少的数据会被丢弃,而是随着时间的推移会增长并重新处理。

采用人工智能数据存储的标准

在为人工智能平台选择存储之前,企业必须首先考虑以下事项:

(1)费用。人工智能数据存储的价格是企业考虑购买的关键因素。显然,企业管理层和参与采购决策的人员都希望数据存储尽可能具有成本效益,并且在许多情况下,这将影响企业的产品选择和策略。

(2)可扩展性。企业需要收集、存储和处理大量数据以创建机器学习或人工智能模型。机器学习算法要求源数据呈指数增长,以实现精度的线性提高。创建可靠而准确的机器学习模型可能需要数百TB甚至PB的数据,而且这会随着时间的推移而增加。

构建PB级存储系统通常意味着使用对象存储或横向扩展文件系统。现代对象存储可以解决人工智能工作负载的容量需求,但是它们可能无法满足其他条件,例如高性能。横向扩展文件系统可以提供高性能和良好的可扩展性,但是将整个数据集存储在单个平台上可能会很昂贵。由于可扩展性要求和大容量产品的成本,块存储通常不是机器学习或人工智能的正确选择。唯一的例外是在公共云中。

存储成本的变化引入了分层或使用多种类型的存储来存储数据的想法。例如,对象存储库是存储大量非活动人工智能数据的良好目标。当需要数据进行处理时,可以将其移动到高性能文件存储集群或对象存储中为高性能而设计的节点中,一旦完成处理,就可以将数据移回。

(3)性能。人工智能数据的存储性能包括三个方面。首先,可能也是最重要的是延迟。这定义了软件发出的每个I/O请求的处理速度。低延迟很重要,因为改善延迟会直接影响创建机器学习或人工智能模型所需的时间。复杂的模型开发可能需要数周或数月的时间才能运行。通过缩短开发周期,企业可以更快地创建和完善模型。在检查延迟功能时,由于对象访问的流动性质,对象将参考时间存储到第一个字节,而不是单个I/O请求的延迟。

性能的另一个方面是吞吐量,以及可以将数据写入存储平台或从存储平台读取数据的速度。系统吞吐量很重要,因为人工智能培训会处理大量数据集,通常会反复读取和重新读取相同的数据以准确地开发模型。机器学习和人工智能数据的来源(例如自动驾驶车辆上的传感器)每天可以产生数TB的新数据。所有这些信息都必须添加到现有数据存储中,并且对任何现有处理的影响最小。

正确设置存储平台至关重要,因为涉及的数据量非常大。

性能的最后方面是并行访问。机器学习和人工智能算法并行处理数据,运行多个任务,这些任务可以多次读取同一数据,并且可以跨越许多并行任务。对象存储擅长并行读取I/O处理,因为没有对象定或要管理的属性。文件服务器跟踪内存中打开的I/O请求或文件句柄。因此,活动I/O请求的数量取决于平台上可用的内存。

机器学习数据可以包含大量的小文件。在这方面文件服务器可以提供比对象存储更好的性能。向人工智能存储供应商提出的一个关键问题是,其产品的性能特征将如何在大文件和小文件类型之间发生变化。

由于大多数大型对象存储太大而无法定期备份,因此可靠的擦除编码已成为人工智能存储平台的基本功能。

(5)公共云。开发机器学习和人工智能算法需要高性能的存储和高性能的计算。许多人工智能系统都基于GPU(例如Nvidia DGX),可以减轻开发精确算法所涉及的许多复杂数学计算的负担。

公共云服务提供商已开始提供可用于机器学习的GPU加速虚拟实例。在公共云中运行机器学习工具可降低构建用于机器学习开发的基础设施的投资成本,同时提供扩展开发机器学习模型所需的基础设施的能力。

使用公共云计算所面临的挑战是如何以经济高效且实用的方式将数据导入公共云。基于云计算的对象存储速度太慢,无法满足机器学习的I/O需求;因此,必须使用本地块存储。移动数据的延迟和机器学习的延迟意味着运行基础设施的成本增加。

公共云的另一个问题是数据出口的成本。尽管云计算服务提供商不收取将数据移入其平台的费用,但他们对从其平台外部的公共网络访问的任何数据收取费用。其结果是,尽管公共云提供了计算的灵活性,但以及时且经济高效的方式将数据进出云平台并不总是那么容易。

云计算供应商正在开发可在公共云中运行其产品的存储产品,这些存储跨越内部部署基础设施和云平台。这些产品可以有效地复制数据或将数据移至云平台中,并且仅在完成后才将结果移回。这些复制技术具有高带宽效率,使在内部部署存储数据并导入到云平台中进行分析工作变得切实可行。

(6)整合。在机器学习和人工智能的存储方面需要与计算隔离开来。构建人工智能数据存储可能很困难,因为存储网络和调整存储必须考虑其他因素才能与机器学习应用程序一起工作。

产品的预包装使云计算供应商能够在将产品交付给客户之前对其产品进行测试和优化。如今,有一些存储产品将流行的人工智能软件、CPU和GPU等计算、网络和存储设备结合在一起,以提供支持人工智能的平台。在部署这些系统之前,许多详细的调整工作已完成。尽管成本可能是一个问题,但对于许多客户而言,预包装的系统可以减少采用人工智能存储的障碍。

显然,选择合适的人工智能数据存储平台是权衡指标,例如性能、可扩展性和成本。正确设置存储平台至关重要,因为涉及的数据量非常大。选择错误的产品可能是一个代价高昂的错误。与任何存储产品决策一样,企业与云计算供应商交谈以准确了解其产品如何满足人工智能和机器学习的需求也很重要。其参与过程应包括演示和评估,以作为任何可能的购买决定的前奏。

责任编辑:ct

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

【现场直播】第五届IoT大会之人工智能分论坛

直播主题:● AI知名企业大佬现场分享观点,解读行业趋势● 中国AI产品制造商和系统集成商的产品、技术和市场战略● AI
发烧友学院发表于 2018-12-18 00:00 1912次阅读
【现场直播】第五届IoT大会之人工智能分论坛

大规模存储基础设施对于AI有着怎样的要求

人工智能/机器学习环境创建使用内部或直接连接存储(DAS)的计算服务器集群的情况并不少见。
发表于 2020-04-05 21:23 5次阅读
大规模存储基础设施对于AI有着怎样的要求

哪一些行业需要人工智能带来颠覆

以消费者为中心的人工智能和自动化应用正在帮助消除一些公众的误解,即这些技术只会对企业有益,而对就业和....
发表于 2020-04-05 21:12 25次阅读
哪一些行业需要人工智能带来颠覆

机器设计会受到AI技术的影响吗

人工智能如今应用越来越广泛。在大多数情况下,健壮和自适应的人工智能可以为人类的专业知识提供补充,而不....
发表于 2020-04-05 21:09 7次阅读
机器设计会受到AI技术的影响吗

人工智能真的可以和人类一样学习吗

随着企业将人工智能集成到自己的系统中,科技人员将目光投向了人工智能创新的新领域。
发表于 2020-04-05 21:04 35次阅读
人工智能真的可以和人类一样学习吗

为什么要采用人工智能技术

人工智能能够为企业提供更好、更清晰的视野,从而根据客户需求塑造服务和产品。
发表于 2020-04-05 20:58 37次阅读
为什么要采用人工智能技术

AI数据服务野蛮生长后是怎样的

随着科技技术不断更新迭代,企业变革的方向已由信息化向智能化发展,而在此过程中,如何获取数据成为最重要....
发表于 2020-04-03 16:40 215次阅读
AI数据服务野蛮生长后是怎样的

产业链上下互联互通“三化”战略助力煤炭产业智能化...

4月3日消息,针对煤炭产业的智能化发展需求,找煤网推出了“通过互联网化助推行业交易效率;通过信息化作....
发表于 2020-04-03 16:29 239次阅读
产业链上下互联互通“三化”战略助力煤炭产业智能化...

人工智能如何显示自己的神通

疫情发生以来,企业的生存与发展成为全社会关注的问题。对于大多数企业来说,如何在疫情中变被动为主动,能....
发表于 2020-04-03 16:19 59次阅读
人工智能如何显示自己的神通

人工智能有可能冲击国际安全吗

演进派则认为人工智能更应被看作是武器的“放大器”,其作为武器本身并不是直接引发国际安全范式性变革的主....
发表于 2020-04-03 16:07 43次阅读
人工智能有可能冲击国际安全吗

谷歌Art Transfer工具将照片转换

随着机器学习和人工智能技术的发展,搜索巨头谷歌已经将自家研究成果应用于方方面面。比如近日推出的一款名....
发表于 2020-04-03 15:55 174次阅读
谷歌Art Transfer工具将照片转换

人工智能助力新药研发,它的优势是什么

近日,一家英国初创公司表示,该公司成功使用人工智技术开发出了一款药物。据悉,这款借助人工智能而开发的....
发表于 2020-04-03 15:52 159次阅读
人工智能助力新药研发,它的优势是什么

人工智能技术怎样升级

不管是VR逛展或看房能够带来多么真实的体验,还是各式机器人灵活强大的功能,非接触式服务的兴起依靠的是....
发表于 2020-04-03 15:50 79次阅读
人工智能技术怎样升级

人工智能技术如何控制水下机器人

爱丁堡机器人中心提供机器人平台和基于深度强化学习的算法框架指导,沈自所面向机器人平台特点进一步深入进....
发表于 2020-04-03 15:44 43次阅读
人工智能技术如何控制水下机器人

AI赋能新客服可以强化什么

随着“新基建”的提出,给中国的科技发展带来新的发展机遇,人工智能基础设施面临全面升级。
发表于 2020-04-03 15:36 29次阅读
AI赋能新客服可以强化什么

人工智能拓展的领域有哪一些

人工智能是一门贯穿性的综合学科,主要包含计算机、控制论、信息论、神经生理学、语言学,人工智能是从计算....
发表于 2020-04-03 15:33 39次阅读
人工智能拓展的领域有哪一些

人工智能主要在哪一些场景出现

深度学习作为人工智能领域的一个应用分支,不管是从市面上公司的数量还是投资人投资喜好的角度来说,都是一....
发表于 2020-04-03 15:30 30次阅读
人工智能主要在哪一些场景出现

你有没有发现你身边的人工智能

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应....
发表于 2020-04-03 15:24 26次阅读
你有没有发现你身边的人工智能

传统产业如何快速驶入数字化新基建,中琛源多重优势...

从传统的“铁公基”,到如今涉及5G、特高压、城际高速铁路和城市轨道交通、新能源汽车充电桩、大数据中心....
发表于 2020-04-03 15:21 147次阅读
传统产业如何快速驶入数字化新基建,中琛源多重优势...

如何让AI走上“高速”

随着国家加速新基建的步伐,人工智能企业即将进入发展的快车道,安顿将直接受益于5G、大数据中心、人工智....
发表于 2020-04-03 15:18 12次阅读
如何让AI走上“高速”

人工智能产业进入哪里怎样的拐点

近期的AI领域处于震动与酝酿的时期,一些看似寻常的新闻线索,却隐含着不平凡的市场迹象。
发表于 2020-04-03 15:14 292次阅读
人工智能产业进入哪里怎样的拐点

AI应用的落地还需要解决哪一些难题

人工智能的应用落地,需要市场、应用场景、各行各业海量的专业数据和专业人才的共同支持参与,这是人工智能....
发表于 2020-04-03 15:10 107次阅读
AI应用的落地还需要解决哪一些难题

人工智能在预测单机风电功率上有什么优势

人工智能在处理非线性预测问题上具有优势,对单机风电功率预测建模有一定的价值。
发表于 2020-04-03 15:05 73次阅读
人工智能在预测单机风电功率上有什么优势

英特尔扩大与中国百度的AI合作

这家芯片制造商表示, 与百度的合作非常重要,因为它已发展成为一种“普遍的能力”,将被用于增强中国的几....
发表于 2020-04-03 15:04 346次阅读
英特尔扩大与中国百度的AI合作

智能机器人面对疫情有哪一些挑战

作为“新基建”的一部分,工业互联网行业近日迎来诸多利好,随着疫情的日渐好转,在后疫情时代,利用人工智....
发表于 2020-04-03 15:01 47次阅读
智能机器人面对疫情有哪一些挑战

一款利用人工智能和物联网来帮助老年人和他们的看护...

凯伦·罗比:机器学习,人工智能——我们在TechRepublic和ZDNet上谈论了很多这方面的内容....
发表于 2020-04-03 15:01 184次阅读
一款利用人工智能和物联网来帮助老年人和他们的看护...

阿里巴巴云为冠状病毒医疗提供人工智能平台

例如,CT图像分析解决方案被吹捧为提高COVID-19诊断的检测准确性和检测速度。阿里巴巴表示,该人....
发表于 2020-04-03 14:59 145次阅读
阿里巴巴云为冠状病毒医疗提供人工智能平台

一项关于可解释人工智能规划(XAIP)的工作调查

可解释AI(X AI)近年来一直是一个积极的研究课题,受到DARPA2016年倡议的推动。 计算机视....
发表于 2020-04-03 14:57 165次阅读
一项关于可解释人工智能规划(XAIP)的工作调查

人工智能和5G技术怎样带领各行业的转型

基于云计算、5G、大数据技术的助力,数字经济正在进化到以人工智能为核心驱动力的智能经济新阶段,与之相....
发表于 2020-04-03 14:56 121次阅读
人工智能和5G技术怎样带领各行业的转型

KiloGram是一种用于管理文件中的大型n-g...

在KDD 2019网络安全学习和采矿研讨会上发表的论文中,来自马里兰大学和网络安全公司Endgame....
发表于 2020-04-03 14:55 121次阅读
KiloGram是一种用于管理文件中的大型n-g...

人工智能正在改变我们与技术互动的方式

对客户体验的期望已经改变,并且对于这种改变越来越重要的一个因素是机器学习。我们经常使用的大多数数字产....
发表于 2020-04-03 14:54 138次阅读
人工智能正在改变我们与技术互动的方式

微软和合作伙伴宣布Deepfake检测挑战

在最近的博客文章中,Facebook的首席技术官Mike Schroepfer宣布,Facebook....
发表于 2020-04-03 14:52 404次阅读
微软和合作伙伴宣布Deepfake检测挑战

大脑活动可以利用人工智能来变成文本?

计算机生成的大脑图像美国的研究人员跟踪了人们说话时的神经数据。
发表于 2020-04-03 14:51 19次阅读
大脑活动可以利用人工智能来变成文本?

英伟达公司第二季度的收入轻松超过了预期

该公司报告的不计 某些特殊费用的利润,例如股票摊薄后每股1.24美元。该季度收入超过25.8亿美元,....
发表于 2020-04-03 14:48 227次阅读
英伟达公司第二季度的收入轻松超过了预期

ICMEC与AWS一起创建了一个集中式平台

夏皮罗回忆说:“她说要从事这项工作,每天都要这样做,你会放弃自己的一点纯真,以保留他人的纯真。” “....
发表于 2020-04-03 14:46 154次阅读
ICMEC与AWS一起创建了一个集中式平台

人工智能放射科医生是如何兴起的

人工智能应用程序正迅速进入诊所,医生们对这项技术既感到兴奋,又担心自己的工作被机器抢走。
发表于 2020-04-03 14:45 22次阅读
人工智能放射科医生是如何兴起的

Google推出AI平台-构建运行和管理ML项目...

AI平台是您进行此恐怖旅程的地方,它源于一个想法,即如何通过启动安全,可靠的部署在企业中一直使用AI....
发表于 2020-04-03 14:44 258次阅读
Google推出AI平台-构建运行和管理ML项目...

人工智能上存在什么分歧

人工智能一再言过其实,却未能兑现其承诺。
发表于 2020-04-03 14:41 14次阅读
人工智能上存在什么分歧

人工智能能不能加速芯片的发展

纵观该领域的历史,人工智能的发展与芯片设计的发展紧密相连。该算法有望加速芯片设计过程,并产生新一代改....
发表于 2020-04-03 14:38 43次阅读
人工智能能不能加速芯片的发展

机器学习的异常检测算法

吴恩达机器学习Coursera-week9
发表于 2020-04-03 11:34 21次阅读
机器学习的异常检测算法

机器学习的决策树介绍

机器学习——决策树算法分析
发表于 2020-04-02 11:48 24次阅读
机器学习的决策树介绍

我是如何掌握CCD视觉检测系统项目的?

《双ccd+视觉通用框架-LabVIEW视觉必学高阶课程》报名链接:视觉软件工程师目前现状 自动化行业当前最热且高薪的...
发表于 2020-03-27 15:34 480次阅读
我是如何掌握CCD视觉检测系统项目的?

吴恩达机器学习clustering分类算法

吴恩达机器学习Coursera-week8
发表于 2020-03-27 07:34 44次阅读
吴恩达机器学习clustering分类算法

【战疫专题】第五期:智慧物流,疫情之中显担当

2020年,新型冠状病毒席卷了整个中国,同时也在促进着产业的变革与生活变化。 电子发烧友在此期间推出【战疫专题】活...
发表于 2020-03-18 11:00 2095次阅读
【战疫专题】第五期:智慧物流,疫情之中显担当

人工智能、数据挖掘、机器学习和深度学习的关系

人工智能、数据挖掘、机器学习和深度学习之间,主要有什么关系?...
发表于 2020-03-16 11:35 98次阅读
人工智能、数据挖掘、机器学习和深度学习的关系

人工智能侦查有哪些应用

【人工智能侦查的应用领域】
发表于 2020-03-16 11:28 82次阅读
人工智能侦查有哪些应用

Spark机器学习协同过滤推荐算法

十三 Spark机器学习ALS设计
发表于 2020-03-12 06:12 62次阅读
Spark机器学习协同过滤推荐算法

吴恩达机器学习实际训练模型过程

吴恩达机器学习Coursera-week6
发表于 2020-03-09 10:55 98次阅读
吴恩达机器学习实际训练模型过程