0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对象存储适合AI和机器学习工作负载的三个原因

如意 来源:51cto 作者:51cto 2020-07-06 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

各种各样的企业在加快AI机器学习项目,但要真正发挥潜力,需要克服重大的技术障碍。虽然计算基础架构常常是关注的重点,但存储同样重要。这三个主要的原因表明了为什么对象存储(而不是文件存储或块存储)特别适合AI和机器学习工作负载:

1. 可扩展性——有庞大且多样的数据源可供学习时,AI和机器学习最有效。数据科学家利用这些丰富的数据来训练领域模型。在“大数据的五个V”(容量、种类、速度、准确性和价值)中,前两个(容量和种类)最重要。简而言之,AI和机器学习依赖大量多样化的数据(图像、文本、结构化和半结构化数据),构建有用的模型、提供准确的结果并最终提供业务价值。

对象存储是最具扩展性的存储架构,特别适合支持AI和机器学习所需的大量数据。对象存储旨在通过横向扩展方法支持无限增长,使企业组织能够通过随时随地添加节点来扩大部署范围。由于对象存储使用单个全局命名空间,也可以同时跨多个地方进行这种扩展。另一方面,文件和块系统通常采用纵向扩展方法。这意味着这种平台通过为单个节点添加更多计算资源实现纵向扩展,这种方法最终受到限制。它们无法通过部署额外节点来增加计算资源以高效地横向扩展。

2. API——健壮灵活的数据API对于AI和机器学习很重要,如前所述,AI和机器学习使用多种类型的数据。存储平台需要支持API以容纳各种数据。此外,AI和机器学习方面的创新日益在公共云上完成,但是仍有相当一部分的AI和机器学习在本地或私有云中进行,这取决于使用场合的具体情况(比如说,科学研究和医疗保健等领域的容量密集型工作负载往往最适合私有云)。这意味着企业需要在公共云和本地/私有云中都支持工作负载的存储API。

文件和块存储平台在它们支持的API方面受到限制,部分原因是它们是较旧的架构。相比之下,对象存储使用云端更高级的API,这种API旨在以应用程序为中心,并支持比文件和块存储更广泛的API,包括版本控制、生命周期管理、加密、对象锁定和元数据。此外,支持AI和机器学习使用场景的新对象存储API(比如支持流数据和海量数据集的查询)也有可能。

由于对象存储API围绕Amazon S3实现了标准化,更容易整合本地和公共云中的软件。企业可以轻松地将部署的AI和机器学习从本地/私有云环境扩展到公共云,或者将云原生的AI和机器学习工作负载迁移到本地环境,功能不会减损。这种双模式方法使企业能够以合作、可互换的方式利用本地/私有云和公共云上的资源。

由于S3 API已成为对象存储事实上的标准,许多软件工具和库都可以充分利用该API。这允许共享代码、软件和工具,促进AI/机器学习社区更快速的开发。例子包括流行的机器学习平台,比如拥有内置S3 API的TensorFlow和Apache Spark。

3.元数据——与API一样,使用AI和机器学习的企业利用无限制、可自定义的元数据显得至关重要。元数据就是关于数据的数据——从最基本的层面上讲,某个数据何时在何地创建、创建者是谁。但是元数据可以描述更多信息:用户可以创建任意的元数据标签来描述他们需要的任何属性。

数据科学家需要丰富的元数据来查找特定数据以构建和使用AI和机器学习模型。随着更多信息添加到数据中,元数据注释便于逐步积累知识。

文件和块存储仅支持有限的元数据,比如上述基本属性。这在很大程度上归结为可扩展性,因为文件和块系统无力支持快速无缝的增长,如果存储系统为依赖庞大数据集的AI和机器学习应用程序支持丰富的元数据,自然会出现这种情况。然而,对象存储支持无限制的、完全可自定义的元数据,从而更容易找到用于AI和机器学习算法的数据,并从中获得更准确的信息。

以一家医院针对X射线图像使用图像识别应用程序为例:有了元数据,可以使用TensorFlow模型来分析添加到对象存储系统的每个图像,然后为每个图像分配细化的元数据标签(比如,伤病类型、基于骨骼大小或生长情况来判断患者的年龄或性别)。然后可以针对该元数据训练TensorFlow模型,并加以分析,对患者获得新的宝贵信息(比如说,二三十岁的女性比五年前更容易患骨骼疾病)。

几乎每家《财富》 500强公司都在大张旗鼓地搞AI和机器学习,可以想象这些技术在可预见的将来将是最重要的企业IT项目。然而,AI/机器学习项目要获得回报,企业就要使用合适的存储基础架构。由于可扩展性、支持各种API(尤其是S3)和丰富的元数据,对象存储可谓是AI和机器学习的最佳支柱。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4693

    浏览量

    89570
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    未来工业AI发展的三个必然阶段

    与优化 能力的深层革命。 未来十年,工业AI的发展将经历三个清晰的阶段:  智能辅助 → 智能决策 → 自主优化 。这次进化,构成了工业从“人控机器”到“
    的头像 发表于 10-27 15:47 235次阅读
    未来工业<b class='flag-5'>AI</b>发展的<b class='flag-5'>三个</b>必然阶段

    科技云报到:西湖大学、智元机器人都选它,存储成为AI下一风口

    科技云报到:西湖大学、智元机器人都选它,存储成为AI下一风口
    的头像 发表于 09-03 11:24 536次阅读

    【「零基础开发AI Agent」阅读体验】+ 入门篇学习

    很高兴又有机会学习ai技术,这次试读的是「零基础开发AI Agent」,作者叶涛、管锴、张心雨。 大模型的普及是近年来的一件大事,万物皆可大模型已成为趋势。作为大模型开发应用中重要组
    发表于 05-02 09:26

    【「零基础开发AI Agent」阅读体验】+初品Agent

    期待中的《零基础开发AI Agent——手把手教你用扣子做智能体》终于寄到了,该书由叶涛、 管锴、张心雨完成,并由电子工业出版社出版发行。 全书分为三个部分,即入门篇、工具篇及实践篇。由此可见这是
    发表于 04-22 11:51

    NanoEdge AI Studio 面向STM32开发人员机器学习(ML)技术

    最佳ML库。 *附件:nanoedgeaistudio.pdf 软件下载: https://stm32ai.st.com/download-nanoedgeai/ 演示版可免费试用三个月。专业版为
    的头像 发表于 04-22 11:09 981次阅读
    NanoEdge <b class='flag-5'>AI</b> Studio 面向STM32开发人员<b class='flag-5'>机器</b><b class='flag-5'>学习</b>(ML)技术

    面向AI机器学习应用的开发平台 AMD/Xilinx Versal™ AI Edge VEK280

    AMD/Xilinx Versal™ AI Edge VEK280评估套件是一款面向AI机器学习应用的开发平台,专为边缘计算场景优化设计。以下从核心配置、技术特性、应用场景及开发支持
    的头像 发表于 04-11 18:33 2028次阅读
    面向<b class='flag-5'>AI</b>与<b class='flag-5'>机器</b><b class='flag-5'>学习</b>应用的开发平台 AMD/Xilinx Versal™ <b class='flag-5'>AI</b> Edge VEK280

    **【技术干货】Nordic nRF54系列芯片:传感器数据采集与AI机器学习的完美结合**

    【技术干货】nRF54系列芯片:传感器数据采集与AI机器学习的完美结合 近期收到不少伙伴咨询nRF54系列芯片的应用与技术细节,今天我们整理几个核心问题与解答,带你快速掌握如何在nRF54上部署
    发表于 04-01 00:00

    Linux系统中最重要的三个命令

    Linux剑客是Linux系统中最重要的三个命令,它们以其强大的功能和广泛的应用场景而闻名。这三个工具的组合使用几乎可以完美应对Shell中的数据分析场景,因此被统称为Linux
    的头像 发表于 03-03 10:37 797次阅读

    AI Agent 应用与项目实战》阅读心得2——客服机器人、AutoGen框架 、生成式代理

    了分层存储架构,将记忆分为短期记忆、工作记忆和长期记忆三个层次,通过注意力机制和遗忘机制来管理记忆的存储和调用。反思机制的创新之处在于引入了元认知模型,使代理能够对自身的行为和决策进行
    发表于 02-25 21:59

    NetApp革新块存储,赋能现代工作负载

    智能数据基础设施领域的领先企业NetApp®,近日宣布对其企业存储产品组合进行了重大更新,以更好地满足现代工作负载的多样化需求。此次更新重点扩充了NetApp ASA A系列,推出了一系列专为加速
    的头像 发表于 02-17 10:07 659次阅读

    对象存储是什么结构类型?

    对象存储属于非结构化数据存储架构,采用扁平化命名空间结构。其核心通过唯一标识符(ObjectID)定位数据对象,突破传统文件系统的层级目录限制,形成"桶-
    的头像 发表于 02-10 11:14 691次阅读

    负载箱与单相负载箱的区别与优势对比

    负载箱与单相负载箱在电力系统中扮演着不同的角色,它们各自具有独特的优势和适用场景。以下是对这两种负载箱的区别与优势对比: 区别 工作原理
    发表于 02-08 13:00

    HPC工作负载管理的关键要素

    HPC工作负载管理是一复杂而精细的过程,涉及资源分配、作业调度、性能监控与优化以及故障处理与恢复等多个关键要素。下面,AI部落小编带您了解HPC
    的头像 发表于 02-08 09:53 533次阅读

    IBM Storage - 支持AI应用场景的数据存储软硬件解决方案

    为了解决数据和工作负载在各地分散的现状,需要实现对存储在分布式文件和对象存储系统中的大量非结构化数据的高速访问。IBM Storage利用人
    的头像 发表于 12-30 15:00 859次阅读
    IBM Storage - 支持<b class='flag-5'>AI</b>应用场景的数据<b class='flag-5'>存储</b>软硬件解决方案

    深度学习工作负载中GPU与LPU的主要差异

    ,一新的竞争力量——LPU(Language Processing Unit,语言处理单元)已悄然登场,LPU专注于解决自然语言处理(NLP)任务中的顺序性问题,是构建AI应用不可或缺的一环。 本文旨在探讨深度学习
    的头像 发表于 12-09 11:01 3910次阅读
    深度<b class='flag-5'>学习</b><b class='flag-5'>工作</b><b class='flag-5'>负载</b>中GPU与LPU的主要差异