0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

非结构化数据存储的六大挑战及解决方法

IBM中国 来源:IBM中国 作者:王伯韬 2022-06-10 09:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

专家介绍:王伯韬

24年IT行业经验。1998年加入国际商业机器(中国)有限公司,先后在中国技术支持中心、系统和科技事业部、企业IT架构师团队、IBM中国系统中心等部门工作。获得IBM高级认证系统架构师(Senior Certified IT Architect),参与过国内多家电信企业、大型公共服务机构的IT系统架构设计项目。目前担任IBM中国科技事业部存储团队架构师。

真实经历引发的思考

2022年5月2日下午12:05 我收到了以下流调短信与电话:

[北京市疾控中心提示]您好!根据市卫健委通报的新冠疫情,经流行病学调查,您与感染者存在时空交集,有感染风险。请您及时向所在社区和单位报告....

此时,发现北京健康宝已弹窗,随后接到流调工作人员电话。

流调员:“请问您4月30日下午2点是否去过朝阳区xx商场,xx餐馆”

我:“稍等我看一下……,当时没有去过您提到的几个地点,但是去过几个街区之外的xx吃饭,不过有可能开车经过了您提到的地方”

流调员:“好的,那您去所在社区居委会报备,说明情况,持24小时核酸并签署承诺书,然后可以解除弹窗。”

疫情期间当我们的身边发现确诊病例,大家都希望看到这些人的行动轨迹,如果发生了时空关联,就会收到上面的信息和电话。目前,疫情防控已经变成了我们生活的一部分。大家都希望通过精准科学的方式找到疫情防控和正常生活的平衡点,但又谈何容易。我们可以从数据流向推测和分析事件的成因。然而极致的“精准”,需要数据量足够多,包括手机位置信息,流调人员的排查信息,现场流调信息等等。同时,数据量暴涨也是需要面对的问题。

其实,近年来各个行业的数据量都呈几何级增长。如今,随着传统业务转型,新时代业务云计算、大数据分析、人工智能等新一代应用的出现,非结构化数据并行文件存储给各行各业带来了诸多挑战。

一家人工智能芯片的企业于2017年流片量产了中国首款边缘AI芯片,2019年量产了中国首款车规级AI芯片,凭借30亿美金估值成为全球估值最高的AI芯片独角兽企业。然而,随着企业逐渐从初创企业走向成熟,其在数据存储、管理和调度等方面遇到了一些难题。

其中一个比较突出的问题是数据竖井。在发展初期,往往以项目方式组织资源和部署数据结构,很多项目各有数据集群,形成了一个个数据竖井,或说数据孤岛。对于需要“小步快跑”的初创企业而言,这种方式无可厚非,但随着企业规模扩大,这些相互独立的数据竖井就会给数据管理带来比较大的挑战。

从更大的层面看,他们也面临跨多云数据调度的难题。对于AI企业而言,提高模型训练效率是至关重要的,但训练效率的提高不仅仅依赖于计算资源,也离不开数据的及时调度。由于GPU资源分布在多个公有云上和本地,当GPU资源不断变化时,如何让数据也能快速地跟随变化随需调度,也成为企业在数据管理方面的一个核心需求。

此外,随着数据规模的快速增长,数据管理成本也与日俱增。之前是采用算存一体的方式,计算和存储在一个一体机上实现,随着数据规模增长,这种方案不仅会降低计算设备运行效率,而且成本也会高企不下,因此需要性价比更高的数据存储方案来支持企业的长远发展。

在医疗行业,信息化起步较早,在长期的发展过程中,各业务系统都针对初始单个业务模块的需求陆续建设了很多“烟囱工程“。此外,医疗行业对数据合规要求有其特殊性,门诊电子病历往往需要保留15年以上。数据量的增长使得存储成本难以控制,同时管理、扩展和维护数据在线访问的复杂性大大提高。新一代工作负载,面临数据存储、数据集成、数据可访问性、应用程序数据集成等问题,无法实现现代化应用程序;环境数据分散,存储在太多不同的地理位置,没有数据集成,没有通用的管理能力,数据孤岛使得数据查询和使用异常困难。这就需要一个企业级的、真正的全球共享数据湖基础架构,更快交付洞察,底层存储必须同时支持新时代的大数据和传统的应用,具备安全性、可靠性和高性能。

数据管理之六大挑战

为了应对云计算、大数据分析、人工智能等新一代应用,我们的企业往往在非结构化数据存储中遇到诸多挑战:

挑战1:当前架构无法应对海量数据增长,无序扩展,存在严重的性能瓶颈。传统的SAN文件系统和NAS文件系统,受限于其单个控制器的性能和元数据的处理方式,无法提供更高性能的IO访问,NAS文件系统扩展方式是按照SAN或者NAS的控制器扩展,控制器之间不能实现并行IO操作,无法避免单机头带来的性能瓶颈,并因为文件目录的名称改变而导致应用重新定义。

挑战2:数据孤岛。企业超过50%的数据存放在离散的存储系统中,企业环境的数据分散,存储在太多不同的地理位置,数据孤岛使得数据查询和使用异常困难。数据量的增长使得存储成本难以控制,同时管理、扩展和维护数据在线访问的复杂性大大提高。

挑战3:缺乏企业级的统一数据管理平台。传统的SAN文件系统和NAS文件系统本身不具备智能的、基于策略自动执行的生命周期管理,需要借助单独的软件或者硬件实现数据的分层和备份,导致数据管理困难。

挑战4:无法为未来前沿技术提供有效存储支撑。如云计算的数据需求并行存储能够支持多云架构,统一资源管理,数据安全和高可用。人工智能需求海量数据集存储,大算力。大数据分析业务需求高效分析和高可用。

挑战5:新技术带来的潜在的基础架构“割裂”,没有全局的统一命名空间,难以实现数据共享和安全共享。

挑战6:无可靠的高可用、完整性。不能统一管理和部署,提升运维复杂度。不能支持存储异构,不同NAS机头无法统一存储空间。故障数据重构开销大,对性能影响较大。

高性能ESS给出最优解

为了应对以上挑战,IBM最新发布了基于 Spectrum Scale 的ESS3500,它包括以下特点:

1. 极致的性能和可扩展性:可以从小规模开始构建,然后逐步扩展性能和容量,无任何瓶颈,能够提供极致的数据、元数据和闪存可扩展性。无瓶颈的架构提高了性能,从而实现极大的吞吐量和低延迟访问。IBM ESS 3500在每个单一节点上提供1PBe,吞吐量高达91GB/秒。

2. 统一存储,适用于集群、HDFS、文件、对象与容器环境。

3. 加速AI训练:配合 NVIDIA DGX 系统,AI训练时间缩短 140%。

4. 统一命名空间。实现全球协作:Spectrum Scale 通过主动文件管理分布式磁盘高速缓存技术,跨不同存储和位置随时随地访问数据,在数据中心或全球范围内实现应用加速。

5. 数据完整性和安全性:认证、加密、安全和复制选项,用于满足业务和法规需求。

最后,我想说的是……

各行各业的数字化难题不断涌现,IBM伴随很多客户,一步步突破最新的AI和云计算的性能极限,成就了他们的创新和发展。疫情防控也一样,不仅需要技术的支撑,也需要各方的共同努力、每个人的积极配合,希望世界早日恢复生机蓬勃。

原文标题:我们期望的 “精准”,谈何容易

文章出处:【微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1854

    浏览量

    76787
  • 数据管理
    +关注

    关注

    1

    文章

    333

    浏览量

    20477
  • 数据存储
    +关注

    关注

    5

    文章

    1014

    浏览量

    52602

原文标题:我们期望的 “精准”,谈何容易

文章出处:【微信号:IBMGCG,微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    功率放大器在磁场激励下对狭窄结构化液体环境适应性研究的应用

    实验名称: 磁场激励下对狭窄结构化液体环境的卓越环境适应性和出色的3D可控性验证 研究方向: 在临床实践中,天然孔口通常为医疗器械提供对各种靶组织的侵入性通路。这些体腔/腔(例如泌尿和消化系统
    的头像 发表于 11-25 10:04 86次阅读
    功率放大器在磁场激励下对狭窄<b class='flag-5'>非</b><b class='flag-5'>结构化</b>液体环境适应性研究的应用

    结构化布线中使用电缆标签的4个主要优势

    在现代通信和网络基础设施建设中,结构化布线系统扮演着至关重要的角色。它不仅确保了网络的高效传输和稳定运行,还为未来的扩展和维护提供了便利。而在结构化布线中,电缆标签的使用虽看似是一个小小的细节,却能
    的头像 发表于 11-24 10:34 168次阅读

    步进伺服电机的六大问题处理技巧

    步进伺服电机作为工业自动领域的关键部件,其稳定性和精度直接影响设备性能。然而在实际应用中,电机可能因参数配置、机械负载或环境因素出现异常。本文将针对六大典型问题提供系统性解决方案,结合工程实践
    的头像 发表于 10-30 07:41 283次阅读

    NetApp助力对象存储现代,提升速度、可扩展性和安全性

    智能数据基础设施公司NetApp® (NASDAQ: NTAP) 今天宣布推出NetApp StorageGRID® 12.0,这是一款可扩展的软件定义对象存储解决方案,专为结构化
    的头像 发表于 09-11 10:41 328次阅读

    Smarsh携手戴尔科技构建现代智能数据中心

    如今,越来越多的企业意识到,不只是合同和邮件,所有日常沟通的结构化数据——语音、视频、聊天记录、会议纪要等,都是潜在的合规风险点。
    的头像 发表于 07-08 15:58 681次阅读

    智能体AI面临结构化数据难题:IBM推出解决方案

    ,同时提供一个开放的混合数据基础架构和企业级的结构化结构化数据管理。 智能体AI面临
    的头像 发表于 07-02 09:40 390次阅读

    DDN携手NVIDIA释放结构化数据的AI价值

    DDN 通过与 NVIDIA AI 数据平台的合作,推出联合解决方案,简化了企业对结构化数据存储、访问和激活方式,助力客户释放生成式 A
    的头像 发表于 06-10 10:31 783次阅读

    从零到一:如何利用结构化数据中台快速部署AI解决方案

    ……这些“非标”数据量大、来源广、结构杂,却恰恰是驱动AI模型的关键燃料。   想要从零到一,快速部署AI解决方案,一个可行路径是——构建结构化
    的头像 发表于 04-14 13:50 608次阅读

    树莓派AI套件:如何将混乱的数据变成有序的魔法

    使用RaspberryPiAI套件进行结构化数据处理——Hailo边缘AI结构化数据处理、R
    的头像 发表于 03-25 09:37 771次阅读
    树莓派AI套件:如何将混乱的<b class='flag-5'>数据</b>变成有序的魔法

    结构化数据中台:企业AI应用安全落地的核心引擎

    在数字转型浪潮中,结构化数据(如文档、图片、音视频等)已成为企业核心资产,其价值挖掘能力直接影响AI应用的效能与安全性。然而,数据分散、
    的头像 发表于 02-27 17:06 848次阅读

    对象存储是什么结构类型?

    对象存储属于结构化数据存储架构,采用扁平命名空间结构
    的头像 发表于 02-10 11:14 696次阅读

    弹性云服务器通过什么存储数据和文件?

    弹性云服务器通过多种存储方式存储数据和文件,包括云硬盘、对象存储服务、分布式文件系统和数据库服务。云硬盘提供高性能的块
    的头像 发表于 01-13 09:50 715次阅读

    IBM Storage - 支持AI应用场景的数据存储软硬件解决方案

    为了解决数据和工作负载在各地分散的现状,需要实现对存储在分布式文件和对象存储系统中的大量结构化数据
    的头像 发表于 12-30 15:00 859次阅读
    IBM Storage - 支持AI应用场景的<b class='flag-5'>数据</b><b class='flag-5'>存储</b>软硬件解决方案

    戴尔数据湖仓助力企业数字转型

    在数字转型的浪潮下,企业正面临着前所未有的数据挑战。从传统的结构化数据到如今的
    的头像 发表于 12-20 09:31 773次阅读

    EMC整改的六大步骤

    EMC(电磁兼容性)整改的六大步骤是确保电子设备在电磁环境中能够正常工作且不对其他设备产生干扰的重要过程。以下是EMC整改的六大步骤及其详细说明: 一、查找确认辐射源 这是整改的第一步,目的是确定
    的头像 发表于 12-10 14:15 2168次阅读
    EMC整改的<b class='flag-5'>六大</b>步骤