0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

非结构化数据存储的六大挑战及解决方法

IBM中国 来源:IBM中国 作者:王伯韬 2022-06-10 09:51 次阅读

专家介绍:王伯韬

24年IT行业经验。1998年加入国际商业机器(中国)有限公司,先后在中国技术支持中心、系统和科技事业部、企业IT架构师团队、IBM中国系统中心等部门工作。获得IBM高级认证系统架构师(Senior Certified IT Architect),参与过国内多家电信企业、大型公共服务机构的IT系统架构设计项目。目前担任IBM中国科技事业部存储团队架构师。

真实经历引发的思考

2022年5月2日下午12:05 我收到了以下流调短信与电话:

[北京市疾控中心提示]您好!根据市卫健委通报的新冠疫情,经流行病学调查,您与感染者存在时空交集,有感染风险。请您及时向所在社区和单位报告....

此时,发现北京健康宝已弹窗,随后接到流调工作人员电话。

流调员:“请问您4月30日下午2点是否去过朝阳区xx商场,xx餐馆”

我:“稍等我看一下……,当时没有去过您提到的几个地点,但是去过几个街区之外的xx吃饭,不过有可能开车经过了您提到的地方”

流调员:“好的,那您去所在社区居委会报备,说明情况,持24小时核酸并签署承诺书,然后可以解除弹窗。”

疫情期间当我们的身边发现确诊病例,大家都希望看到这些人的行动轨迹,如果发生了时空关联,就会收到上面的信息和电话。目前,疫情防控已经变成了我们生活的一部分。大家都希望通过精准科学的方式找到疫情防控和正常生活的平衡点,但又谈何容易。我们可以从数据流向推测和分析事件的成因。然而极致的“精准”,需要数据量足够多,包括手机位置信息,流调人员的排查信息,现场流调信息等等。同时,数据量暴涨也是需要面对的问题。

其实,近年来各个行业的数据量都呈几何级增长。如今,随着传统业务转型,新时代业务云计算、大数据分析、人工智能等新一代应用的出现,非结构化数据并行文件存储给各行各业带来了诸多挑战。

一家人工智能芯片的企业于2017年流片量产了中国首款边缘AI芯片,2019年量产了中国首款车规级AI芯片,凭借30亿美金估值成为全球估值最高的AI芯片独角兽企业。然而,随着企业逐渐从初创企业走向成熟,其在数据存储、管理和调度等方面遇到了一些难题。

其中一个比较突出的问题是数据竖井。在发展初期,往往以项目方式组织资源和部署数据结构,很多项目各有数据集群,形成了一个个数据竖井,或说数据孤岛。对于需要“小步快跑”的初创企业而言,这种方式无可厚非,但随着企业规模扩大,这些相互独立的数据竖井就会给数据管理带来比较大的挑战。

从更大的层面看,他们也面临跨多云数据调度的难题。对于AI企业而言,提高模型训练效率是至关重要的,但训练效率的提高不仅仅依赖于计算资源,也离不开数据的及时调度。由于GPU资源分布在多个公有云上和本地,当GPU资源不断变化时,如何让数据也能快速地跟随变化随需调度,也成为企业在数据管理方面的一个核心需求。

此外,随着数据规模的快速增长,数据管理成本也与日俱增。之前是采用算存一体的方式,计算和存储在一个一体机上实现,随着数据规模增长,这种方案不仅会降低计算设备运行效率,而且成本也会高企不下,因此需要性价比更高的数据存储方案来支持企业的长远发展。

在医疗行业,信息化起步较早,在长期的发展过程中,各业务系统都针对初始单个业务模块的需求陆续建设了很多“烟囱工程“。此外,医疗行业对数据合规要求有其特殊性,门诊电子病历往往需要保留15年以上。数据量的增长使得存储成本难以控制,同时管理、扩展和维护数据在线访问的复杂性大大提高。新一代工作负载,面临数据存储、数据集成、数据可访问性、应用程序数据集成等问题,无法实现现代化应用程序;环境数据分散,存储在太多不同的地理位置,没有数据集成,没有通用的管理能力,数据孤岛使得数据查询和使用异常困难。这就需要一个企业级的、真正的全球共享数据湖基础架构,更快交付洞察,底层存储必须同时支持新时代的大数据和传统的应用,具备安全性、可靠性和高性能。

数据管理之六大挑战

为了应对云计算、大数据分析、人工智能等新一代应用,我们的企业往往在非结构化数据存储中遇到诸多挑战:

挑战1:当前架构无法应对海量数据增长,无序扩展,存在严重的性能瓶颈。传统的SAN文件系统和NAS文件系统,受限于其单个控制器的性能和元数据的处理方式,无法提供更高性能的IO访问,NAS文件系统扩展方式是按照SAN或者NAS的控制器扩展,控制器之间不能实现并行IO操作,无法避免单机头带来的性能瓶颈,并因为文件目录的名称改变而导致应用重新定义。

挑战2:数据孤岛。企业超过50%的数据存放在离散的存储系统中,企业环境的数据分散,存储在太多不同的地理位置,数据孤岛使得数据查询和使用异常困难。数据量的增长使得存储成本难以控制,同时管理、扩展和维护数据在线访问的复杂性大大提高。

挑战3:缺乏企业级的统一数据管理平台。传统的SAN文件系统和NAS文件系统本身不具备智能的、基于策略自动执行的生命周期管理,需要借助单独的软件或者硬件实现数据的分层和备份,导致数据管理困难。

挑战4:无法为未来前沿技术提供有效存储支撑。如云计算的数据需求并行存储能够支持多云架构,统一资源管理,数据安全和高可用。人工智能需求海量数据集存储,大算力。大数据分析业务需求高效分析和高可用。

挑战5:新技术带来的潜在的基础架构“割裂”,没有全局的统一命名空间,难以实现数据共享和安全共享。

挑战6:无可靠的高可用、完整性。不能统一管理和部署,提升运维复杂度。不能支持存储异构,不同NAS机头无法统一存储空间。故障数据重构开销大,对性能影响较大。

高性能ESS给出最优解

为了应对以上挑战,IBM最新发布了基于 Spectrum Scale 的ESS3500,它包括以下特点:

1. 极致的性能和可扩展性:可以从小规模开始构建,然后逐步扩展性能和容量,无任何瓶颈,能够提供极致的数据、元数据和闪存可扩展性。无瓶颈的架构提高了性能,从而实现极大的吞吐量和低延迟访问。IBM ESS 3500在每个单一节点上提供1PBe,吞吐量高达91GB/秒。

2. 统一存储,适用于集群、HDFS、文件、对象与容器环境。

3. 加速AI训练:配合 NVIDIA DGX 系统,AI训练时间缩短 140%。

4. 统一命名空间。实现全球协作:Spectrum Scale 通过主动文件管理分布式磁盘高速缓存技术,跨不同存储和位置随时随地访问数据,在数据中心或全球范围内实现应用加速。

5. 数据完整性和安全性:认证、加密、安全和复制选项,用于满足业务和法规需求。

最后,我想说的是……

各行各业的数字化难题不断涌现,IBM伴随很多客户,一步步突破最新的AI和云计算的性能极限,成就了他们的创新和发展。疫情防控也一样,不仅需要技术的支撑,也需要各方的共同努力、每个人的积极配合,希望世界早日恢复生机蓬勃。

原文标题:我们期望的 “精准”,谈何容易

文章出处:【微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1670

    浏览量

    74272
  • 数据管理
    +关注

    关注

    1

    文章

    259

    浏览量

    19426
  • 数据存储
    +关注

    关注

    5

    文章

    893

    浏览量

    50584

原文标题:我们期望的 “精准”,谈何容易

文章出处:【微信号:IBMGCG,微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    态势数据存储方式有哪些

    智慧华盛恒辉态势数据存储方式主要取决于数据的特性、规模以及访问需求。以下是几种常见的态势数据存储方式: 关系型
    的头像 发表于 04-22 19:28 23次阅读

    什么是结构化网络布线?结构化网络布线有哪些好处?

    在电缆领域,结构化网络布线这个术语经常被提及。人们将其用作流行语,但它的真正含义是什么?结构化布线到底是什么? 为了了解真正的含义,让我们看它的一些相关定义。 根据光纤协会的说法,结构化布线
    的头像 发表于 04-11 11:54 167次阅读

    结构化布线的好处多吗

    结构化布线是网络系统中的重要组成部分,因为它为数据传输提供了强大、可扩展且可靠的基础。通过遵守全球公认的标准,结构化布线可促进高速连接、简化故障排除并确保未来的可扩展性。考虑到这些优势,企业应优先
    的头像 发表于 04-07 11:15 130次阅读

    华为数据存储伙伴赋能六大亮点解读

    精彩回顾 | 华为数据存储伙伴赋能六大亮点解读
    的头像 发表于 03-28 11:33 251次阅读
    华为<b class='flag-5'>数据</b><b class='flag-5'>存储</b>伙伴赋能<b class='flag-5'>六大</b>亮点解读

    CFD 设计利器:结构化和非结构化网格的组合使用

    在CFD的发展历史中,结构化网格出现最早,至今仍在使用。结构化网格有几个主要优点,如精度高、生成速度快、单元分布均匀。有些工具擅长绘制这类网格,例如CadenceFidelityAutomesh
    的头像 发表于 12-23 08:12 399次阅读
    CFD 设计利器:<b class='flag-5'>结构化</b>和非<b class='flag-5'>结构化</b>网格的组合使用

    使用关系数据库中的半结构化数据

    NoSQL革命已经进入了关系世界。您可能正在使用关系数据库,但仍必须查询和理解隐藏在文本列、JSON或 XML文档中的半结构化数据
    的头像 发表于 12-20 10:46 266次阅读
    使用关系<b class='flag-5'>数据</b>库中的半<b class='flag-5'>结构化</b><b class='flag-5'>数据</b>

    分布式融合存储解决方案驱动非结构化数据多模计算

    年全球新增数据可达175ZB,其中80%为非结构化数据,大量数据以多模态形式呈现。 非结构化数据
    的头像 发表于 10-30 19:45 376次阅读
    分布式融合<b class='flag-5'>存储</b>解决方案驱动非<b class='flag-5'>结构化</b><b class='flag-5'>数据</b>多模计算

    对与性能比较低的51单片机,结构化编程性能提升多少?

    对与性能比较低的51单片机,结构化编程性能提升多少
    发表于 10-26 06:21

    一种结构化道路环境中的视觉导航系统详解

    根据结构化道路环境的特点提出了一种将边沿检测和道路环境知识相结合的机器视觉算法 , 并结合基于行为响应的路径规划方法和智能预瞄控制方法 , 实现了一套基本的机器人视觉导航系统 . 在自主机器人实验
    发表于 09-25 07:23

    日志结构存储数据放置的方法浅析

    日志结构存储在当今存储系统中被广泛使用,然而其中的垃圾回收会将有效数据重新写入导致写放大现象。
    发表于 07-28 10:31 235次阅读
    日志<b class='flag-5'>结构</b><b class='flag-5'>存储</b>下<b class='flag-5'>数据</b>放置的<b class='flag-5'>方法</b>浅析

    结构化数据结构化数据(2)#大数据分析

    数据
    学习硬声知识
    发布于 :2023年07月11日 13:57:24

    结构化数据结构化数据(1)#大数据分析

    数据
    学习硬声知识
    发布于 :2023年07月11日 13:56:39

    使用结构化的PLC变量的工作原理

    要创建结构化的 PLC 变量,首先需要定义一个 PLC 数据类型 (UDT)。 并在该数据类型中声明所需的数据元素并指定它们的名称和数据类型
    发表于 07-10 12:47 567次阅读
    使用<b class='flag-5'>结构化</b>的PLC变量的工作原理

    Python Pandas如何来管理结构化数据

    Python Pandas是一个为Python编程提供数据操作和分析功能的开源工具包。这个库已经成为数据科学家和分析师的必备工具。它提供了一种有效的方法来管理结构化
    的头像 发表于 05-25 11:22 456次阅读
    Python Pandas如何来管理<b class='flag-5'>结构化</b><b class='flag-5'>数据</b>

    中国研究人员提出StructGPT,提高LLM对结构化数据的零样本推理能力

    尽管结构化数据的体量往往非常巨大,但不可能容纳输入提示中的所有数据记录(例如,ChatGPT 的最大上下文长度为 4096)。将结构化数据线
    的头像 发表于 05-24 16:02 2352次阅读
    中国研究人员提出StructGPT,提高LLM对<b class='flag-5'>结构化</b><b class='flag-5'>数据</b>的零样本推理能力