0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

湖仓一体:揭秘数据湖架构现代化之道

全球TMT 来源:全球TMT 作者:全球TMT 2023-07-17 21:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Hebert W. Pereyra,IBM 杰出工程师,Hybrid Data Management首席架构师

译者:刘俊 ,IBM watsonx.data开发架构师

北京2023年7月17日/美通社/ -- 数据湖诞生至今已有十多年的历史,为全球一些最大的企业提供了数据分析的支持。然而,也有人认为,绝大多数数据湖部署已经演变成为"数据沼泽"。不论你站在哪一边,现实情况是,这些系统中仍然承载着大量的数据。这些数据规模庞大,使得移动、迁移或对其进行现代化都变得异常困难。

数据湖的巨大挑战:单一结构的架构问题

从较高层次来看,数据湖是一个大规模的单一数据存储库。数据可以以原始形式存储,也可以经过优化,采用适合专用引擎使用的不同格式。

就Hadoop而言,它是最受欢迎的数据湖之一,通过使用开源软件实现该存储库,并在通用硬件上运行,可以以非常低的成本在系统中存储大量数据。数据可以以开放的数据格式进行持久化,从而实现了数据消费的民主化,并通过自动复制提供了高可用性的支持。默认的处理框架具备从故障中恢复的能力。这无疑是与传统分析环境有着显著差异的重要转变,传统数据分析环境往往意味着供应商锁定以及无法处理大规模数据。

另一个出乎意料的挑战是将Spark引入作为大数据处理框架。由于其支持数据转换、流式处理和SQL,它迅速获得了广泛的认可。然而,它并未能与现有的数据湖环境友好共存,因此通常需要额外的专用计算集群才能运行Spark。

我们将时间前移15年回到当下,现实已经清楚地表明了这项技术所涉及的权衡和妥协。其快速的采用意味着客户很快失去了对数据湖中数据的追踪。同样具有挑战的是,他们无法确定数据的来源、获取方式以及在处理过程中的转换方式。数据治理仍然是这项技术中尚未探索的领域。虽然软件可能是开源的,但需要有人学习如何使用、维护和支持它。仅依赖社区支持并不能持续满足业务运营所需的响应时间。高可用性通过复制实现则意味着需要更多磁盘上的数据副本,增加存储成本,并导致故障更加频繁。而高可用的分布式处理框架则意味着不得不在性能方面做出妥协,以换取弹性(这将导致交互式分析和商业智能的性能严重下降)。

为何要对数据湖进行现代化?

数据湖在特定的使用场景中已经被证明是成功的。然而清楚的是,企业迫切需要对这些部署进行现代化,保护基础设施、技能和存储在这些系统中的数据的投资。

在寻找答案的过程中,行业研究了现有的数据平台技术及其优势。很明显,有效的方法是将传统的(或者说是遗留的)数据仓库或数据集市的关键特性与数据湖的优势结合起来。以下几个关键要素迅速浮出水面:

具备弹性和可扩展的存储,能够满足日益增长的数据规模需求。

采用开放的数据格式,使数据对所有人都可访问,同时针对高性能进行优化,并具备良好定义的结构。

开放的元数据(可共享),能够支持多个消费引擎或框架。

支持数据更新(ACID特性)和事务并发处理。

综合的数据安全和数据治理(如数据血缘、完整的数据访问策略定义和执行,包括地理分布)。

上述要素导致了湖仓一体的出现。湖仓一体是一种数据平台,是将数据仓库和数据湖的优点融合在一起,形成统一、协调的数据管理解决方案。

利用watsonx.data来现代化数据湖的好处

站在当下数据分析的十字路口,IBM的回应是为企业提供watsonx.data解决方案。

站在当下数据分析的十字路口,IBM的回应是为企业提供watsonx.data解决方案,这是一个用于大规模数据管理的新型开放式数据存储,允许企业在无需迁移的情况下围绕、增强和现代化其现有的数据湖和数据仓库。它支持开放式的多云与混合云,可以在客户管理的基础设施(本地或者私有云)和公有云上运行。它建立在湖仓一体架构之上,并嵌入了一整套解决方案(以及通用软件堆栈),适用于所有形态。

与市场上的竞品相比,IBM的方法基于开源堆栈和架构。这些组件并不是新的,而是业界已经广泛使用的成熟组件。IBM关注它们的互操作性、共存性和元数据交换。用户可以快速入门,从而大大降低了入门和使用的成本,因为其上层架构和基础概念是大家熟悉且直观的:

通过对象存储实现开放的数据(和表格格式)

通过S3进行数据访问

使用Presto和Spark进行查询计算(SQL、数据科学、转换和流处理)

通过Hive和兼容结构实现开放的元数据共享

Watsonx.data为企业提供了一种保护他们在数据湖和数据仓库数十年投资的方式,使企业可立即扩展并逐步现代化其安装,将每个组件专注于对企业最重要的使用场景。

一个关键的差异化因素是多引擎策略,允许用户在统一的数据平台上根据实际情况选择适合的技术。watsonx.data使客户能够实现完全动态的分层存储(以及相关的计算)。随着时间的推移,这可以带来非常显著的数据管理和处理的成本节省。

如果最终企业的目标是通过湖仓一体架构来现代化现有的数据湖部署,那么watsonx.data则通过选择计算方式来最小化数据迁移和应用迁移,从而简化了任务。

接下来可以做什么?

在过去的几年里,数据湖在大多数企业的数据管理策略中发挥了重要作用。如果企业的目标是对其数据管理策略进行演进并现代化为真正的混合分析云架构,那么IBM基于湖仓一体架构构建的新型数据存储watsonx.data,则是值得企业考虑的技术选择。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4702

    浏览量

    89583
  • 架构
    +关注

    关注

    1

    文章

    532

    浏览量

    26508
  • 数据分析
    +关注

    关注

    2

    文章

    1508

    浏览量

    35947
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    部署Denodo与数据架构联用,用户可获得345%投资回报率(ROI),实现3–4倍数据洞察提速

    投资价值最大化 Veqtor8 对比了企业在仅使用现代数据(如 Snowflake、Databricks)与在其基础上部署 Deno
    的头像 发表于 10-23 17:27 449次阅读

    NetApp助力对象存储现代化,提升速度、可扩展性和安全性

    计。最新版本的StorageGRID将引入新功能,旨在推进人工智能计划、提高数据安全性并实现企业数据基础设施的现代化。 无论企业是处于数据
    的头像 发表于 09-11 10:41 334次阅读

    水利水文监测与河长制管理平台解决方案

    人工巡查、纸质记录,存在信息传递滞后、管理效率低下、问题发现不及时等问题,难以满足现代管理复杂多变的需求。对此,物通博联以“水文数采网关+河长制信息管理平台”为核心,提出
    的头像 发表于 08-25 14:27 482次阅读
    水利水文监测与河<b class='flag-5'>湖</b>长制管理平台解决方案

    生态流量监测平台解决方案 

    依赖人工测流、定点观测,存在数据采集频次低、覆盖范围有限、生态流量达标评估滞后等问题,不仅难以实时掌握河生态基流变化,还可能因相关措施不及时而导致河道断流、水质恶化、生物多样性减少等生态问题,制约流域生态
    的头像 发表于 08-22 17:08 525次阅读
    河<b class='flag-5'>湖</b>生态流量监测平台解决方案 

    文看懂“存算一体

    今天这篇文章,我们来聊个最近几年很火的概念——存算一体。为什么会提出“存算一体”?存算一体,英文叫ComputeInMemory,简称CIM。顾名思义,就是将存储和计算放在
    的头像 发表于 08-18 12:15 955次阅读
    <b class='flag-5'>一</b>文看懂“存算<b class='flag-5'>一体</b>”

    微软推出全新Microsoft Sentinel数据国际版

    近期,MicrosoftSentinel数据(国际版)正式开放公开预览,重塑安全运营架构。它通过统所有安全数据,以远低于传统方案的成本,
    的头像 发表于 08-04 15:36 759次阅读

    现代化智慧农业四情监测设备方案

    现代化智慧农业四情监测设备方案 柏峰【BF-NYSQ】强农固本,为推进中国式现代化提供基础支撑,农稳社稷,粮安天下。强化耕地保护和质量提升、推进农业科技力量,全方位夯实国家粮食安全根基,坚持产量产能、生产生态、增产增收起抓,切
    的头像 发表于 08-01 10:11 607次阅读
    <b class='flag-5'>现代化</b>智慧农业四情监测设备方案

    软通动力携手鸿万联亮相华为开发者大会2025

    近日,华为开发者大会 2025在东莞松山盛大举行,软通动力携子公司鸿万联深度参与会议。作为开源鸿蒙核心共建者,鸿万联集中展示了基于天鸿操作系统(SwanLinkOS)及天鸿智能
    的头像 发表于 06-26 14:15 809次阅读

    从接口到架构:工控一体机定制的深度技术剖析

    在工业4.0与数字转型的浪潮中,工控一体机作为工业自动与信息融合的核心载体,正通过深度定制技术重构工业控制系统的底层逻辑。从硬件接口
    的头像 发表于 06-17 16:47 397次阅读

    模块设计赋能:工控一体机厂家聚徽分享如何通过灵活架构满足多样化工业需求?

    了有效途径。通过将工控一体机的硬件和软件拆分为独立、可替换的模块,以灵活架构满足多样化工业需求,使工控一体机在工业自动领域展现出更强的适应性和生命力。
    的头像 发表于 05-23 16:42 593次阅读

    测控一体化闸门工情监控运维管理系统

    在当今数字浪潮席卷各行各业的时代,水利行业也正加速迈向智能、精细化管理的新征程。测控一体化闸门作为现代化水利设施的关键组成部分,对于实现水资源的精准调配、高效利用以及保障水利工程安
    的头像 发表于 04-15 17:19 804次阅读
    测控<b class='flag-5'>一体化</b>闸门工情监控运维管理系统

    文看懂5G通感一体化

    一体化是链接物理世界和数字世界的桥梁。 数多用:创造新价值 通感一体获取的数据,通过不同算力建模,进行数据加工,提供给不同客户。 价值变现
    的头像 发表于 01-16 17:53 2813次阅读
    <b class='flag-5'>一</b>文看懂5G通感<b class='flag-5'>一体化</b>

    鸿万联携手南方科技大学推动开源鸿蒙生态发展

    近日,软通动力子公司鸿万联与南方科技大学携手,开展了系列旨在推动开源鸿蒙生态发展的活动。在此期间,鸿万联见证了南方科技大学OpenHarmony技术俱乐部的成立。此外,在当日举办的“2024
    的头像 发表于 01-06 14:01 962次阅读

    戴尔数据助力企业数字转型

    在数字转型的浪潮下,企业正面临着前所未有的数据挑战。从传统的结构数据到如今的非结构数据、半
    的头像 发表于 12-20 09:31 776次阅读