0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据网格是什么意思?为什么要考虑实现数据网格?

存储D1net 来源:51CTO 2023-08-29 11:31 次阅读

数据网格作为一种新的数据管理方法,在业界越来越受到关注。然而在兴奋之余,人们对其复杂性以及能否兑现承诺表示担忧。本文将深入探讨数据网格的复杂性,解决围绕其是否过时存在的巨大争议,并探索它所带来的机遇和挑战。此外,还将讨论该行业可能缺少的内容以及可能阻碍其成功实施的潜在障碍。

数据网格:民主化和可扩展数据架构的范例

经常使用的“数据网格”这一术语是什么意思,为什么要考虑实现数据网格?

类似于软件工程团队如何从单片应用程序过渡到微服务架构,数据网格代表了微服务的数据平台。数据网格的灵感来自软件建模专家Eric Evans的“领域驱动设计”理论,该理论主张与特定业务领域保持一致的灵活和可扩展的软件开发,它提供了一种类似的方法。

与传统的单片式数据基础设施不同,传统的单片数据基础设施在集中的数据湖中处理数据消耗、存储、转换和输出,数据网格支持分布式、特定领域的数据消费者。它将“数据视为产品”,每个领域都负责管理自己的数据管道。

关键是,根据数据网格原则,领域团队承担底层平台或数据存储层的所有权,这引发了一些争议。这些领域通过通用互操作层连接起来,遵循一致的语法和数据标准。虽然可能会出现一些基础设施重复,但某些团队已经采用了更集中的平台,从而产生混合的“数据网格”结构。

在自助服务商业智能时代,许多企业宣称自己是数据优先的组织,这有些令人尴尬。然而,并不是所有这些公司都优先考虑其数据架构的民主化和可扩展性。

行业领先的企业认识到数据的变革潜力。例如,一些首席执行官成为Snowflake和Looker等技术的早期采用者,或者首席数据官(CDO)领导团队进行了关于数据管理最佳实践的培训,而首席技术官(CTO)则投资了专门的数据工程团队。尽管如此,数据团队都渴望一种更简单的方法来满足企业不断增长的需求,从处理连续的特殊查询到通过集中的提取、转换、加载(ETL)管道管理不同的数据源。

在追求民主化和可扩展性的基础上,人们意识到,当前的数据架构可能难以满足企业不断发展的需求,通常仅限于孤立的数据仓库或实时流功能有限的数据湖。

幸运的是,有一种解决方案可以为数据管理提供一种全新的视角——数据网格,这是一种在整个行业掀起波澜的架构范式。

值得注意的是,数据网格经常与“数据结构”这一术语混淆,“数据结构”是由Forrester公司分析师在世纪之交提出的。数据结构包含由虚拟管理层链接的现代数据平台组成的各种异构解决方案。然而,它并没有像数据网格那样强调去中心化和领域驱动的架构。

数据网格的消亡是炒作还是现实?

在社交媒体讨论领域,已经有人猜测数据网格将会消亡。数据网格是由ThoughtWorks公司前首席顾问Zhamak Dehghani于2019年提出的,他提出了一种通过分布式架构管理分析数据的新方法。通过使最终用户能够直接访问和查询原始位置的数据,数据网格消除了在数据湖或数据仓库中进行集中的需要。在这种模式下,数据被视为一种产品,其所有权归属于最密切参与其消费和理解的团队。

引入这个概念是为了解决企业所面临的挑战,这些挑战依赖于集中式数据平台架构,提供可扩展的解决方案,并通过及时决策和为民主化数据拥有数据产品的交付。数据网格解决了与大规模数据可用性和可访问性相关的问题,使业务用户和数据科学家能够从不同的数据源中提取、分析和操作有价值的见解,无论其位置如何。此外,它不需要专业数据团队的持续干预。

虽然数据网格是一个相对较新的概念,但围绕其消亡的讨论已经引起了人们的关注。以下深入探讨导致这样的怀疑日益增长背后的原因。

Cloudera数据平台促进了数据网格架构的关键原则,即领域所有权、数据即产品、自助服务平台和联合治理。

数据网格的复杂性:超越技术层面

数据网格不仅仅是技术方面的问题;它包含了数据管理的核心原则。它包括按领域管理数据、将数据视为产品、启用自助服务数据平台以及实现联合计算治理。这些支柱构成了数据网格的基础,并塑造了其整体价值主张。

面向领域的数据所有者和管道:在数据网格架构中,数据所有权在负责将其数据作为产品提供的领域数据所有者之间联合起来。这种方法支持跨不同位置的分布式数据之间的通信和协作。

虽然数据基础设施负责为每个领域提供必要的解决方案来处理数据,但领域本身管理数据的摄取、清理和聚合,以生成业务智能应用程序可用的资产。每个域都拥有自己的提取、转换、加载(ETL)管道,而一组适用于所有领域的功能处理原始数据的存储、编目和访问控制。一旦数据被提供给特定的领域并被转换,领域所有者就可以利用它来满足他们的分析或操作需求。数据沿袭在理解整个组织的消费模式和支持向更分散的结构过渡方面起着至关重要的作用。

自助服务功能:数据网格利用面向领域的设计原则提供自助数据平台,允许用户抽象技术复杂性并专注于其特定的数据用例。数据网格将与领域无关的数据基础设施功能集中到一个共享平台中,以解决在每个领域中维护数据管道和基础设施所需的重复工作和技能问题。这个中央平台处理数据管道引擎、存储和流基础设施。与此同时,每个领域都利用这些组件来运行定制的ETL管道,提供必要的支持来服务于它们的数据,同时保持流程的自主性。

通信的互操作性和标准化:每个领域的核心是一套通用的数据标准,可在需要时促进领域之间的协作。由于某些数据(包括原始数据源和经过清理、转换和服务的数据集)对多个领域变得有价值,因此跨领域协作是必不可少的。数据网格通过标准化格式、治理、可发现性和元数据字段以及其他数据特性来实现这一点。此外,与单个微服务类似,每个数据域定义并同意它们向其消费者保证的服务水平协议(SLA)和质量指标。

面向领域的数据治理:在数据网格架构中实施面向领域的数据治理方法,以确保符合全球和监管约束和政策。这种方法利用联合服务来保护企业的数据和系统。

联合治理模型允许实施数据保护措施,同时适应每个领域的独特需求。它确保根据适用的法规和策略保护数据和系统,为在域级别管理数据隐私、安全性和遵从性提供框架。

通过实现联合治理,数据网格架构促进了数据治理的结构化和协调的方法,支持对数据资产的有效管理,同时保持对相关法规和策略的遵从性。

对领域名称所有权的关注

数据网格的一个关键问题在于领域所有权的概念。虽然让各个业务领域拥有和管理自己的数据似乎很有吸引力,但这也引发了潜在的孤岛和碎片化问题。在处理企业范围的数据治理或主数据管理时,领域的概念可能导致数据视图的不完整。在授权领域所有者和确保跨域数据协作之间取得平衡是一个需要解决的挑战。

数据网格的模糊参数

理解数据网格的一个重大挑战是需要特定的指导方针和参数。围绕数据网格使用的语言通常围绕着新的思维方式和不同的数据处理方式。虽然提到了联合数据存储和数据虚拟化等概念,但缺乏明确的实现指南。这种模糊性使得企业在采用数据网格时难以弥合理论与实践之间的差距。

数据网格“消亡”背后的现实

2022年6月,调研机构Gartner公司发布了《2022年炒作周期数据管理》,该报告根据采用水平和预计的主流采用时间表评估了技术的成熟度。这个周期有助于数据和分析领导者识别有前途的技术,并确定评估和采用的合适时机。

根据这份报告,数据网格目前处于“创新触发”阶段,尚未达到“膨胀预期的峰值”。根据预测,它将在达到平台期之前过时。

Gartner公司的分析师Mark Beyer、Ehtisham Zaidi和Robert Thanaraj量化了数据网格的感知效益,并指出其在目标受众中的市场渗透率也相对较低,在1%到5%之间。围绕数据网格的炒作源于声称它解决了集中式数据仓库、数据湖和数据中心的挑战。

为什么会发生这种情况?

Gartner公司解释说,数据网格解决方案利用业务应用程序以去中心化的方式捕获和分发数据。在通常情况下,当集中式方法未能产生令人满意的结果时,通常是由于实施和交付方面的挑战而采用分散的数据管理方法。然而,随着支持集中式数据访问的技术和解决方案的进步,像数据网格这样的分布式方法预计将在企业IT中失去流行性。

在这份报告发表之后,行业专家对Gartner公司的观察结果表示支持和反对。Data Mesh Radio主持人Scott Hirlman批评Gartner公司对供应商和技术的偏见,声称数据网格不太可能过时。

Gartner公司前分析师、现任Profisee公司数据策略主管Malcolm Hawker为Gartner公司的观点进行了辩护。他澄清道,Gartner公司并不认为数据网格目前已经过时,与其相反,这张图表预示着未来的过时。Hawker表达了Gartner公司的理念,即数据结构将成为主导的数据管理架构模式,最终使数据网格过时。

数据网格和核心原理与技术的融合

业界厂商正在努力解决如何将数据网格的核心原则和理论与技术和流程的实际方面相结合的问题。虽然将数据视为产品并接受以领域为中心的所有权的想法很有吸引力,但实际的实现和标准化提出了重大挑战。企业必须在采用数据网格原则和确保他们拥有正确的工具、技术和流程来有效地支持它之间找到平衡。

从过去的错误中吸取教训

数据网格是分散数据管理的众多尝试之一。根据以往的经验,例如从集中式数据仓库到以领域为中心的方法的转换都面临着挑战。必须从过去的错误中吸取教训,并评估技术的进步和日益加深的理解是否能够克服以前面临的障碍。

需要明确和解决棘手的问题

为了确保数据网格的成功,需要明确其原则、治理模型和跨功能数据的处理。需要解决一些棘手的问题,例如如何处理跨多个领域域的关键数据域(如客户或产品)。有了这些问题令人满意的答案,数据网格的实用性和有效性就有了信心。

可观察性在克服数据网格挑战中的作用

数据网格架构概念为数据行业带来了令人兴奋的机会和关注。一些个人和组织担心与数据网格中自主性和民主化增加相关的潜在风险,特别是在数据发现、健康和管理方面。

然而,更仔细的研究表明,数据网格架构实际上通过强制要求可扩展和自助数据可观察性来解决这些问题。数据可观察性对于领域在数据网格框架内真正拥有其数据变得至关重要。这种自助功能包括各种功能和标准化,包括静态和动态数据的数据加密、数据产品的版本控制、数据产品架构、数据产品发现和目录注册、数据治理和标准化、数据产品生产、监控和警报的数据沿袭、数据产品日志,以及衡量数据产品质量的指标。

当这些功能和标准化结合在一起时,就建立了一个健壮的可观察性层。数据网格范式强调了单个领域处理数据可观察性的标准化和可扩展方法的重要性,使团队能够解决关键问题,例如数据新鲜度、数据完整性、跟踪模式更改以及理解上游和下游管道的依赖关系。

展望未来,数据网格将会继续发展,数据网格的创始人Zhamak Dehghani宣布成立Nextdata公司在数据行业掀起了波澜。这家初创公司旨在通过提供对数据产品内置信任的愉快体验,增强数据开发人员、用户和所有者的能力。

随着数据网格趋势的发展,必须在实现完全去中心化的数据网格方法和在其架构中纳入卓越中心的元素之间找到平衡。为了探索对数据网格的进一步见解和观点,可以深入研究Zhamak Dehghani、Sven Balnojan的《数据网格在行动》一书、Kevin Petrie的《数据网:重新思考数据集成》和Joe Gleinser的《你的应用程序应该考虑数据网连接吗?》中的智慧和知识。

结论

数据网格为数据管理提出了一个有趣的概念,但在真正站稳脚跟之前,它面临着巨大的挑战。该行业需要解决领域所有权问题,定义更精确的参数,并找到将核心原则与技术相结合的方法。通过从过去的经验中学习并提出棘手的问题,可以驾驭数据网格的复杂性,并确定其在数据管理策略中的可行性。 审核编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 软件
    +关注

    关注

    67

    文章

    4348

    浏览量

    85621
  • 应用程序
    +关注

    关注

    37

    文章

    3136

    浏览量

    56391
  • 数据源
    +关注

    关注

    1

    文章

    59

    浏览量

    9589
  • 数据网格
    +关注

    关注

    0

    文章

    7

    浏览量

    6087

原文标题:围绕数据网格的巨大争议:成功还是失败?

文章出处:【微信号:D1Net11,微信公众号:存储D1net】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Fidelity Pointwise中的自动自适应网格加密功能介绍

    仿真前处理的目标是创建适合所需分析的网格。在生成同时解析几何和物理问题的网格时,我们的目标是提高计算效率。
    的头像 发表于 01-03 13:49 493次阅读
    Fidelity Pointwise中的自动自适应<b class='flag-5'>网格</b>加密功能介绍

    CFD 设计利器:结构化和非结构化网格的组合使用

    在CFD的发展历史中,结构化网格出现最早,至今仍在使用。结构化网格有几个主要优点,如精度高、生成速度快、单元分布均匀。有些工具擅长绘制这类网格,例如CadenceFidelityAutomesh
    的头像 发表于 12-23 08:12 402次阅读
    CFD 设计利器:结构化和非结构化<b class='flag-5'>网格</b>的组合使用

    基于贪婪算法的配电网网格负荷预测与规划

    ,从而简化数据处理过程。为解决负荷级别的区域划分,建立结合贪婪法与网格法的空间负荷预测平台。通过对水平年用地规划图进行阈值分割,并结合变电站供电情况,实现利用灰度图直观展现供电情况,并由此提出基于供电
    发表于 09-22 08:15

    生成高质量 3D 网格,从重建到生成式 AI

    法有很多优点,包括支持现有的软件包、高级硬件加速,以及支持物理模拟。然而,并非所有网格都是相同的,只有高质量的网格才能实现这些优点。 NVIDIA Research 提出了一种名为“FlexiCubes”的新方法,它可以在 3D
    的头像 发表于 08-17 19:15 500次阅读
    生成高质量 3D <b class='flag-5'>网格</b>,从重建到生成式 AI

    基于LBM的网格自适应划分代码实现

    基于LBM的网格自适应划分代码实现
    发表于 08-10 09:14 2次下载

    多层级网格划分技术如何做到便捷、高效?积鼎CFD大幅减少前处理时间

    网格好坏成为了仿真软件前处理部分的主要竞争目标。 多层级网格划分 多层级网格划分为自动网格划分所使用的方法之一,常见的多层级数据结构包括叉
    的头像 发表于 08-07 21:32 445次阅读
    多层级<b class='flag-5'>网格</b>划分技术如何做到便捷、高效?积鼎CFD大幅减少前处理时间

    自动驾驶中基于网格的交通场景感知介绍

    本文介绍了自动驾驶中基于网格的交通场景感知:研究综述。基于网格的感知是移动机器人感知和导航的关键领域。
    发表于 08-03 11:51 400次阅读
    自动驾驶中基于<b class='flag-5'>网格</b>的交通场景感知介绍

    网格化水质监测详解

    01网格化水质监测方案简介凯米斯网格化水质监测方案,应用自主研发的微型水质监测站、微型水质监测浮标、多参数水质监测传感器、在各区域进行低成本网格化布点与高频监测,实现对河流、池塘、水库
    的头像 发表于 08-03 08:15 481次阅读
    <b class='flag-5'>网格</b>化水质监测详解

    如何从线性网格创建高阶网格

    本文介绍Cadence Pointwise的网格生成工具是如何帮助 CFD 工程师您创建复杂几何模型高精度模拟所需要的高阶网格,且不会显著增加计算复杂性。
    的头像 发表于 07-12 11:00 316次阅读

    什么是网格划分或网格生成?

    庞杂的几何文件、复杂的几何结构,使得 CFD 仿真在网格制作上极其耗时。如何解放工程师的双手, 把更多的精力投入到结果分析和创新性能设计上,答案就在 Cadence Fidelity AutoMesh。
    的头像 发表于 05-23 10:20 1535次阅读
    什么是<b class='flag-5'>网格</b>划分或<b class='flag-5'>网格</b>生成?

    如何使用AT命令网格化二/三Esp8266 -12E模块?

    我使用 Esp-12E 模块已经很长时间了,现在我想将 2 个 Esp模块网格化以检查传感器数据。如果数据超过设定值,我想在 Esp 的网页上检查这个东西。
    发表于 05-19 11:21

    网格覆铜与实心覆铜的对比分析

    电路板的覆铜方式是制造电路板时常用的一种技术。在网格覆铜和实心覆铜两种方式中,哪种更好需要根据具体的应用需求来确定。
    发表于 05-18 09:21 3577次阅读
    <b class='flag-5'>网格</b>覆铜与实心覆铜的对比分析

    技术资讯 I 如何在 CFD 设计中利用网格维护几何形状并减少运行时间?

    精细,就会增加不必要的计算时间和工作量。网格元素类型和数据结构也会影响生成网格所需的人力时间和技能,以及单位精度的成本。图1.基于局部误差和基于输出的自适应技术对
    的头像 发表于 05-15 10:09 4940次阅读
    技术资讯 I 如何在 CFD 设计中利用<b class='flag-5'>网格</b>维护几何形状并减少运行时间?

    向固件添加网格有多难?

    向固件添加网格有多难? 我正在从事一个物联网项目,其中的设备不是静态的,并且如果在范围内,ESP8266 缠绕连接到的地方周围只有一堆无线 AP,但我想知道是否有一种方法可以添加 Meshing 来丢弃我需要的 AP 数量。
    发表于 05-11 07:32

    蓝牙网格技术和家居自动化

    对于智能家居和家居自动化应用,蓝牙网格技术为许多新产品开辟了机会。一个很好的例子就是我们现在可以买到用蓝牙控制的灯泡。消费者可以把家里的几个甚至全部灯泡都换成这种类型的灯泡,蓝牙网格技术负责将这些
    的头像 发表于 05-08 09:37 470次阅读
    蓝牙<b class='flag-5'>网格</b>技术和家居自动化