0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据仓库、数据湖以及中心化数据所有权的问题

茶棚小二a 来源:Thoughtworks 作者:茶棚小二的专栏 2021-10-18 16:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在数据和分析领域中,数据网格(Data Mesh)范式是取代数据湖、成为主要架构模式的强势候选者。 重要的是,数据网格引入了新的组织视角,并且它与特定技术无关。 其关键思想是将领域驱动设计(DDD)和产品思维,应用到数据和分析领域的难题中。与引入DevOps文化相比,建立数据网格文化包含人与人的连接,同理心,以及联合责任结构的建立。 通过这种方式,从数据中产生业务价值能够实现可持续的规模化。

随着各个公司在关键业务领域进行数字化,他们收集了越来越多的有关其自身流程和客户的数据。 因此,他们希望使用这些数据来推动基于事实的决策,以便更好地满足客户的需求。 在某些行业中,数据驱动的水平,即公司能够基于数据而不是凭直觉做出决策的速度,已经成为决定性的竞争优势。

数据仓库、数据湖以及关于中心化数据所有权的问题

在传统的商业智能(BI)中,集中维护的数据仓库是许多商业决策的基础,例如:通过最新的报表来支持这些商业决策。 随着大数据技术的成熟以及数据科学的日益普及,许多公司投资建设了中央数据湖——有些是为了替代数据仓库,但更多情况下是对现有数据仓库的补充。 二者的主要区别在于集展和建模的不同:通过数据仓库的方式,数据在摄取时,已经根据特定的应用进行了转换; 对于数据湖,这种转换仅在数据用于消费时发生。 但是,这两种方法的共同特点是中心化。 而正是这种中心化导致了问题的反复出现。

我一次又一次看到,一个模式是不堪重负、压力重重的中央“数据团队”。 这个团队维护着中央数据基础设施,无论是数据仓库还是数据湖。然而,更重要的是,该团队孤立地负责向利益相关者,产品团队和数据科学家提供及时可靠的数据集或报表。 我故意称其为数据团队,而不是更具体地称为数据工程或数据洞察团队,是因为它反映了这个团队经常要处理的不明确的责任组合。

因此,该数据团队的成员经常会陷入困境。 他们花费大量时间进行“消防员”式的救急工作,也修复数据生产团队引入的问题,但也很难使数据的消费者满意。 尤其令人悲伤的是,这些团队成员通常是公司中最精通数据的人。并且经常可以看到的是:这种长期的压力会导致生产力下降,工作场所满意度降低,甚至员工流失率增加。

如今有能力的工程师为什么无法解决这种问题? 原因在于这不是技术问题,而是组织问题。 主要问题之一是参与各方的职责划分不当。

数据生产者一方,具有领域专业知识,即他们了解数据的含义,并且可以直接更改数据的形式; 而数据使用者一方,是数据的既得利益者,了解数据的业务潜力,因此可以清楚地描述需求,包括数据质量的相关需求。 数据团队的成员夹于这两方之间:他们有责任交付可靠和高质量的数据,但他们既没有领域专业知识,也无法直接影响数据如何产生。 此外,他们并不是最终使用数据的决策者。 这意味着利益,责任和能力分布在三个不同的方面,这导致了摩擦,沮丧和误解。

poYBAGFlU9uAXB-tAAEizWBNfA8068.png

图一,处理数据的传统方式切断了数据负责人与数据使用者的关系

Data Mesh:去中心化的领域所有权,共享的基础设施

相反,数据网格的目标状态是让数据生产者和数据使用者尽可能紧密地合作。从组织的角度来看,理想的情况是同一团队同时生产和使用相同的数据,以便能够在同一个团队中考量利益,责任和能力。在实践中,这通常是不可行的,因为数据生产团队已经在其特定领域承担了太多责任,以至于他们也无法完全负责数据消费应用。因此,将这些角色分成两个直接沟通无需中间人的团队,已经是向前迈出了一大步。数据生产团队的目标应该是提供数据,以便其他人可以在不需要详细领域知识的前提下就能从该数据中获得价值,即数据产生者应隐藏“实施细节”。当然,这样的数据生产团队也可以同时处于数据消费者的位置。有一些面向消费者的数据领域非常复杂,足以证明整个领域专家团队的价值,但是这些专家自己使用的数据与数据源对齐。

单纯从组织角度来看,这种数据生产者和消费者的双边关系结构将特定领域的一切交给了一个团队,有利于减少摩擦,增加了所有权,从而能够高质量地扩展。如果我们接受这个前提,那为什么有着集中所有权的中央数据团队的模式如此普遍?以我的经验,有三个主要的关注点,它们在很大程度上驱动了企业中不幸的中心化数据所有权模式:

担心团队中没有足够的数据工程师和数据科学专家来组成多个团队。相反,中央团队被认为可以更有效地利用那些稀缺的专家,并可以更平等地支持多个团队。

担心失去对数据质量的控制,例如建立去中心化所有权的全局标准似乎很困难。

担心重复的基础设施投资,因为每个团队都需要创建和维护类似的基础设施,例如管道,服务和存储。

通常,中心化数据所有权和中心化数据基础设施之间缺乏概念上的分离, 阻碍了去中心化数据所有权的优势。 实际上,在上述所有三种情况下,创建专注于自助服务工具的共享数据基础设施平台可以帮助缓解此类担忧。但是,至关重要的是,与领域无关的自助服务工具要能够使该数据架构平台脱离中心化的领域数据所有权。 然而,通过使用领域无关的自助服务工具,能够与让数据基础设施平台脱离中心化的领域数据所有权。否则,数据基础设施平台将存在迅速成为具有中心化数据所有权的中央数据平台的风险,这正是我们首先要摆脱的境况。 最后,此方法还需要与建立针对数据的产品思维相结合,以确保去中心化的数据所有权是可持续的。

pYYBAGFlU9yATVu5AAGQCRv0808307.png

图2:与领域无关的数据平台

领域无关基础架构以及产品思维

为什么说数据基础设施平台确实是领域无关且专注于自助服务的呢?一个标志是,无需联系数据基础设施平台团队,团队即可通过提供领域数据来共享其专业知识。这意味着,那些数据基础设施平台的开发人员在完成本职工作时,并不需要详细的领域知识。

另一方面,该平台必须提供工具,让领域数据专家在无需深厚的数据工程专业知识的情况下管理其数据交付物的整个生命周期。这意味着必须使他们能够创建数据领域产品,对其进行描述和演进升级,观察其使用情况以及适时销毁数据。

创建提供这种使能水平的自助服务平台是一项巨大的技术和产品开发挑战。不过,它的核心是传统的内部软件产品开发可以从实现最常见的用例开始,再逐步地扩展平台的功能。

这样,可以避免了构建重复的基础设施,因为没有将基础设施平台团队拉入中心化的数据所有权中。这样一个与领域无关的平台团队可以更好地进行扩展,因为其成员不需要跟进特定领域的难题和所有业务领域的需求。相反,那些领域数据团队应该积极地培养和维护这些详尽的领域知识。因此,如果能够正确地关注重点,一个中型团队就能够可持续地开发和维护共享的数据基础设施平台。

共享的自助服务数据基础设施平台的另一个重要优点是,除了避免重复工作外,还关乎数据治理和标准化。如果对于领域数据团队而言,使用平台的工具提供数据要比通过构建自己的基础设施还方便,那么通过这些平台工具来实施某些标准将变得很容易。这样,标准化和一定程度上的治理就会由便利性驱动。

因此,在上面概述的关于去中心化数据所有权的三个问题中,仅剩下一个数据质量的相关问题。现在,中心化团队无法承担数据质量的责任。如今,数据质量的责任无论如何也不能由一个中心化的团队以可扩展和可持续的方式来承担。没有任何一个团队可以针对所有业务领域建立足够的领域专业知识来确保数据质量。这就是数据质量的意义:它不是对数据形态的普遍保证,而是与数据的具体内容,语义和演进的息息相关。

但是,单纯以去中心化的责任制还不能解决这一挑战。为此,产品思维开始发挥作用。需要激励领域数据团队以可靠的方式提供高质量的数据,例如通过使预算与数据消费者的数量和消费满意度相匹配。这样,领域数据团队将尝试提高其数据的价值,并尝试满足其数据消费者的需求。

最后总结一下,我们需要建立三种方法,以实现具有去中心化数据所有权的可扩展和可持续的数据格局:

使用领域驱动设计作为主要手段构建数据,并将领域(或子域)的完整端到端所有权分配给一个能够满足其职责所需的跨职能团队。

利用平台思维,投资创建共享且与领域无关的自助数据基础设施平台。该平台没有中心化的数据所有权,而是专注于支持和促进数据生产者和消费者者之间的直接协作。

利用产品思维,激励领域数据团队提高高质量的数据以满足数据消费团队的需求。

fqj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据分析
    +关注

    关注

    2

    文章

    1507

    浏览量

    35943
  • 数据网格
    +关注

    关注

    0

    文章

    7

    浏览量

    6250
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    部署Denodo与数据仓架构联用,用户可获得345%投资回报率(ROI),实现3–4倍数据洞察提速

    AI Hackathon 2025,助力企业通过可信数据和先进 AI 技术加速创新。此次新闻稿覆盖两大重点:数据仓价值释放的最新研究,以及全球开发者参与的 AI 创新赛事。 研究发
    的头像 发表于 10-23 17:27 430次阅读

    物联网数据中心是什么?有什么功能?

    物联网数据中心是集成和管理物联网设备数据的核心平台,具备数据采集、处理、存储、分析、可视及安全管控等功能,其本质是通过技术融合实现物理世界与数字世界的双向交互与智能决策。以下从定义、
    的头像 发表于 09-22 17:14 695次阅读

    数据存储到一个文件,编译正常,数据可以正常存储,但是APP运行时报错,提示没有权限,为什么?

    计划把数据存储到一个文件,编译正常,数据可以正常存储,但是APP运行时报错,提示没有权
    发表于 08-07 07:02

    微软推出全新Microsoft Sentinel数据国际版

    近期,MicrosoftSentinel数据(国际版)正式开放公开预览,重塑安全运营架构。它通过统一所有安全数据,以远低于传统方案的成本,解决了海量
    的头像 发表于 08-04 15:36 753次阅读

    NO.3!科华数据微模块数据中心位列全球第三

    近日,全球权威调研机构Omdia发布2024年微模块数据中心市场份额报告。报告显示,科华数据凭借卓越的技术实力与产品创新,跻身微模块数据中心全球市场前三。位列“全球第三”,不仅是对科华数据
    的头像 发表于 07-10 17:35 916次阅读
    NO.3!科华<b class='flag-5'>数据</b>微模块<b class='flag-5'>数据中心</b>位列全球第三

    华为发布AI数据解决方案加速行业智能 AI时代数据觉醒

    正式发布AI数据解决方案,加速AI行业落地。 华为公司副总裁、华为数据存储产品线总裁周跃峰博士 数字转型已经进行了几十年,很多事发生了
    的头像 发表于 04-30 18:01 1462次阅读
    华为发布AI<b class='flag-5'>数据</b><b class='flag-5'>湖</b>解决方案加速行业智能<b class='flag-5'>化</b> AI时代<b class='flag-5'>数据</b>觉醒

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    一种经济高效的方式,实现更大的带宽传输。 800G有源光缆 800G有源光缆通过增加带宽、降低延迟并减少功耗来优化性能,非常适合去中心数据中心和云环境。此外,VCSEL与PAM4 DSP技术
    发表于 03-24 14:20

    数据中心发展与改造

    全球多数数据中心基础设施已超六年,能耗高而效率低。随着AI的发展,企业正致力于整合与提升能效的现代改造。同时数据中心呈现规模、高密、绿
    的头像 发表于 02-28 16:50 741次阅读
    <b class='flag-5'>数据中心</b>发展与改造

    安科瑞数据中心产品:创新科技助力智能管理

    摘要 本文详细介绍了安科瑞数据中心产品的特点、优势及其在智能管理中的应用。安科瑞作为行业领先的科技公司,其数据中心产品凭借高效能、高可靠性、智能管理和绿色节能等优势,广泛应用于金融
    的头像 发表于 02-20 14:31 937次阅读
    安科瑞<b class='flag-5'>数据中心</b>产品:创新科技助力智能<b class='flag-5'>化</b>管理

    Deno Land 请愿剥夺甲骨文 JavaScript 商标所有权

    去年11月,Deno Land 公司向美国商标和专利局(USPTO)提交了一份请愿书,要求剥夺甲骨文公司对 JavaScript 商标的所有权,并指控甲骨文存在欺诈行为。 Deno Land 公司
    的头像 发表于 01-15 15:37 647次阅读

    长江航运数据中心正式启用

    近日,长江水上交通监测与应急处置中心传来喜讯,经过三年多的精心建设和一年的试运行,长江航运数据中心正式宣告启用。这一里程碑式的进展,标志着长江航运的信息水平迈上了一个全新的台阶。 长江航运
    的头像 发表于 01-03 11:10 732次阅读

    华为预制模块数据中心连续十年蝉联全球第一

    近日,第三方国际权威机构Omdia发布《2023全球预制模块数据中心报告》,对全球预制模块数据中心市场动态、市场份额、发展趋势进行洞察和分析。报告显示,2023年华为预制模块
    的头像 发表于 12-31 11:41 1348次阅读

    戴尔数据仓助力企业数字转型

    在数字转型的浪潮下,企业正面临着前所未有的数据挑战。从传统的结构数据到如今的非结构数据、半
    的头像 发表于 12-20 09:31 772次阅读

    可与MES系统集成的数据采集监控平台

    ,确保数据的全面接入。 数据存储与管理: 采用数据库或数据仓库存储采集到的数据。 提供高效的数据
    发表于 12-16 15:08