0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

常见阻碍数据建模的原因有哪些

工业互联网前线 来源:数据驱动智能 作者:数据驱动智能 2022-11-29 11:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着大数据和数据湖的发展,数据建模似乎濒临灭亡。数据湖的开发者留下了大量数据沼泽,所以建模活动还是必须的。那么为什么仍然存在关于数据建模的问题呢?当然有各种各样的原因。有些问题至少已有 30 年历史,而最近人们更加认为使用云数据平台和分析数据架构的 ELT 方法所致。下面我们看看常见的阻碍数据建模的原因:

1缺乏兴趣——企业真的不在乎

尽管 CIO 和 CEO 宣传“数据驱动”,但对于某些企业而言,数据的管理和利用并没有放在主要日程上,至少在高层是这样。这可能是可以理解的——并非每个企业都是“数据企业”;数据可能很重要,但仅在特定的独立领域内使用。有些组织从事采购和销售产品、提供法律顾问等行业,这并不是说他们不使用数据,而是,就目前而言即使使用 Excel 这种处理工具也满足使用了。

这可能发生在传统的组织中,可能发生在行业领军企业,也可能发生在技术初创企业中,在这些组织中,良好的数据是运营次要考虑因素。

解决方案:除非组织遭受足够多的数据相关痛苦,或者高级管理层选择支持战略性数据支持业务方法,否则数据建模以及治理和其他数据内容将主要在项目级别完成,以实现本地目标。

2 缺乏“全局”——没有全面的业务数据模型

数据建模通常被视为支持运营和分析产品开发的详细活动,从数据策略中删除,并且仅作为详细业务分析的一部分影响业务用户。但是,如果没有组织数据分布的高级地图,公司如何“数据驱动”,或者业务领域如何就数据所有权和责任达成一致?CDO 应该如何合理跨越多个应用程序或孤岛的数据,每个应用程序或孤岛都有相互独立的目标,成为“客户”的真正来源,或者了解特定数据流的原因?

90年代的情况是庞大、详细的 3NF“企业数据模型”,通常会运行到 100 或 1000 个实体。有时,这是为特定行业“现成”购买的,但随后需要在企业内部进行验证和调整。毫不奇怪,这些做法通常会陷入困境,被更紧迫的业务优先事项所取代。

解决方案:高级“业务数据建模”或“概念数据建模”的艺术已经存在超过 15 年。在经验丰富的从业者手中,对于中型企业或部门,应该可以在 1-3 个月内制作出良好的初稿,包括与企业所有部门的适当互动。通常,这可以与针对更多高级管理人员和员工的数据素养练习一起完成。随着从一个业务域更详细的数据工作引发对概念或全新概念的差异化的需求,可以改进和扩展这样的模型。

从“顶层”开始数据建模本身就非常有用,这是组织数据处理方法的基础。

3数据作为应用程序完成或事后的想法

尽管许多应用程序产生并依赖于数据,但一直存在一种趋势,尤其是程序开发中,忽视数据建模,而不是应用程序设计中首要事情。这尤其体现在两个方面:

a) 使用第三方程序加速业务能力

许多应用程序都有自己的数据模型,该模型存在于“要么接受要么放弃”的基础上——您可以调整数据需求,以适应应用程序的数据模型。另一方面,其他应用程序积极鼓励业务用户进行本地定制,而不考虑数据模型是否真的有意义。

更广泛的集成问题可能会被搁置一旁,只要应用程序可以获取或交换数据以满足即时需求,也许是通过 API。一些应用程序甚至积极阻止在其自身环境之外提取数据。

解决方案:仅购买能够提供清晰数据模型和/或用于分析目的的精心构建的提取/数据共享选项的应用程序。建议将这部分作为采购必要条件,而不仅仅是“是/否”的回答。

b) 内部应用程序开发人员将数据建模视为事后的想法

这是企业内部的问题,开发人员通常在时间压力下工作,向内部或外部用户提供数据展示,这些用户对数据的存储方式没有直接兴趣。

解决方案:数据建模师应该是任何应用程序团队的核心部分。数据模型初稿通常应该是开始第一个真正的敏捷开发的先决条件。将产生的数据供下游使用,无论是出于操作目的还是分析目的,都应该是整体框架的一部分。这是数据驱动开发的最佳实践,数据网格模式强烈建议这种做法。

4 效率问题——建模只会减慢速度

模型就是这样——对现实世界的简化。在进行数据建模的情况下,通常会捕获一些隐式规则和关系,希望能够适应企业管理其现实世界交互的方式。

90 年代的关系建模被认为太慢了,识别实体、关系和属性的视图通常被业务变化和新数据源所取代,并且在捕获和传输在线事件时未能增加价值。随着组织从生产纯物理产品转向更多数字产品,定期更改成为常态,建模被视为阻碍或与保持最新所需相冲突。

解决方案:在在线应用程序中,半结构化“文档模型”方法提供了事件封装和可扩展模式的一定程度的灵活性。使用此类结构的最佳实践隐含地承认 3NF 分析的原则。分析数据平台转而提供对 JSON 等格式的本地支持,并具有不同程度的承诺。

在分析领域,Data Vault 方法通过归纳关键实体之间的关系、识别来源的多样性和高变化概率以及构建历史记录来提供敏捷性。

数据网格建议将大部分建模留给本地域——尽管它也提倡双时态建模方法,并谈到需要通用标准、一种新的建模方法,甚至一种语言来实现跨域的“可组合性”。

最终,为用例或应用构建正确类型的模型是成功的最佳秘诀,无论是文档、3NF、Data Vault 还是维度。虽然建模首先是一项逻辑活动,在底层数据平台中支持一系列具有良好性能的数据建模方法可以显着简化逻辑到物理的映射。

5 直接获取数据——数据沼泽遗留问题

虽然大数据运动是由互联网生成的庞大数据驱动的,但它也是对复杂性和数据变化率问题的回应。随着一些组织开始通过利用一切数据产生巨大收益,人们越来越不愿意丢弃任何数据。而且数据湖从业者认为,建模已经过时了。现在,当连接大型数据集或多表模型的数据很痛苦时,创建大量非规范化数据集的动力就非常强烈,通常会导致大量重复。对数据安全的忽视也进一步助长了这一趋势。

受此经验的影响,基于云的“现代数据堆栈”中出现的两个互补趋势出现了一些阻力:“廉价”存储和“转换(ELT) 模式”。

许多云数据平台参与者至少在某种程度上将存储与计算分开。云对象存储具有弹性且相对成本低。大量数据出于未知原因被保留,原始数据或建模不佳的数据被直接使用并且从未正确集成。虽然存储很便宜,但不断增长的数据量推高了按消费定价的计算,使平台提供商有鼓励客户不要在乎数据建模。

这笔费用不能完全回避——即使是廉价存储的数据有时也应该被删除,无论是为了减少混乱、降低滥用风险还是让地球更轻盈。

许多组织已经转向分层数据建模方法,其中第一层采用“原始”数据,无论是直接匹配 OLTP 系统上的表格,还是未经提炼的 JSON Web 和 IoT 日志。这种 ELT 模式并不新鲜,例如在 Teradata 等平台上的数据仓库模式和实施中很常见,已有十年或更长时间。理想的目标是原始层馈送到更多层,通常是反映某些规范模型(例如 3NF 或 Data Vault)的一致性层和针对最终用户的表示或交付层(通常按维度建模)。

将数据保存更长时间是有正当理由的——监管(证明你五年前所做的是合法的)、网络安全(攻击模式可以发展数月)、数据科学和长期分析(将原始数据转化为新功能)、或者仅仅是利用直接的内置历史从旧数据重构下游新产品的能力。与此相反的是隐私法规和违规风险,以及将半衰期短的数据保存太久的环境成本。最终,这又回到了数据所有权和“为什么”的问题上。

解决方案:仅仅因为可以忽视,并不意味着应该这样。具有可靠治理、良好的数据高级模型和可靠数据架构的组织可以受益于更便宜的存储和易于使用的平台支持的数据底座和转换模式。不急于对数据进行详细的过度建模并在其价值确定之前花费大量的计算周期和工程师时间进行转换可能是有价值的。

同样,让我们现实地看待数据的“半衰期”,尤其是原始数据——很少有法规要求保留超过 7 年的历史,而 ML 模型则更少,除非着眼于长期的事件。您的数据平台在捕获依赖关系和访问历史记录方面有多好?这有助于识别那些从未或很少使用的数据集,并避免因担心下游后果而保留数据。

总之…

就像数据中的许多好东西一样,良好的建模源于组织承诺、适当应用良好实践和模式的技能、精心设计的流程以及设计师的优秀技能。在大多数数据平台上,不进行建模是灾难性的。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7349

    浏览量

    95025
  • 大数据
    +关注

    关注

    64

    文章

    9096

    浏览量

    144061

原文标题:谈谈阻碍数据建模的5大借口

文章出处:【微信号:IndustryIOT,微信公众号:工业互联网前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MOS 管烧坏、炸管的主要原因哪些?怎么快速排查和解决?

    MOS管烧坏/炸管的主要原因哪些?怎么快速排查和解决?相信不少工程师都经历过这样的“高光时刻”:上电瞬间,一声脆响,一缕青烟,MOS管直接报废。更让人头疼的是,有时候换上新管子,一上电又“故技重施
    的头像 发表于 03-23 13:59 538次阅读
    MOS 管烧坏、炸管的主要<b class='flag-5'>原因</b><b class='flag-5'>有</b>哪些?怎么快速排查和解决?

    单片机程序跑飞死机的几种原因分享

    时间主动报错退出。 4、堆栈溢出 常见于容量小的单片机,重复中断、函数调用导致超出堆栈空间,正常数据被改写。该问题最难查,一定特殊性,很难稳定复现 5、中断异常 打开了某个中断但是没有编写中断
    发表于 01-21 07:34

    常见的石英晶振失效原因哪些?

    不适配选型环节的参数匹配度直接决定晶振能否稳定工作,常见失效原因集中在核心电气参数与设计需求不契合。▶电路不匹配:电路中的匹配电容、反馈电阻、串联电容与晶振规格不匹
    的头像 发表于 01-12 17:18 372次阅读
    <b class='flag-5'>常见</b>的石英晶振失效<b class='flag-5'>原因</b><b class='flag-5'>有</b>哪些?

    UART发送数据后,接收端未收到数据原因哪些?

    UART 发送数据后,接收端未收到数据,可能的原因哪些?
    发表于 11-24 06:03

    Jtti分析SSL证书安装不成功是怎么回事?哪些原因

    。本文Jtti.cc将探讨一些常见的SSL证书安装失败的原因,并提供相应的解决方案。 1.证书文件或密钥文件格式错误 SSL证书的安装需要正确格式的证书文件和密钥文件。常见的证书格式
    的头像 发表于 10-27 16:15 754次阅读

    FPGA测试DDR带宽跑不满的常见原因及分析方法

    在 FPGA 中测试 DDR 带宽时,带宽无法跑满是常见问题。下面我将从架构、时序、访问模式、工具限制等多个维度,系统梳理导致 DDR 带宽跑不满的常见原因及分析方法。
    的头像 发表于 10-15 10:17 1276次阅读

    PLC通讯失败的常见原因

    PLC通讯中断是自动化现场的常见问题。遵循“先硬后软、先简后繁”的原则,能快速定位并解决大部分故障。
    的头像 发表于 10-14 15:16 3078次阅读

    电压暂降的原因哪些?

    电压暂降的原因可归纳为 电网侧故障、负荷侧扰动、外部环境影响 三大类,其中电网侧短路故障和负荷侧冲击性负荷启动是最主要诱因,两者合计占所有暂降事件的 80% 以上。不同原因的发生场景、影响机制及频率
    的头像 发表于 10-11 17:23 4442次阅读
    电压暂降的<b class='flag-5'>原因</b><b class='flag-5'>有</b>哪些?

    常见的电能质量在线监测装置硬件故障哪些?

    硬件故障的分类说明,包含 故障现象、可能原因、初步判断方法 : 一、前端传感器故障(信号采集源头,影响最直接) 传感器是装置获取电压、电流原始信号的核心部件,故障会导致 “无数据” 或 “数据严重失真”,是现场最
    的头像 发表于 09-24 18:25 1346次阅读
    <b class='flag-5'>常见</b>的电能质量在线监测装置硬件故障<b class='flag-5'>有</b>哪些?

    哪些常见的传感器数据失真原因

      传感器数据失真的本质是 “ 传感器输出信号与被测量的真实值偏离超出允许范围 ”,其原因可按 “ 传感器自身硬件、安装与接线、外部环境、使用维护、信号处理 ” 五大维度分类,覆盖从元件到系统的全链
    的头像 发表于 09-24 11:53 2990次阅读

    汽车连接器端子被烧坏哪些原因

    汽车电气系统中,连接器端子烧坏是一种常见的故障形式,这一现象可能引发安全事故,甚至火灾。本期蓬生电子带大家深入探讨端子烧坏的原因,从接触不良、过电流、环境劣化和材料与工艺缺陷四个方面进行分析。
    的头像 发表于 06-27 17:01 2056次阅读

    数据集下载失败的原因

    数据集下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据集多大?数据多少?
    发表于 06-18 07:04

    工业物联网常见的协议哪些

    工业物联网常见的协议哪些
    的头像 发表于 06-14 15:52 1454次阅读

    VirtualLab Fusion应用:Herriott池的建模

    。Herriott单元是这种系统的一个例子,其特点是使用两个球面反射镜,在其中一个球面反射镜上钻一个离轴孔,以允许光束进出。镜子的曲率改变了光束的方向并控制了它的发散。在此用例中,我们用光学建模和设计软件
    发表于 06-11 08:52

    什么是SD卡、TF卡写保护?写保护的常见原因

    部分SD卡、TF卡适配器或卡套上设有物理写保护开关,当开关滑动到"锁定"位置时,卡片会自动进入写保护状态。这是最常见也是最容易解决的写保护原因
    的头像 发表于 06-10 00:00 6847次阅读
    什么是SD卡、TF卡写保护?写保护的<b class='flag-5'>常见</b><b class='flag-5'>原因</b>