0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

还在数据中台与传统大数据平台之间傻傻分不清?

工业互联网前线 来源:大数据DT 作者:彭锋 宋文欣 孙浩 2021-10-12 17:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:彭锋 宋文欣 孙浩峰

来源:大数据DT(ID:hzdashuju),本文经授权转载

导读:我们可以这样理解,传统大数据平台和数据仓库是数据中台的数据来源,建设数据中台是为了更好地服务于业务部门。

图1-1显示了信息化系统、数据仓库、传统大数据平台、数据中台之间的关系,其中的箭头表示数据的主要流向。

数据中台与传统大数据平台到底有什么区别?为了叙述方便,我们先给出传统大数据平台的架构。

大数据基础能力层:Hadoop、Spark、Hive、HBase、Flume、Sqoop、Kafka、 Elasticsearch等。

在大数据组件上搭建的 ETL流水线,包括数据分析、机器学习程序。

数据治理系统。

数据仓库系统。

数据可视化系统。

可以看到,这些是传统大数据平台的核心功能。在很多大数据项目里,只要把这些系统搭起来,每天可以生成业务报表(包括实时大屏),就算大数据平台搭建成功了。

但数据中台应该是大数据平台的一个超集。我们认为,在大数据平台的基础之上,数据中台还应该提供下面的系统功能。

1. 全局的数据应用资产管理

这里所说的数据应用资产管理包括整个生态系统中的数据和应用。传统的数据资产管理绝大部分只包括关系型数据库中的资产(包括Hive),而一个数据中台应该管理所有结构化、非结构化的数据资产,以及使用这些数据资产的应用。

如果传统的数据资产管理提供的是数据目录,那么数据中台提供的应该是扩展的数据及应用目录。要避免重复造轮子,首先要知道系统中有哪些轮子,因此维护一个系统中数据及数据应用的列表是很关键的。

2. 全局的数据治理机制

与传统的数据治理不一样,数据中台必须提供针对全局的数据治理工具和机制。传统数据仓库中的数据建模和数据治理大多针对一个特定部门的业务,部分原因是全局数据建模和治理周期太长,由于存在部门之间的协调问题,往往难度很大。

数据中台提供的数据治理机制必须允许各个业务部门自主迭代,但前提是要有全局一致的标准。阿里提出的OneID强调全局统一的对象ID(例如用户ID),就属于这个机制。

3. 自助的、多租户的数据应用开发及发布

现有的绝大部分大数据平台要求使用者具备一定的编程能力。数据中台强调的是为业务部门赋能,而业务人员需要有一个自助的、可适应不同水平和能力要求的开发平台。这个开发平台要能够保证数据隔离和资源隔离,这样任何一个使用系统的人都不用担心自己会对系统造成损害。

4. 数据应用运维

用户应该可以很方便地将自己开发的数据应用自助发布到生产系统中,而无须经过专门的数据团队。因为我们需要共享这些应用及其产生的数据,所以需要有类似于CI/CD的专门系统来管理应用的代码质量和进行版本控制。

在数据应用运行过程中产生的数据也需要全程监控,以保证数据的完整性、正确性和实时性。

5. 数据应用集成

应该可以随时集成新的数据应用。新的大数据应用、人工智能工具不断涌现,我们的系统应该能够随时支持这些新应用。如果数据中台不能支持这些应用,各个业务部门可能又会打造自己的小集群,造成新的数据孤岛及应用孤岛。

6. 数据即服务,模型即服务

数据分析的结果,不管是统计分析的结果,还是机器学习生成的模型,应该能够很快地使用无代码的方式发布,并供全机构使用。

7. 数据能力共享管理

大部分数据能力应当具有完善的共享管理机制、方便安全的共享机制以及灵活的反馈机制。最后决定数据如何使用的是独立的个人,他们需要一套获取信息的机制,因此在机构内部必须要有这样的共享机制,才能真正让数据用起来。

8. 完善的运营指标

数据中台强调的是可衡量的数据价值,因此,对于数据在系统中的使用方式、被使用的频率、最后产生的效果,必须要有一定的运营指标,才能验证数据的价值和数据中台项目的效率。

综合上面的讨论,除了阿里巴巴提出的OneID、OneModel、OneService之外,我们认为数据中台还应该满足以下两个要求。

1. TotalPlatform

所有中台数据及相关的应用应该在统一平台中统一管理。如果有数据存储在中台管理不到的地方,或者有人在中台未知的情况下使用数据,我们就无法真正实现对数据的全局管理。这要求数据中台能快速支持新的数据格式和数据应用,便于数据工具的共享,而无须建立一个分离的系统。

2. TotalInsight

数据中台应该能够理解并管理系统中数据的流动,提供数据价值的定量衡量,明确各个部门的花费和产出。整个中台的运营是有序可控的,而不是一个黑盒子,用户可以轻松理解全局的数据资产和能力,从系统中快速实现数据变现。

如图1-3所示,数据中台可以说是按照一定的规范要求建设的数据能力平台,在数据仓库、大数据平台、数据服务、数据应用的建设中实现了符合OneID、OneModel、OneService的数据层。

这个数据层,加上在其上建立的业务能力层以及运营这个数据中台需要的TotalPlatform、TotalInsight,形成我们看到的数据中台。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    5521

    浏览量

    74658
  • 人工智能
    +关注

    关注

    1813

    文章

    49746

    浏览量

    261603
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • 数据分析
    +关注

    关注

    2

    文章

    1508

    浏览量

    35944
  • 大数据
    +关注

    关注

    64

    文章

    9030

    浏览量

    143078

原文标题:数据中台与传统大数据平台有什么区别?终于有人讲明白了

文章出处:【微信号:IndustryIOT,微信公众号:工业互联网前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业数据支持接入MySQL数据库吗

    工业数据完全支持接入MySQL数据库 ,且通过数据同步、集成与治理等技术手段,能够充分发挥MySQL
    的头像 发表于 12-04 11:23 190次阅读
    工业<b class='flag-5'>数据</b><b class='flag-5'>中</b><b class='flag-5'>台</b>支持接入MySQL<b class='flag-5'>数据</b>库吗

    边缘计算和人工智能,别再傻傻分不清啦!

    ,今天我们就用最通俗的方式,把这事讲明白 一、什么是“边缘计算”?——让数据不必跑那么远 传统做法是:设备采集的数据,全都上传到“云端”去处理。比如,一产线设备温度异常,要传到服务器
    的头像 发表于 11-19 15:46 137次阅读

    UV三防漆vs普通三防漆:5大关键区别,教你精准避坑!

    别再傻傻分不清!选对三防漆,产品寿命翻倍不是梦。
    的头像 发表于 10-25 17:45 212次阅读
    UV三防漆vs普通三防漆:5大关键区别,教你精准避坑!

    如何规划数据

    1. 数据是一套解决方案 在数聚股份看来,数据
    的头像 发表于 10-15 16:04 171次阅读
    如何规划<b class='flag-5'>数据</b><b class='flag-5'>中</b><b class='flag-5'>台</b>

    工业物联网平台数据的区别

    定位与使命不同。工业物联网平台是“设备数字化底座”,聚焦把工业现场的PLC、机器人、传感器等实时接入,实现监控、告警、反向控制;数据则是“企业
    的头像 发表于 08-29 17:23 511次阅读

    数据可以接入哪些物联网云平台

    : 一、工业互联网平台 工业互联网平台聚焦制造业场景,提供设备连接、协议解析、边缘计算及工业大数据分析能力,与数据
    的头像 发表于 08-19 15:22 542次阅读

    工业设备与管理系统之间数据是什么?

    。工业设备与管理系统之间数据,就是连接两者的“数据枢纽”——它通过统一的数据采集、处理、存
    的头像 发表于 08-11 13:49 426次阅读

    别再傻傻分不清!USB和TYPE-C的全面解析

    别再傻傻分不清!USB和TYPE-C的全面解析
    的头像 发表于 04-26 15:51 1.1w次阅读

    什么是有功功率/无功功率,电能表是如何计量的?

    什么是有功功率、无功功率,傻傻分不清
    的头像 发表于 04-11 08:25 5445次阅读
    什么是有功功率/无功功率,电能表是如何计量的?

    数据可以解决哪些问题

    数据是一种集成和管理企业内部及外部数据的技术架构,旨在实现数据的采集、存储、处理、分析和应用。它能够解决多个方面的问题,具体如下:  
    的头像 发表于 03-18 15:24 493次阅读

    MES系统为什么需要数据

    层次的分析和应用。数据作为一种数据管理和服务的架构,能够为MES系统提供强大的数据支撑,解决传统
    的头像 发表于 03-11 11:14 618次阅读
    MES系统为什么需要<b class='flag-5'>数据</b><b class='flag-5'>中</b><b class='flag-5'>台</b>

    物联网数据与数字孪生的关系

    在数字化快速发展的时代,物联网数据与数字孪生作为关键技术,各自发挥着重要作用,且二者之间存在着紧密而复杂的关系。深入探究它们
    的头像 发表于 02-27 13:41 687次阅读
    物联网<b class='flag-5'>数据</b><b class='flag-5'>中</b><b class='flag-5'>台</b>与数字孪生的关系

    工程大数据平台

    由于无人驾驶系统开发需要长期迭代优化,其过程需要大量的路试数据支撑,经纬恒润针对无人驾驶系统持续运营和持续迭代的需求,开发并在云端部署了车路云工程大数据平台,依托5G网络,具有远程数据
    的头像 发表于 01-10 17:00 936次阅读
    工程<b class='flag-5'>大数据</b><b class='flag-5'>平台</b>

    数字化车间中,如何有效实施数据

    车间的业务模式、数据来源、数据量、数据处理流程等,以便确定数据的功能范围和技术架构。与车间各
    的头像 发表于 01-09 17:45 610次阅读

    cmp在数据处理的应用 如何优化cmp性能

    CMP在数据处理的应用 CMP(并行处理)技术在数据处理领域扮演着越来越重要的角色。随着数据量的爆炸性增长,传统的串行处理方法已经无法满足
    的头像 发表于 12-17 09:27 1762次阅读