0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

教你如何区分数据仓库oneID和主数据

jf_78858299 来源:迪答数据 作者:迪答数据 2023-03-29 14:29 次阅读

在了解oneID前,先来看一下阿里的oneDate体系。其实OneID在整个数据服务体系中,也只是起点不是终点或者说是手段,我们最终的目的是为了建设统一的数据资产体系。

没有建设统一的数据资产体系之前,我们的数据体系建设存在下面诸多问题

  1. 数据孤岛:各产品、业务的数据相互隔离,难以通过共性ID打通
  2. 重复建设:重复的开发、计算、存储,带来高昂的数据成本
  3. 数据歧义:指标定义口径不一致,造成计算偏差,应用困难

在阿里巴巴 OneData 体系中,OneID 指统一数据萃取,是一套解决数据孤岛问题的思想和方法。数据孤岛是企业发展到一定阶段后普遍遇到的问题。各个部门、业务、产品,各自定义和存储其数据,使得这些数据间难以关联,变成孤岛一般的存在。

OneID的做法是通过统一的实体识别和连接,打破数据孤岛,实现数据通融。简单来说,用户、设备等业务实体,在对应的业务数据中,会被映射为唯一识别(UID)上,其各个维度的数据通过这个UID进行关联。

各个部门、业务、产品对业务实体的UID的定义和实现不一样,使得数据间无法直接关联,成为了数据孤岛。基于手机号、身份证、邮箱、设备ID等信息,结合业务规则、机器学习、图算法等算法,进行 ID-Mapping,将各种 UID 都映射到统一ID上。通过这个统一ID,便可关联起各个数据孤岛的数据,实现数据通融,以确保业务分析、用户画像等数据应用的准确和全面。下面就来介绍一下主数据和OneID。

— 01 —

OneID 和主数据到底是不是一回事?

在阿里巴巴 OneData 体系中,OneID 指统一数据萃取,是一套解决数据孤岛问题的思想和方法。

如果单看这个定义,你一定也会和我一样懵逼,啥是数据萃取?解决数据孤岛问题,主数据不也是干这个事情的吗?

别急,我们慢慢分解,先来看 OneID 到底是干啥的。

OneID 也叫 ID-Mapping,就是将设备 ID(例如手机 MAC、IMEI、IMSI 等),手机号、身份证号、邮箱地址、PC 端的 Cookie,用户名等信息,结合标签体系、知识图谱、机器学习等技术和算法,将各种 ID 都映射到统一的 ID 上。也就是说不论用户用什么 ID 登陆,不论登陆的是 PC 端还是手机 APP,都能识别到他的一个唯一身份。

OneID 干的这个事情是不是和主数据有点类似?主数据也是给数据对象赋予一个唯一的编码(身份)。

但是,不得不承认,OneID 和主数据还是有很大区别的,如下:

第一,解决问题的环境不同。OneID 主要是解决 ToC 业务,不同渠道、不同数据来源的用户身份的统一映射和识别问题,例如:PC 端、移动 APP,微信小程序、相关应用系统等。而主数据是对相同数据对象进行标准化定义并赋予唯一编码,更多的是用 ToB 业务中,解决企业内部异构系统之间数据不一致问题。

第二,解决问题的“地点”不同。OneID 是把各类 UID 信息汇聚在一起,在一个地方进行加工和处理,最后形成统一的 Mapping 关系,阿里管这个地方叫做“数据中台”。而主数据强调的是从源头统一标准,定义唯一编码,各异构系统都依据统一的标准执行,映射关系是建立在各异构系统中的。

第三,解决问题的技术不同。OneID 是典型的 OLAP 技术,是在产生数据之后通过大数据分析、人工智能算法等技术将各种 UID 都映射到统一的 ID 上。而主数据是典型的 OLTP 技术,其本身是对数据的增删改查操作,例如客户主数据的定义和编码。

— 02 —

数据中台为什么需要 OneID?

接触过企业数据平台的人都会知道,数据孤岛是企业发展到一定阶段后普遍会遇到的问题。企业内部的各个部门、业务、产品,各自定义和存储其数据,使得这些数据间都是相互割裂、难以关联,从而真正变成“孤岛”一般的存在,在业务价值上很难发挥出更多作用。

普遍存在的数据孤岛现象,各部门用的平台不同,且数据不相通

OneID的建立,就是为了打通这种数据孤岛的现状,通过打通分散在各个平台的用户数据,整合客户全生命周期旅程,实现各平台存储的数据通融,从而提升业务效率和用户体验。

** ONEID的业务价值和数据管理价值**

业务价值:通过OneID贯穿客户生命周期,精准识别客户行为(浏览、留资、到店等行为轨迹),相当于为每一位用户量身定制了属于自己的完整的“身份和行为”的“名片”,为营销场景的落地(广告定投、精准推送、个性化推荐、增换购、流失预警等场景)和精益化运营的需要(精准客户数据分析、精准人群定位、精准圈层运营、经销商客户信息溯源等)提供支持。

数据管理价值:业务价值主要倾向于OneID对外为企业带来的营销便利、利润增长,数据管理价值主要倾向于对内形成的“互助”作用。OneID的构建有助于数据资产的沉淀,便于企业的数据管理、数据资产的可视化和可评估化等,同时,OneID还可满足其他平台的一些需求,如CDP平台、数据中台等,为其提供一定的支持。

总而言之,OneID的构建,是为了支撑各业务方管理决策及应用落地,从而达到提升业务效率及客户体验,且数据应用准确而全面的最终目的。

— 03 —

OneID 和主数据的实现原理

OneID 是对不同渠道、不同来源的的“ID”进行统一拉齐和打通,其实现原理如下:

图片

为了方便理解,这里给出的例子是比较简单的,但在实际实施过程中,其应用要复杂很多,例如:相同 ID 的值不一致怎么办,重复的 ID 如何合并,ID 信息发生变化如何更新,Mapping 表的更新频率如何设置等等,这些问题就需要结合具体场景解决了。

我们再来看看主数据管理(MDM)的工作原理

主数据管理强调在源头治理,即:在数据源系统定义实现主数据的标准化,生成唯一主数据编码,并通过主数据系统分发标准数据到相关消费系统进行使用,消费系统只有查询和使用权不能对主数据进行“增删改”。另外,不同主数据的来源系统不同,如在这个例子中的客户主数据来源为 CRM,物料主数据的来源为 MDM,ERP 系统和数据仓库是主数据的消费系统。

— 04 —

有了数据中台,还需要主数据吗?

在很多数据中台的解决方案中,主数据是数据中台的一个组成部分。例如在 SAP 的数字平台解决方案中,数据中台是由数据集成、数据存储、数据仓库、开发建模、数据资产管理、数据管控、人工智能与行业模版等多个部分组成。其中,数据管控模块中就包含了主数据治理,如下图:

很多人都有个疑问,数据中台中既包含了数据采集/数据移动的能力,也包含数据服务共享的能力,同时还具备元数据、数据质量、数据安全等数据治理能力,有了数据中台,为什么还需要主数据管理?

数据中台通过数据采集、清洗、治理,再以标准接口服务的形式提供出去,供其他系统调用,这确实是数据中台的核心能力。从功能的角度,主数据管理也的确有类似的功能,例如:主数据采集、主数据清洗、主数据服务等。

但是,我们之前也说过,主数据与数据中台解决的问题并不相同。

数据中台是在有了数据之后,在中台进行数据治理,形成数据资产并提供数据服务。而主数据更强调在数据产生之前定义数据标准,建立数据管理流程,并在数据产生的过程中对数据质量进行校验,从源头进行数据治理。

因此,相对于数据中台来讲,主数据管理是一个后台系统,它可以作为数据中台的一个数据源为数据中台供应高质量的数据。

设想一下:如果没有主数据管理,从各个异构系统中采集到数据中台的主数据(如:客户、产品、供应商等)将有不同的定义和编码,这就需要在数据中台对这些不一致的数据进行统一治理,这将是一件非常痛苦的事情,而且不能从源头上解决问题。因此在笔者看来,站在整体解决方案的角度,将主数据治理提前,对于传统企业来讲可能是不错的解决方案。

— 05 —

有了数据中台,还需要主数据吗?

主数据的核心目的是在单一业务领域中,各系统进行核心数据的统一,两个关键词: 业务系统和统一

One ID的核心目的是跨业务领域的数据连通,两个关键词:跨业务领域、连通。

所以,OneID是放大版的主数据,主数据可以作为OneID的输入。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据仓库
    +关注

    关注

    0

    文章

    58

    浏览量

    10399
  • 阿里
    +关注

    关注

    6

    文章

    428

    浏览量

    32695
收藏 人收藏

    评论

    相关推荐

    数据仓库的基本架构及架构图介绍

    本文开始介绍了什么是数据仓库以及数据仓库的用途,其次介绍了数据仓库分层的原因,最后介绍了数据仓库的架构图及理想的架构分析。
    的头像 发表于 02-11 10:08 5.9w次阅读
    <b class='flag-5'>数据仓库</b>的基本架构及架构图介绍

    什么是数据仓库数据仓库的优势分析

    数据仓库,有一个被广泛接受的定义:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的
    发表于 11-01 10:57 9406次阅读

    数据仓库解决方案的实施过程是什么?#数据仓库 #光点科技

    数据仓库
    光点科技
    发布于 :2023年06月19日 14:24:46

    数据之Hive数据仓库

    数据 Hive数据仓库
    发表于 03-19 11:10

    数据仓库建模理论的详细分析

    数据仓库建模理论——实体关系(ER)建模理论
    发表于 07-12 08:41

    数据仓库的概述以及创建步骤简介

    数据仓库(一)概述以及创建步骤简介
    发表于 06-09 16:44

    多版本数据仓库模型设计

    针对数据仓库多维模式结构的进化问题提出一种多版本数据仓库模型,给出模型结构、模型对象以及对象之间指派关系的定义。多版本数据仓库基于“版本控制”策略管理数据仓库
    发表于 04-21 09:39 0次下载

    电信数据仓库设计

    本文针对佳木斯电信的业务需求,设计了佳木斯电信数据仓库的总体架构,并以营业受理情况主题为例介绍了佳木斯电信数据仓库数据模型的设计过程。
    发表于 12-18 17:01 14次下载

    OLAP在电信数据仓库中的设计

    通过研究数据仓库在电信业务中的应用,论述电信领域数据仓库和部分联机分析处理的设计开发过程。综述数据仓库模型、联机分析处理(OLAP)模型、汇总表的设计以及开发中所要
    发表于 12-29 17:31 0次下载

    保护MySQL数据仓库的最佳实践

    数据仓库中最常见的数据库管理系统可能就是开源的MySQL数据库。以下5个小技巧重点介绍了一些保护MySQL数据仓库的最佳实践。 1.限制访问 确保MySQL
    发表于 09-27 14:10 0次下载

    数据仓库是什么_数据仓库的特点_数据仓库数据库区别

    本文开始介绍了数据仓库是什么,其次详细介绍了数据仓库的特点、数据仓库的基本架构与数据仓库用途,最后介绍了数据仓库的五大好处,阐述了
    的头像 发表于 02-11 10:42 2.4w次阅读
    <b class='flag-5'>数据仓库</b>是什么_<b class='flag-5'>数据仓库</b>的特点_<b class='flag-5'>数据仓库</b>与<b class='flag-5'>数据</b>库区别

    数据仓库是什么_数据仓库有什么特点_数据库和数据仓库区别分析

    数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。数据仓库是一个过程而不是一个项目。
    发表于 02-24 14:04 1.9w次阅读
    <b class='flag-5'>数据仓库</b>是什么_<b class='flag-5'>数据仓库</b>有什么特点_<b class='flag-5'>数据</b>库和<b class='flag-5'>数据仓库</b>区别分析

    数据仓库的模型设计

    本文详细介绍了关于数据仓库的模型设计,A. 数据建模方法论,B. 分层设计原则,C. 主题域设计方法。
    发表于 02-24 14:30 5681次阅读
    <b class='flag-5'>数据仓库</b>的模型设计

    如何搭建数据仓库

    数据仓库是所有产品的数据中心,公司体系下的所有产品产生的所有数据最终都流向数据仓库,可以说数据仓库不产生
    发表于 06-25 15:41 1961次阅读

    数据数据仓库应该如何建设

    互联网行业,除了数据量大之外,业务时效性要求也很高,甚至很多是要求实时的,另外,互联网行业的业务变化非常快,不可能像传统行业一样,可以使用自顶向下的方法建立数据仓库,一劳永逸,它要求新的业务很快能融入数据仓库中来,老的下线的业务
    发表于 03-10 16:37 820次阅读