0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中台下的数据质量问题

ss 来源:EAWorld 作者:刘庆会 2020-11-12 14:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当前越来越多的组织认识到了数据的重要性,为了发挥数据的价值,数据仓库、大数据平台、数据中台的建设如雨后春笋。但数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源。糟糕的数据质量常常意味着低效的、错误的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。如何在数据中台搭建数据质量管理体系,形成常态化的数据质量管理流程是决定数据中台运营应用的重要因素。

目录:

1.数据质量问题的产生来源

2.数据质量问题域及分类

3.数据质量管理体系建设的五个原则

4.数据质量管理框架及关键技术

5.数据质量管理的最佳实践

1、数据质量问题的产生来源

现在的数据集成融合就和古人筑堤坝一样,古人筑堤坝是为约束河水,让自然资源为我所用,发挥自然资源的价值;今人做数据集成融合,建数据中台,是为了挖掘数据价值,发挥数据资源的价值,让数据资源为企业的业务创新发挥价值。

在企业信息化初期,各类业务系统恣意生长,这个阶段就像没有修筑大堤前的黄河,河水虽然漫流,但是河道宽阔,虽然也有数据问题,但不明显。

在企业进行数字化转型的背景下,尤其是搭建了数据中台的组织,需要按照统一的结构和标准把各类数据集成起来,就像筑堤束水之后的黄河,泄流不畅、决口不断等问题纷纷出现,数据不一致、不完整、不准确等各种问题扑面而来。

大数据时代数据集成融合的需求会愈加迫切,不仅要融合企业内部数据,也要融合外部(互联网等)数据。如果没有对数据质量问题建立相应的管理策略和技术工具,那么数据质量问题的危害会更加严重。据IBM统计,数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上。

2、数据质量问题域及分类

数据质量问题从大的方面可以划分为技术、业务和管理问题域。技术问题域包括数据校验不够、默认值使用不当等问题,通常是由于系统建设和数据处理导致的。业务问题域细分为信息问题域和流程问题域,业务上存在多渠道数据创建、不合理的数据变更流程的问题。管理问题域包括数据责任人不明确、没有奖惩制度,缺少培训等。

下图是企业数据创建、加载、汇总、分析到展现的5个步骤,很显然,步骤①~⑤任何一步出错都会导致整个结论分析失真。

业务操作部门在数据录入过程可能输入错误的数据。这决定了数据源的质量。

在数据抽取、加载工程中导致数据记录丢失、数据重复等问题。

在数据加工、转换过程中,由于数据加工、转换的代码鲁棒性和稳定性不够,导致的数据加工结果出现的错误。

数据计算汇总过程中,导致的数据的错误。

分析展现工具将加工好的数据展现给数据分析人员、管理决策人员出现的错误。

在某种意义上讲,分析者所做出的决策的正确性来源于企业信息源的质量、数据仓库本身的质量、数据集市的质量以及数据仓库各过程的质量。我们可以看到,在数据应用过程中5步中有4步是技术或管理造成的,只有1步会是录入环节导致。而恰好是这一步是数据中台无法管理和解决的业务系统的数据。因此从根本上解决数据质量问题,从源头解决是最有效的途径,在辅助数据中台从技术和管理上加强测试、规范和监控,那么数据质量问题的解决就水到渠成了。

3、数据质量管理体系建设的五个原则

总结古人治理黄河水患,主要有两种策略,一种是“疏通”,上策迁移民众和中策分流黄河水患,都是具体体现;另一种是“围堵”,加高增厚堤防,抑制河水烂漫。

治理数据质量的问题可以应用下古人的智慧和考量。采用规划顶层设计,制定统一数据架构、数据标准,设计数据质量的管理机制,建立相应的组织架构和管理制度,采用分类处理的方式持续提升数据质量,这是数据质量管理“疏”的方式。而单纯依赖技术手段,通过增加ETL数据清洗处理逻辑的复杂度,使用数据质量工具来发现ETL数据处理中的问题属于“堵”的方式,只能解决表面的问题,不是根本的解决方法。事实上这种方式也在好多企业中使用,其根本目的在于提高ETL处理的准确度,做法无可厚非,毕竟找别人的问题之前,先要保证自身是没有问题的。

按照多个行业实施数据质量管理项目的经验,数据质量管理应该是采用“疏”和“堵”相结合的方式,通过这种方式解决数据质量问题有5个原则。如下图所示:

1)全程监控原则:全程监控是针对数据生命周期全过程中各环节进行数据质量监控,从数据的定义、录入、获取、计算、使用的全过程进行质量监控。数据定义阶段,对数据模型、字典枚举值进行监控,判断是否遵循了统一的标准。数据录入阶段对输入的合法性进行校验等,数据获取阶段对数据记录数、数据一致性进行检核等。明确各部门在数据全生命周期中的责任,全方位保证数据质量。

2)闭环管理原则:从问题定义、问题发现、问题整改、问题跟踪、效果评估5个方面建立问题处理的闭环机制。从业务、技术两个维度出发做问题定义,由工具自动发现问题,明确问题责任人,通过邮件、短信等方式进行通知,将问题及时通知到责任人,跟踪问题整改进度,建立相应的质量问题评估KPI,保证数据质量问题管理闭环。

3)全员参与原则:数据质量提升涉及到组织多个部门,包括不仅限于数据提供方、数据消费方、数据质量管理员等。尤其在数据质量问题定义和整改阶段需要多方人员的参与才能达到效果。在数据质量问题定义阶段,需要数据责任人、业务专家、数据使用人员对数据问题校验规则达成一致,共同制定数据检核范围、数据问题条件等。问题整改阶段,要由数据责任方、数据质量管理员和技术人员,共同定位问题原因并进行整改。

4)借助工具,自动检核:数据质量工具保证问题发现的效率。在数据使用过程中深入分析已发现的数据质量问题的成因,及时由IT部门将其转化为技术规则落地到系统中,通过技术手段自动检核数据质量问题,提升数据质量检核效率。数据质量工具在采集到的数据模型元数据的基础上,通过配置自动生成检核规则的脚本,并通过设置数据质量检核任务的运行周期,定时检核数据质量问题,并将数据质量问题数据保存到系统中,便于用户进行查看和定位问题。

5)提升意识、主动管理:数据质量管理工作需要提升全员数据质量意识,形成组织数据治理的文化氛围。数据使用方发现数据质量问题后,及时主动的进行问题的上报,避免数据问题对业务造成影响。数据责任人接到问题通知后,应主动配合数据管理部门进行问题整改。数据管理部门应该从事前预防数据问题出发,制定企业数据标准并加强宣贯,减少因为缺少统一的标准、规范导致数据质量问题。

4、数据质量管理框架及关键技术

在“五个原则”的指导下开展数据质量提升工作,从系统层面需要制定数据质量管理的功能框架。数据质量系统应具备数据质量规则管理、检核脚本管理、任务管理、检核结果管理、数据质量报告等功能,以度量规则和检核脚本管理为主线,通过自身任务管理模块或者第三方调度为触发点,帮助企业建立统一的数据质量管理工具。

从系统实现的角度上,要解决三个关键技术。

1、检核脚本的自动生成。数据质量检核实际上是按照脚本执行并筛选出有问题的数据。随着数据质量度量规则的增多,通过人为手工编写脚本的方式就无法应对快速增加的度量规则,通常一个中等规模的金融企业,就具备上千条度量规则。因此通过配置的方式,利用脚本生成引擎自动生成检核脚本,是数据质量工具必须具备的功能。

2、多线程检核架构。检核脚本的执行时间是影响能够及时查看到数据质量问题的另一个关键因素。在脚本执行过程中,需要采用多线程并发来执行保证在较短的时间内检核出有问题的数据。

3、数据质量报告。数据质量报告是对企业数据质量情况的总结分析,需要能够从不同维度系统、部门、检核类别等维度生成固定数据质量报告。还需要支持按照选择的数据质量规则,时间等条件,来生成个性化的数据质量报告。

5、数据质量管理的最佳实践

为实现数据质量的切实落地,推进数据质量问题的有效解决,某银行将数据质量问题考核作为重中之重,将数据质量问题解决效果与部门KPI挂钩,减小了数据质量整改的难度,为数据质量的推进提供驱动力,能够及时对发现的数据质量问题进行处理。该银行的数据质量工作开展,分为了三个阶段:

第一阶段:搭建数据质量系统。借助数据质量管理系统自动对数据仓库进行检核, 摸清数据质量情况,解决技术原因导致数据质量问题。

第二阶段:定位问题责任主体。将数据质量问题检核提前到业务系统中来,将问题数据所在分行业务数据录入人一并获取到数据质量管理平台,从而为数据质量问题的追本溯源奠定了技术基础。

第三阶段:成立数据质量考核评价小组。为保证已发现的业务原因导致的问题能得到有效地解决,设计出了分层级的考核体系,由数据质量考核评价小组对各家分行数据质量问题的解决情况进行打分,计入各家分行的KPI绩效考核中。

在后续数据质量系统的运行,开展对银行内部多个业务部门进行了考核,考核范围包括多个重要的业务系统,并检核出了各家分行的多项数据问题,大大提升了数据质量问题的修改率,整改的数据问题数据涉及到超过数千亿的贷款额度。

参考文献:

[1]DAMA-DMBOK2数据管理知识体系指南.机械工业出版社2020.5

[2]刘庆会.大数据是否值得信赖——浅谈商业银行如何提升数据质量 [EB/OL], 2016-04-14

[3] 贾让.治河三策千古鉴.河北水利,2016(2):36-36

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93959
  • 数据中心
    +关注

    关注

    16

    文章

    5515

    浏览量

    74642
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261456
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    电能质量问题:早发现、早解决

    本文导读电能质量好不好,国家有明确标准,但谐波、电压波动等这些问题难察觉。致远仪器深耕电力测试,PA系列功率分析仪和PA300系列功率计面对电能质量问题时,快速精准定位,守护生产安全与生活用电品质
    的头像 发表于 12-01 11:37 287次阅读
    电能<b class='flag-5'>质量问题</b>:早发现、早解决

    质量损失的数据迁移:Nikon SLM Solutions信赖3Dfindit企业版

    数据迁移,并从另外两个应用获益:战略性零部件管理和ECAD集成。作为金属增材制造集成解决方案的全球供应商,该公司被认为是选区激光熔化技术的先驱。其创新技术被广泛应用于各行各业,包括汽车、能源、工具
    发表于 11-25 10:06

    电能质量问题对新能源设备有哪些危害?

    电压暂降(有效值降至标称值 10%~90%)、暂升(110%~180%)是新能源场景最常见的电能质量问题,对依赖电力电子设备(逆变器、变流器)的新能源系统危害最直接。
    的头像 发表于 10-18 10:47 648次阅读

    医疗半导体新能源半导体等行业电能质量问题如何解决

    一、什么是电能质量 电能质量是指电力系统电能的质量。理想的电能应该是电参数波形为完美的对称正弦波。一些因素会使波形偏离对称正弦,由此便产生了电能
    的头像 发表于 10-16 14:14 159次阅读
    医疗半导体新能源半导体等行业电能<b class='flag-5'>质量问题</b>如何解决

    有哪些常见的电能质量问题可能影响电能质量在线监测装置的准确性?

    常见的电能质量问题(如谐波、电压暂降 / 暂升、频率偏差等)会通过 “干扰采样信号、破坏电路稳定、影响算法同步”,直接或间接降低电能质量在线监测装置的准确性,核心影响装置的 “信号采集、模数转换
    的头像 发表于 10-13 17:55 677次阅读

    使用电能质量问题缓解方案保护水处理厂的电力基础设施

    受到诸如谐波失真、电压缺口、电压骤降和暂升以及电气噪声之类电能质量 (PQ) 问题的影响。这些电能质量问题会导致效率低下、停机和设备损坏。 电能质量问题缓解设备可解决水处理厂的问题。驱动隔离变压器、硬接线稳压器、电力线调节器、浪
    的头像 发表于 10-01 15:18 1716次阅读
    使用电能<b class='flag-5'>质量问题</b>缓解方案保护水处理厂的电力基础设施

    数据台对接QMS质量管理系统方案

    通过数之能数据台,实现与QMS质量管理系统的无缝对接,为企业提供高效、准确的质量数据支持,助力企业提升质量管理水平和生产效率。 系统架构
    的头像 发表于 09-29 15:55 364次阅读
    <b class='flag-5'>数据</b><b class='flag-5'>中</b>台对接QMS<b class='flag-5'>质量</b>管理系统方案

    有哪些常见的电能质量问题

    电能质量问题本质是电网电压、电流、频率的稳定性或波形完整性偏离标准,导致用电设备无法正常工作或寿命缩短。常见问题可按 “稳态问题(长期持续)” 和 “瞬态问题(短期突发)” 分类,覆盖从电网供电到
    的头像 发表于 09-25 15:15 1273次阅读
    有哪些常见的电能<b class='flag-5'>质量问题</b>?

    不同的电能质量问题对装置数据验证频率有何影响?

    不同电能质量问题的 发生频率、危害程度、数据稳定性及监测需求紧迫性 存在显著差异,这些特性直接决定了专项型电能质量在线监测装置的数据验证频率。以下将按常见电能
    的头像 发表于 09-04 17:20 612次阅读
    不同的电能<b class='flag-5'>质量问题</b>对装置<b class='flag-5'>数据</b>验证频率有何影响?

    有哪些工具可以辅助进行电能质量在线监测装置的数据验证?

    辅助电能质量在线监测装置数据验证的工具可分为标准源设备、现场校验仪器、数据分析软件、自动化测试平台四大类,覆盖从信号模拟、实时监测到数据验证的全流程。以下结合行业实践与搜索资源,详细说
    的头像 发表于 09-04 12:07 369次阅读
    有哪些工具可以辅助进行电能<b class='flag-5'>质量</b>在线监测装置的<b class='flag-5'>数据</b>验证?

    电能质量问题层出不穷,造成设备损坏,威胁人身安全?安科瑞这套解决方案堪称“用电救星”!

    一、电能质量问题:不容忽视的用电隐患 在现代工业和生活,稳定、可靠的电能供应是保障各类电气设备正常运行的基础。电能质量,这一衡量电力系统电能品质的关键指标,直接关系到电力系统的安全
    的头像 发表于 06-25 15:35 488次阅读
    电能<b class='flag-5'>质量问题</b>层出不穷,造成设备损坏,威胁人身安全?安科瑞这套解决方案堪称“用电救星”!

    电能质量问题为何必须解决?|从监测到治理的完整成本分析

    70%的电能质量问题源于企业内部!本文深度解析电压暂降、谐波等问题的真实成本,揭示如何通过IEC 61000-4-30 A级监测定位风险源头,平衡运维成本与系统韧性。Dranetz HDPQ系列助您从被动应对转向主动防御。
    的头像 发表于 05-22 14:18 314次阅读

    新能源并网、数据中心、工厂生产等电能质量问题有哪些现象?

    一、现象 电能质量是指电力系统电能的质量,理想状态下,电能应具有恒定的频率和幅值,且电压波形为正弦。然而,在实际的电力系统运行,受到多种因素影响,会产生各类电能
    的头像 发表于 05-20 10:51 518次阅读

    为什么90%的工厂质量问题频发?MES质量管理这样做

    在制造业,产品质量是企业生存和发展的核心要素。然而,许多工厂仍然面临质量问题频发的困扰,导致客户投诉、返工成本增加,甚至品牌声誉受损。据统计,‌90%的工厂质量问题并非源于单一因素,
    的头像 发表于 04-03 10:54 699次阅读
    为什么90%的工厂<b class='flag-5'>质量问题</b>频发?MES<b class='flag-5'>质量</b>管理这样做

    PCBA加工常见质量问题揭秘:焊接不良与解决方案

    一站式PCBA智造厂家今天为大家讲讲PCBA加工的常见质量问题有哪些?PCBA加工的常见质量问题及解决方案。在电子制造行业,PCBA(
    的头像 发表于 12-13 09:28 1326次阅读