侵权投诉

指标监控体系如何建设

数据分析与开发 2021-09-26 10:39 次阅读

对于数据人尤其是数据产品和分析师,最难排查(头疼)的问题就是指标为什么升/降/没数,一旦业务方提出这种问题就意味着有大半天的时间要花在确认指标口径+计算逻辑+埋点采集上,而且要同时跟业务方、分析师、数据产品、数仓甚至是负责埋点的开发沟通,所以对于业务达到一定复杂度和指标达到一定量级的情况下,采用人肉运维的方式显然是事倍功半的,搭建一套指标监控体系来保证产出数据的时效性和数据质量才是正解。

由于搭建指标监控体系要做的工作实在太多,本文我们重点讨论几个场景,在这些场景下我们数据产品经理能够发挥哪些作用。

以一个实际场景case举例,聊聊当数据出现异常波动时监控体系是如何发挥其作用的。

业务小李同学发现,昨天App首页的人均停留时长日环比上涨了40%,于是小李找到分析师和数据产品询问指标下降的原因。

此类问题相信各位数据人都不陌生,大家的反应都是先和业务确认最近是否产品有过升级或者策略调整,如果没有的话就要排查数据流转的各个环节是否有问题,以下图为路线,我们分析在这些环节是否能前置的做些监控和定位工作。

01

数据同步

不管是埋点数据和还是业务数据,最终都是以一张张日志表的形式同步到数仓ODS层,如果是数据同步有缺失,可以查看数据拉取服务、埋点日志解析、ETL等过程是否异常,可以将上述注意点整理一个checklist,做成任务每天例行检查,能做到对以上异常情况的定位也就初步完成了数据同步环节的监控。数仓同学经排查并未看到执行失败的任务,可以确定数据同步环节是正常的。

02

调度监控

其实调度监控和任务管理有着很密切的联系,最终目的都是为了把这些任务有序的运行起来,调度系统的设计可以重点考虑以下几个特性:

98debede-1245-11ec-8fb8-12bb97331649.jpg

那么如何通过产品化的形式展示当前任务的调度状态呢?一般大家都会选择用血脉图来展示,数据产品在设计血脉图的展现形式时,可以考虑不仅能展示作业组、节点、表名、字段名、运行状态等,还要考虑能将业务实体,也就是指标与调度信息进行关联。 当然能做到这个粒度依托与数仓治理的程度,如果数仓规范和治理做的没那么精细,我们可以抓重点来做:比如梳理一些重要指标的调度关系,先把这些重要指标的调度监控做起来,这样也是比较容易看到成效的。

此时我们查看血脉图可以看到总停留时长这个指标是执行成功状态,且依赖的作业也是执行成功的状态,而我们要排查的人均停留时长指标是总停留时长指标的派生指标,这样我们可以得出结论并非是调度任务出现问题,接下来可以排查是否是运行指标的任务出了问题。

03

任务管理

看到这儿会发现我们越来越接近指标层了,而随着指标数量越来越多、指标口径越来越复杂,就会出现下面令人头疼的问题:

----任务不能在计划时间内完成

----下游依赖的任务已经执行了但上游任务还没跑完,这时候没有数据下游任务报错

----两个任务并行执行影响数据结果

排查任务错误原因越来越麻烦、各种依赖关系越来越复杂、最后排查问题就要从一团团乱麻中理出已跟麻绳。

而为了保证指标产出的准确性,就必须要求生成这些指标的任务按照上下游依赖有序进行,最终能确保按时生成指标。

为了保证指标产出的监控性,要做到对导入任务的监控,具体有支持查看导入任务的执行纪录、执行状态、失败原因等,这样当指标数据未产出时可以通过导入任务的执行状态来分析问题。

而为了保证指标的时效性我们可以配置指标负责人、运维人员、SLA来保证,当任务执行时间超过SLA触发报警机制。

接下来回到我们排查人均停留时长这个问题,已知他的原子指标总停留时长的作业是没问题的,那么我们分析这个指标的计算逻辑:

人均停留时长=总停留时长/DAU

我们看到上游产出DAU的任务失败了,后经开发排查,是因为DAU的表里有个小时表执行失败了,导致DAU算的数据偏少,进而人均停留时长数据异常增长。

04

指标检验

最后就是对指标数据进行检验,在导入任务执行完产出数据后,如何验证产出的数据符合预期呢?我们可以给指标的波动范围设计阈值(一般是日环比和周同比的形式),关于阈值如何设定,有的团队可能采用业务方提供的波动值来作为阈值,但这种判断容易受主观思维影响,从数据的角度出发可以考虑取以往的指标波动均值作为参考阈值,这样我们在阈值的设定上是比较科学的。

如果是业务调整带来的波动,那在计划调整的时候肯定是有个预期的波动值,我们只需要在调整后及时在报表展示平台添加好提示,同时也检查下数据波动和业务的预期是否一致,这样也会降低一些因业务调整带来的口径波动解释成本

在指标校验环节我们发现人均停留时长这个指标已经超过了设置的20%的阈值,所以业务同学收到了报警,然后就开始了我们文章一开始出现的那一幕。

指标监控体系看似是对指标的监控,实际上是对整个数据生产流程的监控,但本文只是简单的讲了这几个环节,排查实际问题中并不只是这些环节会有问题,比如数据同步环节发现解析到的埋点日志很少,那么我们要排查是否埋点出现异常;调度监控除了血脉图还有元数据管理平台等等。。。

总之数据采集到数据可视化是个漫长且复杂的链路,对于企业级的指标监控系统,这些事还远远不够,不同公司面临的困难不一样,方法也不一样,思考如何制定适合自己业务和技术现状的监控方案,这样才能更好的落地实施。

编辑:jq

原文标题:浅谈如何建设指标监控体系

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

特斯拉Q3财报显示利润率高出天际,赚钱不靠“卖碳”了

10月22日,特斯拉如期公布了Q3财报,虽然马斯克没有出席财报会议,但这次会议带来的信息足以震撼各大....
的头像 电子发烧友网 发表于 10-27 10:41 89次 阅读

oppo开发者大会2021时间表

2021 OPPO开发者大会于10月27日在上海举办,在OPPO开发者大会上,将为开发者和创作者分享....
的头像 lhl545545 发表于 10-27 09:25 78次 阅读

怎样向DS1302时钟芯片写入数据和读取数据呢

怎样向DS1302时钟芯片写入数据和读取数据呢?
发表于 10-27 07:55 0次 阅读

“饭圈女孩”: 拥有这款APP,你离爱豆更进一步!

Ins,是越来越多国内、国外明星们日亦喜爱的东西,如同许多国外名人开通微博一样。开通ins账号,也是....
发表于 10-26 15:20 24次 阅读
“饭圈女孩”: 拥有这款APP,你离爱豆更进一步!

易路:PeopleAnalytics的发展趋势及对HR的启示

本文由易路人力资源科技特邀作者Jeff Luo原创 作者简介:罗粤海Jeff,英国杜伦大学 (Dur....
的头像 话说科技 发表于 10-26 14:29 114次 阅读
易路:PeopleAnalytics的发展趋势及对HR的启示

彭松深入定义了C.A.F模型 构建联接竞争力创造新增长

第七届全球超宽带高峰论坛(Ultra-Broadband Forum 2021)在迪拜开幕。期间,华....
的头像 华为数据通信 发表于 10-26 14:16 127次 阅读

浅析C++基础语法梳理之网络编程中Socket

Socket Linux Socket 编程(不限 Linux) Socket 中的 read()、....
的头像 C语言编程学习基地 发表于 10-26 10:10 211次 阅读
浅析C++基础语法梳理之网络编程中Socket

浅析C++基础语法之计算机网络中传输层(TCP&UDP)

运输层 协议: TCP(Transmission Control Protocol,传输控制协议) ....
的头像 C语言编程学习基地 发表于 10-26 10:07 114次 阅读
浅析C++基础语法之计算机网络中传输层(TCP&UDP)

分析 | 顶象iOS应用加固,如何助力App上架苹果商城

当前,中国经济正在转入高质量发展阶段,基于新一代信息技术飞速发展带来的引领性基础,以及创新驱动、高质....
的头像 话说科技 发表于 10-26 09:58 145次 阅读
分析 | 顶象iOS应用加固,如何助力App上架苹果商城

如何将python打包后的exe还原成py

用到的工具 pyinstxtractor.py 拆包(解压)工具,将exe文件解压成一个文件夹 un....
的头像 马哥Linux运维 发表于 10-26 09:56 114次 阅读
如何将python打包后的exe还原成py

如何抓住这种需求激增所带来的物联网市场机会

  随着技术的发展,连网设备的数量正在迅速增加。事实上,据估计,目前每秒钟有 127 台新设备连接到....
的头像 物联网智慧城市D1net 发表于 10-26 09:10 310次 阅读

如何通过FEDOT将AutoML用于时间序列数据?

如何通过FEDOT将AutoML用于时间序列数据? 如何通过时间序列预测的现实世界任务了解FEDOT的核心正在发生什么? ...
发表于 10-26 07:37 0次 阅读

如何选择异常检测算法

异常检测(也称为离群点检测)是检测异常实例的任务,异常实例与常规实例非常不同。这些实例称为异常或离群....
的头像 Imagination Tech 发表于 10-25 09:15 152次 阅读

什么是双向数据绑定?

什么是双向数据绑定? 什么是Object.definePropety? ...
发表于 10-25 07:21 0次 阅读

华为开发者大会2021智能硬件开发—正确的数据分级分类

2021年10月22日~24日,华为将在中国松山湖举行2021华为开发者大会,聚焦鸿蒙系统、智能家居....
的头像 汽车玩家 发表于 10-23 15:21 157次 阅读
华为开发者大会2021智能硬件开发—正确的数据分级分类

华为开发者HarmonyOS零基础入门:UI组件设计开发实践

华为开发者HarmonyOS零基础入门:UI组件设计开发实践之图库应用介绍,应用数据加载显示模型图片....
的头像 lhl545545 发表于 10-23 10:58 198次 阅读
华为开发者HarmonyOS零基础入门:UI组件设计开发实践

华为开发者HarmonyOS零基础入门:系统能力调用示例

华为开发者HarmonyOS零基础入门:系统能力调用示例,修改组件属性页面加载参数接收数据连接,优化....
的头像 lhl545545 发表于 10-23 10:44 219次 阅读
华为开发者HarmonyOS零基础入门:系统能力调用示例

分布式锁三个属性和两大类

“分布式锁”这个问题快被说烂了,奈何笔者实在没有找到一个满意的答案,故记录自己寻找答案、总结的过程。....
的头像 数据分析与开发 发表于 10-22 17:30 291次 阅读

埋点实践过程中遇到的一些问题

埋点本身现在已经有太多的集成解决方案,神策、诸葛IO、GIO,但是在实践的过程中仍然还是会碰都很多问....
的头像 数据分析与开发 发表于 10-22 16:33 243次 阅读

支持数据转发和基于FPGA的图像处理卸载的图像采集卡

单输入至四输入的CoaXPress 2.0图像采集卡,支持数据转发和基于FPGA的图像处理卸载 用于....
的头像 广州虹科电子科技有限公司 发表于 10-22 10:38 832次 阅读
支持数据转发和基于FPGA的图像处理卸载的图像采集卡

思迈特软件Smartbi:数据看板搭建的常见错误分析

但在实际工作中,由于拉新、留存、转化分别由市场、产品、运营三个部门负责,用户增长数据分隔在三个部门的....
发表于 10-22 10:37 37次 阅读

北明软件参加华为开发者大会2021

据消息,北明软件参加华为开发者大会2021,北明软件将通过“软件定义世界,数据驱动未来”愿景,全方位....
的头像 lhl545545 发表于 10-22 09:31 313次 阅读

NVIDIA为轻量级地图和精确感知提供高性能计算

NVIDIA DRIVE Orin为轻量级地图和精确感知提供高性能计算。 自动驾驶卡车需要减轻绘制地....
的头像 NVIDIA英伟达企业解决方案 发表于 10-22 09:26 193次 阅读

怎样去提取基于视频流的兴趣HOG特征呢

怎样去提取基于视频流的兴趣HOG特征呢?其具体原理是什么?...
发表于 10-22 06:01 0次 阅读

浅析数据分析之指标设计

数据指标,并不是数据分析和业务同学的专属模块。日常会用到数据指标的,还包括开发(比如机器资源利用率,....
的头像 数据分析与开发 发表于 10-21 14:27 219次 阅读

数据分析如何中看又中用?送你一套方案大大提升工作效率

相信大多数永洪BI的用户都和我有着同一个苦恼,报告做得越来越复杂后,要找到某个组件变难了。只能点击到....
发表于 10-21 10:16 94次 阅读
数据分析如何中看又中用?送你一套方案大大提升工作效率

GPIB仪器控制设备使用GPIB接口将仪器集成到系统中

NI 致力于为半导体、电子、交通运输、航空航天与国防、学术等诸多领域的客户提供服务,主要产品包括数据....
的头像 易络盟电子 发表于 10-20 17:28 356次 阅读

曙光政务数据中台系统江苏工信厅重点首版产品公示

近日,江苏省工业和信息化厅发布了“2021年江苏省重点领域首版次软件产品征集拟推广首版次软件产品名单....
的头像 中科曙光 发表于 10-20 16:36 390次 阅读

快讯:张一鸣身价594亿美元超马化腾 互联网公司校招名额大幅增加

张一鸣身价594亿美元超马化腾        互联网的江湖一直动荡不休,互联网首富的位置也是被几大巨....
发表于 10-20 16:21 125次 阅读

简述ElasticSearch的实现

1.近实时搜索 1.1 实时与近实时 实时搜索(Real-time Search)很好理解,对于一个....
的头像 马哥Linux运维 发表于 10-20 14:45 295次 阅读

字节承认商业化团队撤城裁员

近日互联网巨头企业字节跳动公司承认商业化团队撤城裁员,字节跳动负责的抖音、头条等热门字节系App的广....
的头像 lhl545545 发表于 10-20 11:04 424次 阅读

探究超大Transformer语言模型的分布式训练框架

NVIDIA Megatron 是一个基于 PyTorch 的框架,用于训练基于 Transform....
的头像 NVIDIA英伟达企业解决方案 发表于 10-20 09:25 372次 阅读

一种通过配方功能实现简单高效控制的方法解析

1 前言 物联网的应用大多基于对各种数据的采集和控制,而一般的工程项目中产生的数据数量都很庞大,若是....
的头像 广州虹科电子科技有限公司 发表于 10-20 09:13 438次 阅读
一种通过配方功能实现简单高效控制的方法解析

气体传感器BME688常见问题

在使用传感器的过程中,你是否有很多问号 ——在采样时需要强制空气进入BME688吗? ——由于数据是....
的头像 Bosch Sensortec 发表于 10-19 17:36 369次 阅读
气体传感器BME688常见问题

紫光集团重整最新消息:已确认千亿债权规模

天眼查数据显示,紫光集团公司已经于近日正式开始重整,并已确定债权规模1081.81亿元。并且在未来集....
的头像 lhl545545 发表于 10-19 14:47 719次 阅读

华为刘康:出面向5.5G目标网络架构 以电信云原生为基础

[阿联酋,迪拜,2021年10月13日] 今日,第六届5G核心网峰会(5G Core Summit ....
的头像 华为云核心网 发表于 10-19 14:41 333次 阅读

Web Bluetooth可以应用在哪些方面

Web Bluetooth是一种JavaScript API。Web Bluetooth使用PC、C....
的头像 Dialog半导体公司 发表于 10-19 10:53 283次 阅读

人工智能如何影响工业物联网

■ 或许这就是为什么在没有IIoT提供关键帮助的情况下,企业很难在工业4.0带来的大规模数字转型中能....
的头像 贸泽电子 发表于 10-19 10:31 1452次 阅读

雷诺汽车使用深度学习网络估计 NOx 排放量

雷诺汽车构建并训练了一个长短期记忆 (LSTM) 网络,该网络预测 NOx 水平的准确率达到了 85....
的头像 MATLAB 发表于 10-19 10:12 277次 阅读

技术和架构选择比以往更重要

在后疫情时代当企业开始尝试复兴和以全新的面貌示人,有一点变得显而易见:技术和架构选择比以往更重要。 ....
的头像 英特尔FPGA 发表于 10-19 09:56 239次 阅读

如何用所学的鸿蒙知识做一个小应用

   今时今日,不管是大人,还是小孩,都喜欢刷视频,生活中刷视频的 APP 也多得是,如:抖音,快手....
的头像 HarmonyOS技术社区 发表于 10-19 09:23 232次 阅读

教你怎样去搜索淘宝API app店

教你怎样去搜索淘宝API app店?
发表于 10-19 09:01 0次 阅读

我国特高压交直流混联大电网正式运行

近年来,我国逐步形成特高压交直流混联大电网。可满足大容量直流和大规模新能源接入后提高电网仿真精度和效....
的头像 lhl545545 发表于 10-18 17:34 1062次 阅读

多功能移动环境监测仪的概述及特点

多功能移动环境监测仪介绍FT-BQX10 【风途】山东风途物联网科技有限公司气象站系列有FT-BQX....
发表于 10-18 16:57 68次 阅读

数据中台建设的价值和意义

让数据用起来,产生业务价值是数据中台建设的第一优先级。至于这个用起来的过程是否是自动化的,是否有大数....
发表于 10-18 16:52 59次 阅读

微信回应崩了 微信或将推出深度清理新功能

 今天上午微信大部分用户反映称微信图片打不开、已经无法收发图片、文件,目前微信官方已经对此做出回复称....
的头像 lhl545545 发表于 10-18 16:45 595次 阅读

字节跳动推出自主研发的BVC1S编解码器

近日,字节跳动公司宣布正式推出自主研发的关于屏幕内容视频编解码器BVC1S,编码速度在远程办公、云游....
的头像 lhl545545 发表于 10-18 11:44 367次 阅读

武汉大学发布全球首款基于RISC-V高精度室内定位音频芯片

近日武汉大学发布了全球首款基于RISC-V高精度室内定位音频芯片,首次突破了卫星信号精准测距等三大技....
的头像 lhl545545 发表于 10-18 10:58 1354次 阅读

用在解析云端数据的源码是怎样的

用在解析云端数据的源码是怎样的?如何去实现这种源码呢? ...
发表于 10-18 09:00 0次 阅读

华为创新性地推出“5G新通话”解决方案

在北京国家会议中心举行的2021年中国国际信息通信展览会上,由中国通信企业协会发起的“ICT中国(2....
的头像 华为云核心网 发表于 10-15 17:27 528次 阅读

华为发布SD-WAN逐包负载分担方案 提升带宽利用率

华为SD-WAN逐包负载分担方案,提升带宽利用率至90%,让您的广域网络更加高效。
的头像 华为产品资料 发表于 10-15 16:44 411次 阅读

教大家如何减小微量水分策略的结果中的误差

微量水分测定仪采用卡尔——菲休库仑法,对不同物质进行微量水分测定,是一种可靠的方法,微量水分测定仪成....
发表于 10-15 16:39 34次 阅读

详解工业液体密度测试步骤

业液体通常需要进行液体密度的测试来加以控制品质。行业内的测试仪就是搏仕的液体密度测试仪了。下面将演示....
发表于 10-15 16:27 30次 阅读

音频电路原理(双音频解码电子电路/TDA2822双声道功放电路/音频放大处理电路)

双音多频信号解码电路是目前在按键电话(固定电话、移动电话)、程控交换机及无线通信设备中广泛应用的集成....
发表于 10-15 16:08 1344次 阅读
音频电路原理(双音频解码电子电路/TDA2822双声道功放电路/音频放大处理电路)

浅析压敏(热敏)陶瓷粉末水分测试实验报告

厦门搏仕检测设备有限公司  www.lboshi.cn 18959266236 陶瓷粉末水分含量介绍....
发表于 10-15 15:57 35次 阅读

探究塑料颗粒密度测试仪实验报告

密度计品牌:搏仕 型号:BOS-300系列 测试品:塑料颗粒 塑料种类纷多,密度值各不相同,如PP料....
发表于 10-15 15:47 31次 阅读

交换模式与路由模式有哪些异同点

交换模式是什么?路由模式又是什么? 交换模式与路由模式有哪些异同点? ...
发表于 10-15 09:35 0次 阅读

设计基于STM32+机智云的手机APP点灯遇到哪些问题

设计基于STM32+机智云的手机APP点灯遇到哪些问题?怎样去解决?...
发表于 10-14 07:55 0次 阅读

ARM架构的数据类型定义是什么

ARM架构的数据类型定义是什么? 局部变量和全局变量是什么意思? ...
发表于 10-09 06:32 0次 阅读

常量和变量有哪些区别

引用和拷贝有什么区别? 常量和变量有哪些区别? ...
发表于 10-08 08:42 0次 阅读