0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

指标监控体系如何建设

数据分析与开发 来源:一个数据分析人的自留地 作者: 图图 2021-09-26 10:39 次阅读

对于数据人尤其是数据产品和分析师,最难排查(头疼)的问题就是指标为什么升/降/没数,一旦业务方提出这种问题就意味着有大半天的时间要花在确认指标口径+计算逻辑+埋点采集上,而且要同时跟业务方、分析师、数据产品、数仓甚至是负责埋点的开发沟通,所以对于业务达到一定复杂度和指标达到一定量级的情况下,采用人肉运维的方式显然是事倍功半的,搭建一套指标监控体系来保证产出数据的时效性和数据质量才是正解。

由于搭建指标监控体系要做的工作实在太多,本文我们重点讨论几个场景,在这些场景下我们数据产品经理能够发挥哪些作用。

以一个实际场景case举例,聊聊当数据出现异常波动时监控体系是如何发挥其作用的。

业务小李同学发现,昨天App首页的人均停留时长日环比上涨了40%,于是小李找到分析师和数据产品询问指标下降的原因。

此类问题相信各位数据人都不陌生,大家的反应都是先和业务确认最近是否产品有过升级或者策略调整,如果没有的话就要排查数据流转的各个环节是否有问题,以下图为路线,我们分析在这些环节是否能前置的做些监控和定位工作。

01

数据同步

不管是埋点数据和还是业务数据,最终都是以一张张日志表的形式同步到数仓ODS层,如果是数据同步有缺失,可以查看数据拉取服务、埋点日志解析、ETL等过程是否异常,可以将上述注意点整理一个checklist,做成任务每天例行检查,能做到对以上异常情况的定位也就初步完成了数据同步环节的监控。数仓同学经排查并未看到执行失败的任务,可以确定数据同步环节是正常的。

02

调度监控

其实调度监控和任务管理有着很密切的联系,最终目的都是为了把这些任务有序的运行起来,调度系统的设计可以重点考虑以下几个特性:

98debede-1245-11ec-8fb8-12bb97331649.jpg

那么如何通过产品化的形式展示当前任务的调度状态呢?一般大家都会选择用血脉图来展示,数据产品在设计血脉图的展现形式时,可以考虑不仅能展示作业组、节点、表名、字段名、运行状态等,还要考虑能将业务实体,也就是指标与调度信息进行关联。 当然能做到这个粒度依托与数仓治理的程度,如果数仓规范和治理做的没那么精细,我们可以抓重点来做:比如梳理一些重要指标的调度关系,先把这些重要指标的调度监控做起来,这样也是比较容易看到成效的。

此时我们查看血脉图可以看到总停留时长这个指标是执行成功状态,且依赖的作业也是执行成功的状态,而我们要排查的人均停留时长指标是总停留时长指标的派生指标,这样我们可以得出结论并非是调度任务出现问题,接下来可以排查是否是运行指标的任务出了问题。

03

任务管理

看到这儿会发现我们越来越接近指标层了,而随着指标数量越来越多、指标口径越来越复杂,就会出现下面令人头疼的问题:

----任务不能在计划时间内完成

----下游依赖的任务已经执行了但上游任务还没跑完,这时候没有数据下游任务报错

----两个任务并行执行影响数据结果

排查任务错误原因越来越麻烦、各种依赖关系越来越复杂、最后排查问题就要从一团团乱麻中理出已跟麻绳。

而为了保证指标产出的准确性,就必须要求生成这些指标的任务按照上下游依赖有序进行,最终能确保按时生成指标。

为了保证指标产出的监控性,要做到对导入任务的监控,具体有支持查看导入任务的执行纪录、执行状态、失败原因等,这样当指标数据未产出时可以通过导入任务的执行状态来分析问题。

而为了保证指标的时效性我们可以配置指标负责人、运维人员、SLA来保证,当任务执行时间超过SLA触发报警机制。

接下来回到我们排查人均停留时长这个问题,已知他的原子指标总停留时长的作业是没问题的,那么我们分析这个指标的计算逻辑:

人均停留时长=总停留时长/DAU

我们看到上游产出DAU的任务失败了,后经开发排查,是因为DAU的表里有个小时表执行失败了,导致DAU算的数据偏少,进而人均停留时长数据异常增长。

04

指标检验

最后就是对指标数据进行检验,在导入任务执行完产出数据后,如何验证产出的数据符合预期呢?我们可以给指标的波动范围设计阈值(一般是日环比和周同比的形式),关于阈值如何设定,有的团队可能采用业务方提供的波动值来作为阈值,但这种判断容易受主观思维影响,从数据的角度出发可以考虑取以往的指标波动均值作为参考阈值,这样我们在阈值的设定上是比较科学的。

如果是业务调整带来的波动,那在计划调整的时候肯定是有个预期的波动值,我们只需要在调整后及时在报表展示平台添加好提示,同时也检查下数据波动和业务的预期是否一致,这样也会降低一些因业务调整带来的口径波动解释成本

在指标校验环节我们发现人均停留时长这个指标已经超过了设置的20%的阈值,所以业务同学收到了报警,然后就开始了我们文章一开始出现的那一幕。

指标监控体系看似是对指标的监控,实际上是对整个数据生产流程的监控,但本文只是简单的讲了这几个环节,排查实际问题中并不只是这些环节会有问题,比如数据同步环节发现解析到的埋点日志很少,那么我们要排查是否埋点出现异常;调度监控除了血脉图还有元数据管理平台等等。。。

总之数据采集到数据可视化是个漫长且复杂的链路,对于企业级的指标监控系统,这些事还远远不够,不同公司面临的困难不一样,方法也不一样,思考如何制定适合自己业务和技术现状的监控方案,这样才能更好的落地实施。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6504

    浏览量

    87445
  • APP
    APP
    +关注

    关注

    33

    文章

    1517

    浏览量

    71565
  • SLA
    SLA
    +关注

    关注

    1

    文章

    49

    浏览量

    18181

原文标题:浅谈如何建设指标监控体系

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    某市配网配电室环境智能监控系统建设探索与实践分析

    摘要: 配电室内温湿度等环境因素直接影响到室内设备的安全可靠运行,结合某市配网配电室管理现状介绍了环境智能监控系统建设的可行性,详细闸述了系统试点建设方案。实践证明该方案实现了配电室运行环境实时监测
    发表于 01-09 16:30

    动环监控方案建设智慧机房

    预警的智能监控系统。旨在提高机房运行的可靠性和稳定性,降低运维成本,实现绿色节能,具备快速响应和恢复能力,整体提升机房的运维管理能力,将机房建设成智慧机房。 监控对象:温湿度、烟感、水浸、门禁、红外、市电、
    的头像 发表于 09-13 17:24 250次阅读

    网络安全体系基础架构建设

    网络安全体系基础架构建设知识    
    的头像 发表于 09-11 09:36 1226次阅读
    网络安全<b class='flag-5'>体系</b>基础架构<b class='flag-5'>建设</b>

    零信任体系化能力建设(2):设备风险与安全监控

    ,并采取一系列安全措施,以确保只有健康合规的设备才能访问组织资源,保护企业的敏感数据和资源免受潜在的安全威胁。 本文主要从设备相关的安全能力建设入手,讨论资产和供应链的风险管理、设备合规监控、资源访问授权和终端威
    的头像 发表于 08-17 10:57 223次阅读
    零信任<b class='flag-5'>体系</b>化能力<b class='flag-5'>建设</b>(2):设备风险与安全<b class='flag-5'>监控</b>

    CoreSight性能监控单元架构

    体系结构包括当计数器达到阈值时产生中断的机制。 在CoreSight性能监视单元体系结构中,事件计数器是单调增加的。但是,在某些情况下,PMU提供监控器来测量组成部分例如,监控器可能在
    发表于 08-09 07:20

    ARM系统监控框架体系结构规范

    包含一个简短的介绍,以帮助读者。与体系结构兼容的实现必须 遵守本规范中的所有规则。 一些体系结构规则伴随着解释为什么指定体系结构的基本原理陈述 事实就是这样。基本原理陈述用字母X表示。 有些部分
    发表于 08-02 10:55

    安铁成解读《国家车联网产业标准体系建设指南(智能网联汽车)(2023版)》

    7月26日,工业和信息化部、国家标准化管理委员会联合发布《国家车联网产业标准体系建设指南(智能网联汽车)(2023版)》(以下简称“《建设指南》”)。这是继2018版《国家车联网产业标准体系
    的头像 发表于 07-27 17:10 432次阅读
    安铁成解读《国家车联网产业标准<b class='flag-5'>体系</b><b class='flag-5'>建设</b>指南(智能网联汽车)(2023版)》

    64核RSIC-V高性能处理器公共测试云平台 · Benchmark体系建设一期

    高性能计算机整体性能指标等。 目前云平台上已经移植了三项Benchmark测试:Stream、UnixBench、CoreMark-PRO。更多测试项目和体系建设正在进行,并正在招聘实习生,欢迎参与(可加微信iYuta-R2进一
    的头像 发表于 07-20 14:30 513次阅读
    64核RSIC-V高性能处理器公共测试云平台 · Benchmark<b class='flag-5'>体系</b><b class='flag-5'>建设</b>一期

    295.监控知识体系:41.3 监控原理 #硬声创作季

    监控
    充八万
    发布于 :2023年07月12日 14:29:29

    293.监控知识体系:41.1 课程概况

    监控
    充八万
    发布于 :2023年07月12日 13:45:18

    294.监控知识体系:41.2 为什么要监控 #硬声创作季

    监控
    充八万
    发布于 :2023年07月12日 13:44:08

    喜报 | 软通动力中标水发集团司库体系建设项目

    近日, 软通动力成功中标 水发集团有限公司简称(“水发集团”)司库体系建设项目 ,正式成为水发集团司库信息系统建设的合作伙伴。双方将在国资发财评规〔2022〕1号文件的指导下,共同探索具有水发集团
    的头像 发表于 07-06 18:55 864次阅读
    喜报 | 软通动力中标水发集团司库<b class='flag-5'>体系</b><b class='flag-5'>建设</b>项目

    医疗监控系统有哪些 医疗监控体系的构成

    医疗监控体系通常由多个组成部分组成,以实现对医疗设备、患者生理参数和医院运营等方面的监控和管理。
    发表于 06-29 16:48 1905次阅读

    集创北方持续提升品质管理体系建设

    产品质量是一个企业的核心抓手,也是企业的安身立命之本。集创北方一直以来都十分重视产品质量保证和质量管理体系建设。今年,公司紧跟市场环境的变化,对品控部的角色重新定位,将品控部由服务者转化为交付协同
    的头像 发表于 04-27 17:30 798次阅读
    集创北方持续提升品质管理<b class='flag-5'>体系</b>化<b class='flag-5'>建设</b>

    智能变电站辅助监控系统

    随着智能电网建设的全面开展以及“三集五大”体系改革的提出,特别是“大检修”、“大运行”管理体系建设的逐步开展和智能化变电站的推广建设,变电站
    发表于 04-06 14:28 3次下载
    智能变电站辅助<b class='flag-5'>监控</b>系统