0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

指标监控体系如何建设

数据分析与开发 来源:一个数据分析人的自留地 作者: 图图 2021-09-26 10:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对于数据人尤其是数据产品和分析师,最难排查(头疼)的问题就是指标为什么升/降/没数,一旦业务方提出这种问题就意味着有大半天的时间要花在确认指标口径+计算逻辑+埋点采集上,而且要同时跟业务方、分析师、数据产品、数仓甚至是负责埋点的开发沟通,所以对于业务达到一定复杂度和指标达到一定量级的情况下,采用人肉运维的方式显然是事倍功半的,搭建一套指标监控体系来保证产出数据的时效性和数据质量才是正解。

由于搭建指标监控体系要做的工作实在太多,本文我们重点讨论几个场景,在这些场景下我们数据产品经理能够发挥哪些作用。

以一个实际场景case举例,聊聊当数据出现异常波动时监控体系是如何发挥其作用的。

业务小李同学发现,昨天App首页的人均停留时长日环比上涨了40%,于是小李找到分析师和数据产品询问指标下降的原因。

此类问题相信各位数据人都不陌生,大家的反应都是先和业务确认最近是否产品有过升级或者策略调整,如果没有的话就要排查数据流转的各个环节是否有问题,以下图为路线,我们分析在这些环节是否能前置的做些监控和定位工作。

01

数据同步

不管是埋点数据和还是业务数据,最终都是以一张张日志表的形式同步到数仓ODS层,如果是数据同步有缺失,可以查看数据拉取服务、埋点日志解析、ETL等过程是否异常,可以将上述注意点整理一个checklist,做成任务每天例行检查,能做到对以上异常情况的定位也就初步完成了数据同步环节的监控。数仓同学经排查并未看到执行失败的任务,可以确定数据同步环节是正常的。

02

调度监控

其实调度监控和任务管理有着很密切的联系,最终目的都是为了把这些任务有序的运行起来,调度系统的设计可以重点考虑以下几个特性:

98debede-1245-11ec-8fb8-12bb97331649.jpg

那么如何通过产品化的形式展示当前任务的调度状态呢?一般大家都会选择用血脉图来展示,数据产品在设计血脉图的展现形式时,可以考虑不仅能展示作业组、节点、表名、字段名、运行状态等,还要考虑能将业务实体,也就是指标与调度信息进行关联。 当然能做到这个粒度依托与数仓治理的程度,如果数仓规范和治理做的没那么精细,我们可以抓重点来做:比如梳理一些重要指标的调度关系,先把这些重要指标的调度监控做起来,这样也是比较容易看到成效的。

此时我们查看血脉图可以看到总停留时长这个指标是执行成功状态,且依赖的作业也是执行成功的状态,而我们要排查的人均停留时长指标是总停留时长指标的派生指标,这样我们可以得出结论并非是调度任务出现问题,接下来可以排查是否是运行指标的任务出了问题。

03

任务管理

看到这儿会发现我们越来越接近指标层了,而随着指标数量越来越多、指标口径越来越复杂,就会出现下面令人头疼的问题:

----任务不能在计划时间内完成

----下游依赖的任务已经执行了但上游任务还没跑完,这时候没有数据下游任务报错

----两个任务并行执行影响数据结果

排查任务错误原因越来越麻烦、各种依赖关系越来越复杂、最后排查问题就要从一团团乱麻中理出已跟麻绳。

而为了保证指标产出的准确性,就必须要求生成这些指标的任务按照上下游依赖有序进行,最终能确保按时生成指标。

为了保证指标产出的监控性,要做到对导入任务的监控,具体有支持查看导入任务的执行纪录、执行状态、失败原因等,这样当指标数据未产出时可以通过导入任务的执行状态来分析问题。

而为了保证指标的时效性我们可以配置指标负责人、运维人员、SLA来保证,当任务执行时间超过SLA触发报警机制。

接下来回到我们排查人均停留时长这个问题,已知他的原子指标总停留时长的作业是没问题的,那么我们分析这个指标的计算逻辑:

人均停留时长=总停留时长/DAU

我们看到上游产出DAU的任务失败了,后经开发排查,是因为DAU的表里有个小时表执行失败了,导致DAU算的数据偏少,进而人均停留时长数据异常增长。

04

指标检验

最后就是对指标数据进行检验,在导入任务执行完产出数据后,如何验证产出的数据符合预期呢?我们可以给指标的波动范围设计阈值(一般是日环比和周同比的形式),关于阈值如何设定,有的团队可能采用业务方提供的波动值来作为阈值,但这种判断容易受主观思维影响,从数据的角度出发可以考虑取以往的指标波动均值作为参考阈值,这样我们在阈值的设定上是比较科学的。

如果是业务调整带来的波动,那在计划调整的时候肯定是有个预期的波动值,我们只需要在调整后及时在报表展示平台添加好提示,同时也检查下数据波动和业务的预期是否一致,这样也会降低一些因业务调整带来的口径波动解释成本

在指标校验环节我们发现人均停留时长这个指标已经超过了设置的20%的阈值,所以业务同学收到了报警,然后就开始了我们文章一开始出现的那一幕。

指标监控体系看似是对指标的监控,实际上是对整个数据生产流程的监控,但本文只是简单的讲了这几个环节,排查实际问题中并不只是这些环节会有问题,比如数据同步环节发现解析到的埋点日志很少,那么我们要排查是否埋点出现异常;调度监控除了血脉图还有元数据管理平台等等。。。

总之数据采集到数据可视化是个漫长且复杂的链路,对于企业级的指标监控系统,这些事还远远不够,不同公司面临的困难不一样,方法也不一样,思考如何制定适合自己业务和技术现状的监控方案,这样才能更好的落地实施。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93971
  • APP
    APP
    +关注

    关注

    33

    文章

    1589

    浏览量

    75640
  • SLA
    SLA
    +关注

    关注

    1

    文章

    54

    浏览量

    18694

原文标题:浅谈如何建设指标监控体系

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    WAPI技术引领!部队仓储信息化建设方案打造安全智能后勤保障体系

    一个先进的仓储体系,不仅需要坚实可靠的硬件设施作为物理承载,更需要智能协同的软件平台作为指挥中枢。以下是某部仓储信息化建设方案在软硬件建设层面的深度解析。 一、 全域感知的物联网硬件体系
    的头像 发表于 12-01 16:15 72次阅读

    有方科技分享重庆市物联感知体系建设

    基于一体化智能化公共数据平台,依托“一网统管”总体架构,构建市区两级物联感知体系,实现全重庆市物联感知类设备和数据的统一接入、统一管理、统一应用,形成市、区、镇街物联感知态势一张网。
    的头像 发表于 11-14 09:03 446次阅读
    有方科技分享重庆市物联感知<b class='flag-5'>体系</b><b class='flag-5'>建设</b>

    电能质量在线监测装置本地服务器性能监控的频率应该如何设置?

    电能质量在线监测装置本地服务器性能监控的频率,需遵循 “ 核心指标高频抓、非核心指标低频扫、特殊场景动态调 ” 的原则,结合指标变化速度、故障影响程度、
    的头像 发表于 11-05 10:16 370次阅读
    电能质量在线监测装置本地服务器性能<b class='flag-5'>监控</b>的频率应该如何设置?

    怎样确定实时校验机制的验证指标

    核心目标,结合远程校准的实际风险(如传输错误、恶意篡改、电磁干扰)和电力行业标准,制定可量化、可验证的指标体系。以下是具体的指标确定方法与逻辑: 一、核心原则:指标确定的 3 个底层逻辑 在设定
    的头像 发表于 10-11 17:03 693次阅读

    芯盾时代助力中国电子建设智能身份安全防护体系

    芯盾时代中标中国电子信息产业集团有限公司(简称:中国电子)!芯盾时代基于零信任安全理念,为中国电子建设覆盖全集团业务的智能身份安防护体系,有效提升集团的身份安全防线。
    的头像 发表于 09-03 18:00 1174次阅读

    从精准采集到智慧赋能:物联网平台打造新一代气象监控体系

    分析“团雾+车流密集”的风险。 物联网平台的核心突破,在于通过跨设备数据关联技术,打破传感器、终端设备的数据孤岛,构建“多源数据融合-智能分析-场景落地”的全链路体系,让气象监控从“单一指标监测”转向“多维度协同决
    的头像 发表于 08-27 15:45 351次阅读

    Linux企业网络安全防护体系建设

    构建完整的Linux安全防护体系不是简单的工具堆砌,而是需要从架构设计、监控告警、应急响应到持续改进的完整闭环。本文将分享我在大型企业环境中的实战经验。
    的头像 发表于 08-27 14:39 506次阅读

    软通动力中标日照银行司库体系建设项目

    软通动力成功中标日照银行股份有限公司(以下简称“日照银行”)“司库体系建设项目”,正式成为日照银行在司库体系建设领域的合作伙伴。这是继渤海银行、杭州银行、湖北银行之后,软通动力在半年内
    的头像 发表于 08-25 16:03 566次阅读

    政策解读:一文搞懂建设零碳园区核心要点

    当前国家发展改革委、工业和信息化部、国家能源局已出台多项政策文件明确零碳园区建设要求,形成“顶层设计—专项通知—配套措施”的政策体系 专项指导性文件《关于开展零碳园区建设的通知》指出: 明确
    的头像 发表于 08-15 16:29 530次阅读
    政策解读:一文搞懂<b class='flag-5'>建设</b>零碳园区核心要点

    微型气象站系统:为智慧气象建设和应急管理体系现代化提供关键技术支撑

    微型气象站系统:为智慧气象建设和应急管理体系现代化提供关键技术支撑【WX-PQX6】不仅简化了传统气象监测流程、降低了成本,更通过云平台数据管理(支持多设备登录、曲线分析、数据导出)和远程监控功能,推动气象服务向智能化、移动化升
    的头像 发表于 08-13 14:47 506次阅读
    微型气象站系统:为智慧气象<b class='flag-5'>建设</b>和应急管理<b class='flag-5'>体系</b>现代化提供关键技术支撑

    如何构建高可用Prometheus监控体系

    在云原生时代,传统监控工具已经无法满足微服务架构的复杂需求。Prometheus凭借其Pull模式、多维数据模型和强大的查询语言PromQL,成为了CNCF毕业项目中的监控标杆。
    的头像 发表于 08-01 09:10 618次阅读

    广凌标准化考场建设方案:监控摄像头构筑考试公平的 “数字天眼”

    在教育考试数字化转型的浪潮中,广凌科技(广凌股份)依托AI+5G + 区块链三位一体技术体系,打造了全场景覆盖、全流程管控、全数据融合的标准化考场建设方案。作为该方案的核心硬件,监控摄像头以星光级
    的头像 发表于 06-11 17:09 912次阅读
    广凌标准化考场<b class='flag-5'>建设</b>方案:<b class='flag-5'>监控</b>摄像头构筑考试公平的 “数字天眼”

    芯盾时代助力企业数据安全体系建设

    2023年以来,我国5G、人工智能等技术创新持续取得突破,数据要素市场加快建设,数字经济产业体系不断完善,数字经济全要素生产率巩固提升,支撑了我国新质生产力的积累壮大。
    的头像 发表于 03-07 14:26 669次阅读

    城市地下综合管廊智能互联运营监控系统建设研究

    随着智慧城市的发展以及国家对城市基础设施建设的加大投入,地下综合管廊的建设力度将进一步加大。建立一套地下综合管廊智能互联运营监控系统,可为城市地下综合管廊提供更加及时、有效、智能的运营管理,这有助于提升智慧城市基础设施
    的头像 发表于 02-06 09:00 818次阅读
    城市地下综合管廊智能互联运营<b class='flag-5'>监控</b>系统<b class='flag-5'>建设</b>研究

    鸿利智汇ISO 56005国际标准体系建设项目启动

    日前,鸿利智汇在广州总部召开ISO 56005《创新与知识产权管理》体系建设项目启动会。鸿利智汇副总裁、财务总监赵军,董事、副总裁丁鹏,以及项目组相关成员参加了会议。
    的头像 发表于 12-27 16:27 813次阅读