0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据分析过程中几个可能常见的陷阱

数据分析与开发 来源:木木自由 作者:木兮月宝 2021-09-23 16:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前言 很多的数据分析人员往往太过于去关注数据或者分析方法论等,尤其是对于刚入门的,在解读数据过程中,受到数据来源、采集方法、统计口径、分析方法、业务经验、思考方式等因素影响,就会出现一些容易忽视的“陷阱”,以致于得出的结果很可能出现偏差。所以,重视数据分析是好的,但也千万不能掉进数据分析的“陷阱”里。

那么,本文我们将从业务层面的视角,来探讨和梳理在数据分析过程中几个可能常见“陷阱”,目的是主要给刚入门的、产品、运营等提供一些有益经验分享,帮助大家在实际工作场景中遇到这些情况的时候,可以尽量规避一些不太注意的“陷阱”。

1

不了解数据来源,不确保数据的正确性

在数据分析中更注重的是分析,而并不是数据本身,这就造成了数据分析最大的陷阱:不了解数据来源,不确保数据的正确性,就开始分析了。因此,数据分析的第一步就是了解数据来源,确保数据准确性。 比如,一个考勤软件的App在做渠道投放,上线了新版的落地页。

上线了一段时间数据稳定后,业务人员从数据发现,此某个渠道的落地页点击率、转化率等数据相比其他渠道的投放的效果高出很多,从数据中,可以看到说明这个渠道来的用户效果很好,以后就要加大这个渠道的投放。然而,突然接到技术人员的反馈,在数据埋点的时候不小心埋错了,导致统计数据出现问题,这个渠道的数据是其他两个渠道总和! 因为错误的数据,得出了错误的分析结果,并且还做了后续错误决策。由此可见,有效数据分析的前提,是对正确的数据做分析。尤其是在小公司的人员,没有强大的数据团队,可能就会借用各种各种第三方的统计软件来做数据埋点,此时首要确认数据的正确性,去梳理数据来源。

2

需求不匹配,分析目的不明确

梳理了数据来源,确保数据的准确性,是前提。那么接下来就是需要明确分析目的,分析目的明确了,后面的各种统计数据和分析方法以及分析结果才有意义。当明确目的后,才有后续的分析思路。 比如,一个考勤软件的App的业务人员提出转化率较低,是否有优化的空间的需求。

然而我们并没有进一步的确认是哪个环节转化率低,就开始直接拉取数据进行分析,其实业务人员说的是新用户会员成单的转化率,是不是来源不精准,能否优化渠道或者停止投放,而我们得到的需求不明确,沟通的时候也未能进一步的明确分析目的,就是直接拉取各个环节的转化率,导致拉取的数据与原始问题不匹配。

因此,根据业务方的需求,首先要明确为什么要做数据分析,要解决什么问题,也就是分析的目的。然后针对分析目的,搭建分析框架,选择分析方法和具体分析指标,以及明确抽取哪些数据,用到哪些图表等分析思路,只有对分析目的有清晰的认识,才会避开为分析而分析的误区,分析的结果和过程就越有价值。

3

未清理数据,数据采集出现偏差

在了解数据来源、确保了准确性、明确分析需求后,下一步就是数据采集和数据清洗了,这也是最容易出问题的环节,有些问题甚至非常隐蔽难以发现。因此,数据本身没有观点,分析时不能预设观点,只倾向于那些能够支持自己的观点的数据,并在数据清洗中,合理的识别数据容量大小、剔除脏数据。

注意选择性偏见或者幸存者偏见。总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。基于这个原理,我们便可以采用随机抽样的方式来对整体样本中的一个小群体进行分析,得出的结论是会比较接近真实情况的。但是你采集数据的过程是否是真的随机。

比如,在一个考勤软件APP应用升级期间,通过衡量用户的日活、留存率、活跃企业数等指标,来判断用户对新版本的喜欢是否优于老版本。但这里实际就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户。

这批用户在这些指标上,本来表现就是优于一般用户的,因此指标数据更高并不能说明更好。 注意数据样本容量不够。我们在分析某特定的用户行为数据时,可能用户使用很少的情况。或者是在提取数据的过程中,增加了很多的限制条件或者多种用户行为或属性进行交叉后,得到很少的用户样本。

此时,得出的分析结果未必可信。因为大数定律,只有当数据量达到一定程度后,才能反映出特定的规律。但是样本容量多少才算合理,通常只能是具体问题具体分析。 比如,在一个考勤软件APP应用新上了学习打卡的新功能,但由于前期无预算做推广,导致新功能只有在小部分老用户群体中曝光,因此,从数据中来判断此功能并不受欢迎。

但这里实际就存在数据样本容量不够,并不能说明问题。因此,遇到这种情况,建议可以把时间线拉长,这样可能会获得足量的样本。还有一种做法是,将不重要的限定条件去掉,也可以增大样本数。注意存在脏数据。脏数据是指严重不合理或对于实际业务毫无意义的数据,通常是由程序bug、第三方攻击、人为等原因造成的。这种数据对指标的准确度影响较大。

比如,我们要分析在一个考勤软件APP中各个企业类型打卡规则的分布情况,而用于分析用户打卡视角中,有较多是个人打卡并不是我们要分析的目标群体或者有人的工种的特殊性,就会造成打卡规则的分布不规则的情况,容易造成对用户喜好的误判。因此,对脏数据的清洗和处理,也是数据分析人员日常工作中非常重要的一部分。在分析具体业务时,也要针对特定业务,过滤掉异常数据,来确保拥有比较好的数据质量。

4

指标不合理,数据具备时效性

清洗完数据后,下一步就需要明确分析的数据指标,进行数据分析,其数据分析的结果通常是各种各样的指标,每个指标都有自己的统计逻辑,反映的事物的某些方面的本质。 比如,很多时候我们会使用平均值来描述一组数据的集中趋势。

我们在制定业务阈值时,也经常会参考平均值。但是,有些业务场景不适合使用平均值。就像变化比较大,存在极端值的数据,或者是对最终结果影响不一致的数据。这种时候,你就要考虑其他指标,如加权平均值、百分位数、小数值合并后再求平均值。 因此,在进行数据分析时,如果不能选择正确的指标,也可能会走入误区,从而得出错误的结论。数据是具备一定的时效性,不同情况下的数据,一些曾经的数据可能不再适用,需要找到新的数据指标。

5

套用方法论,分析结论不严谨

明确好数据分析指标,接下来就是通过各种数据分析方法来分析数据,得出结论,支持业务决策。数据分析方法论是对一个数据分析项目的整体工作起到指导作用的思路模型。然而,在数据分析学习时或许习惯了各种解题套路,但实操时其实并不存在通用的分析套路。

不同的行业、不同的业务,不同的阶段,哪怕用的是同一种分析方法结论都应有所区别。 比如,在实际工作场景中,数据分析需要对数据表现作出快速判断,进而指导运营决策,并不像学术研究那样严谨,不需要在每次分析前都去验证样本群体是否符合某种统计分布等,实际工作中,考验得更多的是对业务的理解的把握能力。

所以,在开展数据分析工作过程中,不能完全依赖过往的类似案例以及分析方法,而应重视业务的理解。 因此,每一次分析,应该结合业务场景中思考,更不能被各种套路方法论给束缚住,也不能简单依赖过往的类似案例。

6

轻视业务,与实际场景脱节

数据不等同与实际场景,实际场景往往比数据更加复杂,分析时需要了解具象化的场景,而不是抽象的数据,数据分析初学者极易犯的错误,只懂工具不懂业务不能真正理解业务需求。好的分析人员需要既懂工具又懂业务,也要多去一线了解业务运作,帮助解决业务运营中遇到的各种问题。

比如,结构化思维模型、KANO分析模型、RFM模型、四象限模型。。。。。。这些经典且广泛应用的模型。来积累丰富的数据分析模型库以应对各种业务场景。 因此,数据分析人员结合实际业务场景,需要具体问题具体分析,服务于业务的应用。及时与企业各部门沟通,共享数据分析的成果,这样才能体现数据分析的真正价值。所以作为数据分析人员,要结合业务需求,保持独立思考的心态,大胆假设,小心求证,警惕和避免走进数据分析的陷阱。

总结

实际工作生活中,还有很多需要我们注意的关于数据分析的事项,这里就不一一开展,本文只是从业务层面的视角梳理了关于数据分析各个环节中可能存在的引发误导的一些陷阱。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • APP
    APP
    +关注

    关注

    33

    文章

    1589

    浏览量

    75639
  • 数据分析
    +关注

    关注

    2

    文章

    1506

    浏览量

    35936
  • Kano模型分析法

    关注

    0

    文章

    2

    浏览量

    1451

原文标题:警惕!数据分析的陷阱?

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    经营数据分析可以通过哪些方式

    在数聚股份看来,提起经营数据分析,大家往往会联想到一些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”本身是每个人都具备的能力,对于业务决策者而言,
    的头像 发表于 12-05 16:31 353次阅读

    电磁兼容与电磁干扰在电磁兼容性大数据分析的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析的智能管理系统
    的头像 发表于 09-17 14:58 373次阅读
    电磁兼容与电磁干扰在电磁兼容性大<b class='flag-5'>数据分析</b><b class='flag-5'>中</b>的智能管理平台

    电磁兼容与电磁干扰在电磁兼容性大数据分析的智能管理系统

    电磁兼容与电磁干扰在电磁兼容性大数据分析的智能管理系统
    的头像 发表于 09-17 14:42 587次阅读
    电磁兼容与电磁干扰在电磁兼容性大<b class='flag-5'>数据分析</b><b class='flag-5'>中</b>的智能管理系统

    构建自定义电商数据分析API

      在电商业务数据是驱动决策的核心。随着数据量的增长,企业需要实时、灵活的分析工具来监控销售、用户行为和库存等指标。一个自定义电商数据分析
    的头像 发表于 07-17 14:44 398次阅读
    构建自定义电商<b class='flag-5'>数据分析</b>API

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 497次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    电商API常见错误排查指南:避免集成陷阱

      在电商平台开发,API集成是连接系统、实现数据交换的核心环节。然而,许多开发者在集成过程中常遇到错误,导致项目延迟、数据丢失或用户体验下降。本文将逐步介绍
    的头像 发表于 07-11 14:21 1792次阅读
    电商API<b class='flag-5'>常见</b>错误排查指南:避免集成<b class='flag-5'>陷阱</b>

    PLC在使用过程中常见的技术故障分析及维护

    PLC(可编程逻辑控制器)在使用过程中常见的技术故障分析及维护措施如下: 一、常见技术故障分析 1. 外围电路元器件故障 ● 故障描述:在PLC控制回路
    的头像 发表于 04-23 17:06 1082次阅读
    PLC在使用<b class='flag-5'>过程中常见</b>的技术故障<b class='flag-5'>分析</b>及维护

    必看!15个C语言常见陷阱及避坑指南

      C语言虽强大,但隐藏的“坑”也不少!稍不留神就会导致程序崩溃、数据异常。本文整理15个高频陷阱,助你写出更稳健的代码!   陷阱1:运算符优先级混淆  问题:运算符优先级不同可能
    的头像 发表于 03-16 12:10 1376次阅读

    量水堰计在使用过程中会遇到哪些常见的故障?

    量水堰计作为一种常用的水位测量仪器,在水文监测、水资源管理等领域发挥着重要作用。然而,在实际使用过程中,由于各种因素的影响,量水堰计可能会出现一些故障,影响其正常运行和测量精度。南京峟思将给大家介绍
    的头像 发表于 02-20 14:20 603次阅读
    量水堰计在使用<b class='flag-5'>过程中</b>会遇到哪些<b class='flag-5'>常见</b>的故障?

    智能焊接数据分析设备提升工业效率与精度

    如何通过数据采集、分析与应用,实现对焊接过程的精确控制,从而提升工业生产的整体水平。 首先,智能焊接数据分析设备的核心在于其强大的数据
    的头像 发表于 01-15 14:11 664次阅读

    智能焊接数据分析设备提升制造精度与效率

    随着工业4.0的推进,智能制造成为制造业转型升级的重要方向。在这一过程中,焊接技术作为机械制造的关键环节,其精度和效率直接影响到产品的质量与生产成本。传统的焊接方式依赖于人工操作,存在焊接质量
    的头像 发表于 01-14 09:36 740次阅读

    SMT生产过程中常见缺陷

    SMT(表面贴装技术)生产过程中常见的缺陷主要包括以下几种,以及相应的解决方法: 一、元件立碑(Manhattan效应) 缺陷描述 : 元器件在回流焊过程中发生倾斜或翻倒,导致元器件的一端或两端翘起
    的头像 发表于 01-10 18:00 3193次阅读

    Mathematica 在数据分析的应用

    数据分析是现代科学研究和商业决策不可或缺的一部分。随着数据量的爆炸性增长,对数据分析工具的需求也在不断增加。Mathematica,作为一种强大的计算软件,以其独特的符号计算能力和广
    的头像 发表于 12-26 15:41 1077次阅读

    使用TSS721过程中,只能接收数据不能发送数据怎么解决?

    在使用TSS721过程中,只能接收数据,不能发送数据。手册写会有自发自收的现象,这个现象该怎么样解决呢?
    发表于 12-17 06:33

    ADS1299+RK3399在数据采样的过程中,有数据丢失的情况怎么解决?

    我们在数据采样的过程中,发现有数据丢失的情况,通过逻辑分析仪发现,出现数据丢失时,时序存在问题。具体见下图: 从图中可以看出,DRDY出
    发表于 12-16 06:58