0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据分析过程中几个可能常见的陷阱

数据分析与开发 来源:木木自由 作者:木兮月宝 2021-09-23 16:26 次阅读

前言 很多的数据分析人员往往太过于去关注数据或者分析方法论等,尤其是对于刚入门的,在解读数据过程中,受到数据来源、采集方法、统计口径、分析方法、业务经验、思考方式等因素影响,就会出现一些容易忽视的“陷阱”,以致于得出的结果很可能出现偏差。所以,重视数据分析是好的,但也千万不能掉进数据分析的“陷阱”里。

那么,本文我们将从业务层面的视角,来探讨和梳理在数据分析过程中几个可能常见“陷阱”,目的是主要给刚入门的、产品、运营等提供一些有益经验分享,帮助大家在实际工作场景中遇到这些情况的时候,可以尽量规避一些不太注意的“陷阱”。

1

不了解数据来源,不确保数据的正确性

在数据分析中更注重的是分析,而并不是数据本身,这就造成了数据分析最大的陷阱:不了解数据来源,不确保数据的正确性,就开始分析了。因此,数据分析的第一步就是了解数据来源,确保数据准确性。 比如,一个考勤软件的App在做渠道投放,上线了新版的落地页。

上线了一段时间数据稳定后,业务人员从数据发现,此某个渠道的落地页点击率、转化率等数据相比其他渠道的投放的效果高出很多,从数据中,可以看到说明这个渠道来的用户效果很好,以后就要加大这个渠道的投放。然而,突然接到技术人员的反馈,在数据埋点的时候不小心埋错了,导致统计数据出现问题,这个渠道的数据是其他两个渠道总和! 因为错误的数据,得出了错误的分析结果,并且还做了后续错误决策。由此可见,有效数据分析的前提,是对正确的数据做分析。尤其是在小公司的人员,没有强大的数据团队,可能就会借用各种各种第三方的统计软件来做数据埋点,此时首要确认数据的正确性,去梳理数据来源。

2

需求不匹配,分析目的不明确

梳理了数据来源,确保数据的准确性,是前提。那么接下来就是需要明确分析目的,分析目的明确了,后面的各种统计数据和分析方法以及分析结果才有意义。当明确目的后,才有后续的分析思路。 比如,一个考勤软件的App的业务人员提出转化率较低,是否有优化的空间的需求。

然而我们并没有进一步的确认是哪个环节转化率低,就开始直接拉取数据进行分析,其实业务人员说的是新用户会员成单的转化率,是不是来源不精准,能否优化渠道或者停止投放,而我们得到的需求不明确,沟通的时候也未能进一步的明确分析目的,就是直接拉取各个环节的转化率,导致拉取的数据与原始问题不匹配。

因此,根据业务方的需求,首先要明确为什么要做数据分析,要解决什么问题,也就是分析的目的。然后针对分析目的,搭建分析框架,选择分析方法和具体分析指标,以及明确抽取哪些数据,用到哪些图表等分析思路,只有对分析目的有清晰的认识,才会避开为分析而分析的误区,分析的结果和过程就越有价值。

3

未清理数据,数据采集出现偏差

在了解数据来源、确保了准确性、明确分析需求后,下一步就是数据采集和数据清洗了,这也是最容易出问题的环节,有些问题甚至非常隐蔽难以发现。因此,数据本身没有观点,分析时不能预设观点,只倾向于那些能够支持自己的观点的数据,并在数据清洗中,合理的识别数据容量大小、剔除脏数据。

注意选择性偏见或者幸存者偏见。总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。基于这个原理,我们便可以采用随机抽样的方式来对整体样本中的一个小群体进行分析,得出的结论是会比较接近真实情况的。但是你采集数据的过程是否是真的随机。

比如,在一个考勤软件APP应用升级期间,通过衡量用户的日活、留存率、活跃企业数等指标,来判断用户对新版本的喜欢是否优于老版本。但这里实际就隐藏了选择性偏见,因为新版本发布时,第一批升级上来的用户往往就是最活跃的用户。

这批用户在这些指标上,本来表现就是优于一般用户的,因此指标数据更高并不能说明更好。 注意数据样本容量不够。我们在分析某特定的用户行为数据时,可能用户使用很少的情况。或者是在提取数据的过程中,增加了很多的限制条件或者多种用户行为或属性进行交叉后,得到很少的用户样本。

此时,得出的分析结果未必可信。因为大数定律,只有当数据量达到一定程度后,才能反映出特定的规律。但是样本容量多少才算合理,通常只能是具体问题具体分析。 比如,在一个考勤软件APP应用新上了学习打卡的新功能,但由于前期无预算做推广,导致新功能只有在小部分老用户群体中曝光,因此,从数据中来判断此功能并不受欢迎。

但这里实际就存在数据样本容量不够,并不能说明问题。因此,遇到这种情况,建议可以把时间线拉长,这样可能会获得足量的样本。还有一种做法是,将不重要的限定条件去掉,也可以增大样本数。注意存在脏数据。脏数据是指严重不合理或对于实际业务毫无意义的数据,通常是由程序bug、第三方攻击、人为等原因造成的。这种数据对指标的准确度影响较大。

比如,我们要分析在一个考勤软件APP中各个企业类型打卡规则的分布情况,而用于分析用户打卡视角中,有较多是个人打卡并不是我们要分析的目标群体或者有人的工种的特殊性,就会造成打卡规则的分布不规则的情况,容易造成对用户喜好的误判。因此,对脏数据的清洗和处理,也是数据分析人员日常工作中非常重要的一部分。在分析具体业务时,也要针对特定业务,过滤掉异常数据,来确保拥有比较好的数据质量。

4

指标不合理,数据具备时效性

清洗完数据后,下一步就需要明确分析的数据指标,进行数据分析,其数据分析的结果通常是各种各样的指标,每个指标都有自己的统计逻辑,反映的事物的某些方面的本质。 比如,很多时候我们会使用平均值来描述一组数据的集中趋势。

我们在制定业务阈值时,也经常会参考平均值。但是,有些业务场景不适合使用平均值。就像变化比较大,存在极端值的数据,或者是对最终结果影响不一致的数据。这种时候,你就要考虑其他指标,如加权平均值、百分位数、小数值合并后再求平均值。 因此,在进行数据分析时,如果不能选择正确的指标,也可能会走入误区,从而得出错误的结论。数据是具备一定的时效性,不同情况下的数据,一些曾经的数据可能不再适用,需要找到新的数据指标。

5

套用方法论,分析结论不严谨

明确好数据分析指标,接下来就是通过各种数据分析方法来分析数据,得出结论,支持业务决策。数据分析方法论是对一个数据分析项目的整体工作起到指导作用的思路模型。然而,在数据分析学习时或许习惯了各种解题套路,但实操时其实并不存在通用的分析套路。

不同的行业、不同的业务,不同的阶段,哪怕用的是同一种分析方法结论都应有所区别。 比如,在实际工作场景中,数据分析需要对数据表现作出快速判断,进而指导运营决策,并不像学术研究那样严谨,不需要在每次分析前都去验证样本群体是否符合某种统计分布等,实际工作中,考验得更多的是对业务的理解的把握能力。

所以,在开展数据分析工作过程中,不能完全依赖过往的类似案例以及分析方法,而应重视业务的理解。 因此,每一次分析,应该结合业务场景中思考,更不能被各种套路方法论给束缚住,也不能简单依赖过往的类似案例。

6

轻视业务,与实际场景脱节

数据不等同与实际场景,实际场景往往比数据更加复杂,分析时需要了解具象化的场景,而不是抽象的数据,数据分析初学者极易犯的错误,只懂工具不懂业务不能真正理解业务需求。好的分析人员需要既懂工具又懂业务,也要多去一线了解业务运作,帮助解决业务运营中遇到的各种问题。

比如,结构化思维模型、KANO分析模型、RFM模型、四象限模型。。。。。。这些经典且广泛应用的模型。来积累丰富的数据分析模型库以应对各种业务场景。 因此,数据分析人员结合实际业务场景,需要具体问题具体分析,服务于业务的应用。及时与企业各部门沟通,共享数据分析的成果,这样才能体现数据分析的真正价值。所以作为数据分析人员,要结合业务需求,保持独立思考的心态,大胆假设,小心求证,警惕和避免走进数据分析的陷阱。

总结

实际工作生活中,还有很多需要我们注意的关于数据分析的事项,这里就不一一开展,本文只是从业务层面的视角梳理了关于数据分析各个环节中可能存在的引发误导的一些陷阱。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • APP
    APP
    +关注

    关注

    33

    文章

    1529

    浏览量

    71628
  • 数据分析
    +关注

    关注

    2

    文章

    1352

    浏览量

    33732
  • Kano模型分析法

    关注

    0

    文章

    2

    浏览量

    1341

原文标题:警惕!数据分析的陷阱?

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于振弦采集仪的工程监测数据分析方法研究

    基于振弦采集仪的工程监测数据分析方法研究 基于振弦采集仪的工程监测数据分析方法研究主要涉及以下几个方面: 基于振弦采集仪的工程监测数据分析方法研究 1.
    的头像 发表于 01-02 15:12 167次阅读
    基于振弦采集仪的工程监测<b class='flag-5'>数据分析</b>方法研究

    使用AD5293的过程中遇到的几个问题求解

    我在使用AD5293的过程中遇到了以下几个问题: 1.AD5293的VDD,VSS,VLOGIC引脚所连接的10uf的电容是有极性还是无极性的? 2.EXT_CAP引脚,在上电时对地电压应该是
    发表于 12-11 08:21

    Get职场新知识:做分析,用大数据分析工具

    为什么企业每天累积那么多的数据,也做数据分析,但最后决策还是靠经验?很大程度上是因为这些数据都被以不同的指标和存储方式放在各自的系统,这就导致了
    发表于 12-05 09:36

    PCB设计过程中常见问题汇总

    不注意就会在细节上出错,导致严重的后果。 针对PCB设计过程中常见的问题进行汇总和分析,希望能够对大家的设计和制作工作带来一定的帮助,避免失误! 1、图形设计不均匀。造成图形电镀时,电流分布不匀
    发表于 11-16 16:43

    串口在通信的过程中是怎么对数据进行校验的?

    串口在通信的过程中怎么对数据进行校验
    发表于 10-11 07:13

    划片机切割过程中常见五个问题点

    在精密划片机切割过程中可能会遇到各种问题,以下是一些常见问题的分析和解决方法:崩边:崩边是划片机切割中常见的问题,
    的头像 发表于 10-10 17:45 741次阅读
    划片机切割<b class='flag-5'>过程中常见</b>五个问题点

    15个常见的C语言陷阱及其解决方法

    C语言是一种非常流行的编程语言,因为它简单易学,且广泛应用于各个领域。但是,由于C语言本身的特性,它也容易引起一些错误和陷阱,这些错误可能导致程序崩溃、数据丢失或者安全漏洞等问题。本文将介绍15个
    发表于 09-09 14:51 967次阅读

    别再埋头苦干了,标准化财务数据分析方案开箱即用!

    在这个数字化、智能化的时代,一味埋头苦干只会换来效率低下的结果,还是得巧用各种现成资源,以财务数据分析为例,就可以下载奥威BI财务数据分析方案。一键套用,立得覆盖各个主题的财务数据分析报表,快速摸清
    发表于 09-05 10:06

    千人千面的数据分析有没可能?奥威BI数据可视化工具告诉你

    数据分析要做到千人千面,就意味着不同角色的用户在分析报表时,都可以站在自身的立场、按照自己的分析思维变化去展开数据分析,更多维地获取数据信息
    发表于 08-29 14:45

    财务数据分析?奥威BI数据可视化工具很擅长

    BI数据可视化工具通常是可以用户各行各业,用于不同主题的数据可视化分析,但面对财务数据分析这块难啃的骨头,能够好好地完成的,还真不多。接下来要介绍的这款BI
    发表于 08-29 09:44

    分享一套财务数据分析模板,零开发,更好用

    企业经营健康状态的过程中发挥着十分重要的作用,是每个企业都必须重视的一张报表。 奥威BI财务数据分析方案对现金流量表模板进行了优化升级,做到了只用一张图就让老板看得懂,看得有用,也愿意看。 奥威
    发表于 08-15 10:47

    电商数据分析攻略,让你轻松搞定数据分析

    在当今的数字经济时代,运用大数据分析来促进业务增长已然成为一种普遍行为,拥有一套系统化的数据分析方案尤为重要。奥威BI电商数据分析方案是一种基于数据挖掘和机器学习技术的解决方案,以丰富
    发表于 06-27 09:22

    数据分析到底是什么?_光点科技

    数据分析是当今信息时代中一个非常重要的概念。随着技术的不断发展和大数据的爆炸式增长,数据分析已成为各行各业的关键工具。
    的头像 发表于 05-19 10:46 460次阅读

    事实证明,国产BI软件的财务数据分析性价比极高!

    模板购买、零编程构建分析模型,不管是BI大数据分析平台的使用成本,还是企业需要付出的开发维护成本都比国外BI要低。 2、标准化财务数据分析方案,风险低、适用性高 奥威BI软件是同类型的国产BI软件
    发表于 05-16 11:06