0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个完整的数据分析流程

数据分析与开发 来源:数据分析与开发 作者:数据分析与开发 2021-03-12 15:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【编者注】此图整理自微博分享,作者不详。一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程:1、业务建模。2、经验分析。3、数据准备。4、数据处理。5、数据分析与展现。6、专业报告。7、持续验证与跟踪。

(注:图保存下来,查看更清晰)

1e1b3166-827e-11eb-8b86-12bb97331649.jpg

作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。

1. 数据采集

了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。比如:

Omniture中的Prop变量长度只有100个字符,在数据采集部署过程中就不能把含有大量中文描述的文字赋值给Prop变量(超过的字符会被截断)。

在Webtrekk323之前的Pixel版本,单条信息默认最多只能发送不超过2K的数据。当页面含有过多变量或变量长度有超出限定的情况下,在保持数据收集的需求下,通常的解决方案是采用多个sendinfo方法分条发送;而在325之后的Pixel版本,单条信息默认最多可以发送7K数据量,非常方便的解决了代码部署中单条信息过载的问题。(Webtrekk基于请求量付费,请求量越少,费用越低)。

当用户在离线状态下使用APP时,数据由于无法联网而发出,导致正常时间内的数据统计分析延迟。直到该设备下次联网时,数据才能被发出并归入当时的时间。这就产生了不同时间看相同历史时间的数据时会发生数据有出入。

在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“垃圾数据进导致垃圾数据出”的问题。

2.数据存储

无论数据存储于云端还是本地,数据的存储不只是我们看到的数据库那么简单。比如:

数据存储系统是MySql、Oracle、SQL Server还是其他系统。

数据仓库结构及各库表如何关联,星型、雪花型还是其他。

生产数据库接收数据时是否有一定规则,比如只接收特定类型字段。

生产数据库面对异常值如何处理,强制转换、留空还是返回错误。

生产数据库及数据仓库系统如何存储数据,名称、含义、类型、长度、精度、是否可为空、是否唯一、字符编码、约束条件规则是什么。

接触到的数据是原始数据还是ETL后的数据,ETL规则是什么。

数据仓库数据的更新更新机制是什么,全量更新还是增量更新。

不同数据库和库表之间的同步规则是什么,哪些因素会造成数据差异,如何处理差异的。

在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。

3.数据提取

数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取。

从哪取,数据来源——不同的数据源得到的数据结果未必一致。

何时取,提取时间——不同时间取出来的数据结果未必一致。

如何取,提取规则——不同提取规则下的数据结果很难一致。

在数据提取阶段,数据分析师首先需要具备数据提取能力。常用的Select From语句是SQL查询和提取的必备技能,但即使是简单的取数工作也有不同层次。第一层是从单张数据库中按条件提取数据的能力,where是基本的条件语句;第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;第三层是优化SQL语句,通过优化嵌套、筛选的逻辑层次和遍历次数等,减少个人时间浪费和系统资源消耗。

其次是理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。包含该因素即是订单金额,否则就是产品单价×数量的产品销售额。

4.数据挖掘

数据挖掘是面对海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则:

没有最好的算法,只有最适合的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性。

没有一种算法能解决所有问题,但精通一门算法可以解决很多问题。

挖掘算法最难的是算法调优,同一种算法在不同场景下的参数设定相同,实践是获得调优经验的重要途径。

在数据挖掘阶段,数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序出身也可以选择编程实现;三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点。

5.数据分析

数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。

6.数据展现

数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定。基本素质要求如下:

工具。PPT、Excel、Word甚至邮件都是不错的展现工具,任意一个工具用好都很强大。

形式。图文并茂的基本原则更易于理解,生动、有趣、互动、讲故事都是加分项。

原则。领导层喜欢读图、看趋势、要结论,执行层欢看数、读文字、看过程。

场景。大型会议PPT最合适,汇报说明Word最实用,数据较多时Excel更方便。

最重要一点,数据展现永远辅助于数据内容,有价值的数据报告才是关键。

7.数据应用

数据应用是数据具有落地价值的直接体现,这个过程需要数据分析师具备数据沟通能力、业务推动能力和项目工作能力。

数据沟通能力。深入浅出的数据报告、言简意赅的数据结论更利于业务理解和接受,打比方、举例子都是非常实用的技巧。

业务推动能力。在业务理解数据的基础上,推动业务落地实现数据建议。从业务最重要、最紧急、最能产生效果的环节开始是个好方法,同时要考虑到业务落地的客观环境,即好的数据结论需要具备客观落地条件。

项目工作能力。数据项目工作是循序渐进的过程,无论是一个数据分析项目还是数据产品项目,都需要数据分析师具备计划、领导、组织、控制的项目工作能力。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据采集
    +关注

    关注

    40

    文章

    7801

    浏览量

    119838
  • 存储系统
    +关注

    关注

    2

    文章

    428

    浏览量

    41775
  • 数据分析
    +关注

    关注

    2

    文章

    1506

    浏览量

    35937

原文标题:干货&神图 :数据分析师的完整流程与知识结构体系

文章出处:【微信号:DBDevs,微信公众号:数据分析与开发】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    经营数据分析可以通过哪些方式

    在数聚股份看来,提起经营数据分析,大家往往会联想到些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”本
    的头像 发表于 12-05 16:31 354次阅读

    广立微DE-G零断档重构智能数据分析

    近日,数据分析领域被则消息推上风口浪尖:家老牌软件巨头将撤出中国。在此背景下,其旗下以灵活著称的数据分析软件,在中国市场的未来将面临极大的不确定性。
    的头像 发表于 11-07 10:39 449次阅读

    电磁兼容与电磁干扰在电磁兼容性大数据分析中的智能管理系统

    数据,结合大数据分析流程自动化及云边协同技术,实现电磁环境全生命周期管理。以下从五大维度精简解析: 应用案例 北京华盛恒辉、北京五木恒润研发的 EMC/EMI 智能管理系统已落地应用,成效显著,为系统推广提供有力支撑。
    的头像 发表于 09-17 14:58 441次阅读

    普迪飞 Exensio®数据分析平台 | Test Operations解锁半导体测试新纪元

    TestOperations是Exensio数据分析平台的四主要模块之。T-Ops模块旨在帮助集成器件制造商(IDM)、无晶圆厂半导体公司(Fabless)和外包半导体(产品)封测厂(OSAT
    的头像 发表于 08-19 13:53 817次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台 | Test Operations解锁半导体测试新纪元

    普迪飞 Exensio®数据分析平台| FDC领航者,提升良率的关键钥匙!

    ProcessControl(E-PC)是Exensio数据分析平台的四大主要模块之。作为款在行业内处于领先地位的实时控制和分析工具,它为集成设备制造商(IDMs)、代工厂(Fab
    的头像 发表于 08-19 13:53 593次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台| FDC领航者,提升良率的关键钥匙!

    如何通过数据分析识别设备故障模式?

    通过数据分析识别设备故障模式,本质是从声振温等多维数据中提取故障特征,建立 “数据特征 - 故障类型” 的映射关系,核心可通过特征提取、模式匹配、趋势分析三步实现,精准定位故障根源与发
    的头像 发表于 08-19 11:14 536次阅读
    如何通过<b class='flag-5'>数据分析</b>识别设备故障模式?

    构建自定义电商数据分析API

      在电商业务中,数据是驱动决策的核心。随着数据量的增长,企业需要实时、灵活的分析工具来监控销售、用户行为和库存等指标。自定义电商
    的头像 发表于 07-17 14:44 398次阅读
    构建自定义电商<b class='flag-5'>数据分析</b>API

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 498次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    HarmonyOS实战:高德地图定位功能完整流程详解

    完整的定位功能流程,建议点赞收藏! 需求分析 要想实现完整的定位需求
    的头像 发表于 06-09 15:23 871次阅读

    电力系统数据分析技术

    随着智能电网技术的发展和大数据时代的到来,电力系统数据分析技术已成为电力行业不可或缺的部分。这些技术能够帮助电力公司更好地理解电网的运行状态,预测电力需求,优化电力资源分配,提高电网的稳定性
    的头像 发表于 01-18 09:46 1221次阅读

    智能焊接数据分析设备提升工业效率与精度

    随着科技的不断进步,智能制造已经成为推动工业4.0发展的关键力量。在众多的智能制造技术中,智能焊接数据分析设备因其在提高生产效率和焊接质量方面的显著效果而受到广泛关注。本文将探讨智能焊接数据分析设备
    的头像 发表于 01-15 14:11 664次阅读

    智能焊接数据分析设备提升制造精度与效率

    不稳定、生产效率低等问题。而智能焊接数据分析设备的应用,则为解决这些问题提供了新的思路和技术手段。本文将探讨智能焊接数据分析设备如何通过数据采集、分析及应用,提升焊接制?
    的头像 发表于 01-14 09:36 741次阅读

    ADC12D1800RF使用DESCLKIQ模式采样数据分析时二次谐波大,有什么方法可以改善?

    请问利用ADC12D1800RF参考电路设计,对比于数据手册,使用DESCLKIQ模式采样数据分析时二次谐波大,有什么方法可以改善?
    发表于 01-02 07:14

    Mathematica 在数据分析中的应用

    数据分析是现代科学研究和商业决策中不可或缺的部分。随着数据量的爆炸性增长,对数据分析工具的需求也在不断增加。Mathematica,作为
    的头像 发表于 12-26 15:41 1077次阅读

    绝缘电阻测试仪数据分析与处理

    绝缘电阻测试仪主要用于检查电气设备或电气线路对地及相间的绝缘电阻。将所测得的结果与有关数据比较,这是对实验结果进行分析判断的重要方法。以下是对绝缘电阻测试仪的数据分析与处理方法的介绍:
    的头像 发表于 12-10 15:00 1514次阅读