0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据分析师的必备的四个技能

lviY_AI_shequ 来源:陈翠 2019-03-16 11:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

优秀的数据分析师需要具备这样一些素质:有扎实的 SQL 基础,熟练使用 Excel,有统计学基础,至少掌握一门数据挖掘语言(R、SASPython、SPSS),有良好的沟通和表达能力,做好不断学习的准备,有较强的数据敏感度和逻辑思维能力,深入了解业务,有管理者思维,能站在管理者的角度考虑问题。

01 要打好扎实的 SQL 基础

SQL 基础之所以重要,是因为数据分析师分析的数据大多都是从数据库中提取而来的。有良好的 SQL 功底并能熟悉使用,不仅能提取到需要的数据,还能大大提高工作效率。尽管有部分数据可以通过报表等其他途径获得,但绝大多数的数据仍需要通过自己写 SQL 语句。

对于一些需要 深入分析用户行为的数据,用 SQL 提取数据的时间可能会占据整个数据分析过程的 50%,甚至 80%,而对于未开发成数据报表的常用数据需求,比如游戏封测、开测期间的日报和周报,则需要编写大量的 SQL 语句来查询相应数据,这时如果熟悉存储过程,能够自动化或半自动化地实现日常数据收集,就会事半功倍了。

目前使用较多的数据库有 MySQL、SQL Server 和 Oracle,数据分析师必须掌握的常用语句和函数有如下几种:

1. 合计和标量函数:Count()、Max()、Sum()、Upper()、lower()、Round()等。

2. distinct——distinct 关键字可以过滤重复的数据记录。

3. Top——结合 select 语句,Top 函数可以查询头几条和末几条的数据记录(仅限 SQL Server, 在其他数据库,可用 limit 语句、rownum 列等方式实现相似的目的)。

4. Order By——结合 select语句,Order By 可以让查询结果按某个字段正序和逆序排列。

5. Group By——Group By 子句可以对查询的结果集按指定字段分组。

6. Group By & Having 子句——Having 语句基于 Group By,定义分组条件。

7. Inner Join,Left Outer Join,Right Outer Join and Full outer Join——多表的列关联,即通过 Join 可以将不同物理表中的数据列根据一定的关联条件合并成一个结果集。

8. Union 合并查询:Union/Union ALL 查询可以把多张表的数据行合并起来,Union 在合并 时重复的数据仅保留一行,而 Union ALL 则是直接合并,不会处理重复行。 在大数据时代,有很多查询工具可供选择。

Hive 和 SQL 是目前比较主流的工具。Hive 是基 于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。Hive 和 SQL 是非常相似的, 主要的区别就是 Hive 缺少更新和删除功能。如果你可以熟练使用 SQL,就可以平稳过渡到 Hive。 另外,一定要注意两者在结构和语法上的差异。

02 要熟练使用 Excel

Excel 可以进行各种数据的处理、统计分析和辅助决策操作,作为常用的数据处理和展现工具,数据分析师除了要熟练将数据用 Excel 中的图表展现出来,还需要掌握为生成的图表做一系 列的格式设置的方法,如:系列格式美化、三维格式美化,以及坐标轴和网格线设置等,图表可以与函数或宏等功能一起联用,制作出模拟图表或带有交互效果的高级图表,比如在中国地图上标注各省的人口分布等,实现这些能得到更好地数据分析和查看效果。

Excel 里面自带的数据分析功能,很大程度上能完成专业统计软件(R、SPSS、SAS、Matlab)的数据分析工作,这其中包括描述性统计、相关系数、概率分布、均值推断、线性、非线性回归、多元回归分析、时间序列等内容。熟悉使用 Excel 的各项功能对一名优秀的数据分析师来说非常重要。

03 要有统计学基础

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学,其中的理论及依据就是数据分析的理论和依据。统计学是数据分析的理论基础,可以使数据分析更加系统化,以系统的数据科学作为数据分析的指导,才会更好地为数据分析服务。

没有统计学基础的分析师的职业发展之路不会长远,因为其在工作中可能会常常遇到不知道该用什么方法找寻数据规律的瓶颈,因此掌握数据分析的统计学基础知识是成为一名优秀数据分析师的基础,这也是在招聘数据分析师岗位时要求应聘者具有统计学知识的原因。当然,如果不是统计或数学专业,分析师还可以通过自学统计学相关书籍的方法学习。

统计学知识主要包含:用于集中趋势分析的平均数、中数、众数;用于离中趋势分析的全距、 四分差、平均差、方差、标准差;研究现象之间是否存在某种依存关系的相关分析;确定两种或两种以上变数间相互依赖的定量关系的回归分析;揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系的关联分析、R-Q 型因子分析;研究从变量群中提取共性因子 的因子分析;用于两个及以上样本均数差别的显著性检验的方差分析;概率及分布、参数估计、 假设检验等经典统计学内容。

04至少熟悉并精通一种数据挖掘工具和语言

以R语言为例,R编程语言在数据分析与机器学习领域已经成为一款重要的工具。R 作为脚本语言凭借其良好的互动性和丰富的扩展包资源可以方便地解决大部分数据处理、变换、统计分析、可视化的问题,并可以重现所有的细节。

R 的优势在于有包罗万象的统计函数可以调用,特别是在时间序列分析方面,无论是经典还是前沿的方法都有相应的包可以直接使用。

因此,掌握R语言可以提高整体的生产力。然而,要成为一名优秀的数据分析师,仅学会使用一门语言远远不够,还需要修改数据挖掘语言的程序包或模型,因为现有的程序 包或模型有局限性,在前期数据处理上还是不够自由,如异常值的处理、变量处理等,而自己写代码编程也可以根据自己的需求进行编写,实现更多的个性化需求。

一名优秀的数据分析师,还应该主动熟悉业务。

以游戏公司为例,如果不熟悉游戏产品制作流程、系统架构、基本运营思路,不知道游戏玩家的基本游戏行为和情感诉求,那么数据分析工作就相当于空中楼阁,所以要多了解策划人员的游戏设计理念、运营人员的版本计划,抓住一切机会多观察和学习其工作思路和方法,并参与其具体的实施过程,这样才能逐步积累真正的游戏业务经验。

现实情况中很多数据分析师都没有这样的经历,也就没有相关的经验积累,所以他们大多数的工作产出主要是一些非产品相关的平台数据分析内容和结论;当然,笔者相信并非他们不愿意去积累,而是受限于企业中的一些机制,比如大多数数据分析师是在技术部门或平台部门,而非具体的产品部门,少有切实深入到业务现场的机会。

在这种环境下,更需要自己主动去了解业务,多主动和产品部门联系,若脱离行业认知和业务背景,即使有很好的统计学功底,分析的结果也往往只能停留在数据解读层面,甚至出现因为不了解业务背景而使结论错误的情况。

从另外一个角度来说,懂业务也是数据敏感的体现,不懂业务的数据分析师,看到的只是一个数字。反之,懂业务的数据分析师,则看到的不仅仅是数字,他明白这个数字代表什么意义,更能针对数据分析结论提出有针对性的建议,对产品或者企业来说都是非常有价值的。

懂业务是做数据分析师的基本要求,这种观点对任何其他行业也是一样的道理。优秀的分析师不仅要懂业务,而且要非常熟悉业务。

撰写报告的能力对成为一名优秀的分析师来说也非常重要。

即便有严谨的分析思路和有价值的数据资料,如果不能将其写成报告,或者写的报告未能准确清楚地表达出数据中隐含的规律,那数据的价值将大打折扣。一份好的分析报告,数据资料是功底,报告的框架是支柱,报告的格式是军装,独特见解是亮点,预测方法是刀枪,正确的判断是见证。

在撰写报告时,深入地思考,深入分析,逻辑严谨,结论有说服力,能提前预测数据趋 势,能从问题中引申出解决方案,提出有指导意义的分析建议,这些都是一名优秀的分析师所体现的特质。

除了以上的硬实力,数据敏感力、逻辑思维能力、归纳能力、批判性思维能力、交流沟通能力、责任力这些软性的技能也是优秀分析师必须具备的素质。另外,如果分析师能站在更高的角 度思考问题,有管理者的思维,则能在众多分析师中能脱颖而出。

以上有些素质是我们在入职场之前就具备的,而有些则需要进入行业环境后逐步积累和建立。 成为优秀的数据分析师需要具备过硬的业务素养和技术能力,这绝非一朝一夕之功,需要在实践 中不断成长和升华。一个优秀的数据分析师应该以数据价值为导向,放眼全局、立足业务、善于 沟通,认真对待每一次的数据分析工作,在工作中快速成长。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93942
  • 分析师
    +关注

    关注

    0

    文章

    16

    浏览量

    7637

原文标题:4个数据分析师的必备技能,让你不走弯路!

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    经营数据分析可以通过哪些方式

    在数聚股份看来,提起经营数据分析,大家往往会联想到一些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”本身是每个人都具备的能力,对于业务决策者而言,
    的头像 发表于 12-05 16:31 67次阅读

    嵌入式需要掌握哪些核心技能?

    嵌入式需要掌握哪些核心技能? 若想通过学习嵌入式技术提升就业竞争力,需重点掌握C语言、嵌入式硬件架构、RTOS/Linux开发、通信协议大核心技能,并结合行业需求积累项目经验。 以下为具体
    发表于 10-21 16:25

    普迪飞 Exensio®数据分析平台 | 铸就良率提升与量产加速之路

    ManufacturingAnalytics(M-A)是Exensio数据分析平台中的四个核心模块之一。M-A模块旨在帮助集成器件制造商(IDM)、代工厂(Foundry)和无晶圆厂半导体公司
    的头像 发表于 08-19 13:53 780次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台 | 铸就良率提升与量产加速之路

    普迪飞 Exensio®数据分析平台 | Test Operations解锁半导体测试新纪元

    TestOperations是Exensio数据分析平台的四个主要模块之一。T-Ops模块旨在帮助集成器件制造商(IDM)、无晶圆厂半导体公司(Fabless)和外包半导体(产品)封测厂(OSAT
    的头像 发表于 08-19 13:53 801次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台 | Test Operations解锁半导体测试新纪元

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 496次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口 skyworksinc

    电子发烧友网为你提供()用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口相关产品参数、数据手册,更有
    发表于 05-28 18:33
    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>频前端模块,带<b class='flag-5'>四个</b>线性 TRx 开关端口 skyworksinc

    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口 skyworksinc

    电子发烧友网为你提供()用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 频前端模块,带四个线性 TRx 开关端口相关产品参数、数据手册,更有
    发表于 05-28 18:33
    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>频前端模块,带<b class='flag-5'>四个</b>线性 TRx 开关端口 skyworksinc

    用于频 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四个线性 TRx 开关端口和双频 TD-SCDMA skyworksinc

    电子发烧友网为你提供()用于频 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四个线性 TRx 开关端口和双频 TD-SCDMA相关产品参数、数据手册,更有用于
    发表于 05-28 18:31
    用于<b class='flag-5'>四</b>频 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有<b class='flag-5'>四个</b>线性 TRx 开关端口和双频 TD-SCDMA skyworksinc

    ADS1211获取四个通道全部数据的最短时间是多少?

    看pdf没看出什么门道,想问下这款ADC四个差分通道同步采样,获取四个通道全部数据的最短时间是多少!
    发表于 02-10 07:24

    模数转换电路的四个过程

    模数转换(Analog-to-Digital Conversion,简称ADC)是将模拟信号转换为数字信号的关键过程,广泛应用于通信、数据采集、信号处理等领域。模数转换电路的设计与实现涉及多个关键步骤,通常可以分为四个主要过程:采样、保持、量化和编码。本文将详细
    的头像 发表于 02-03 16:12 2342次阅读

    智能焊接数据分析设备提升工业效率与精度

    随着科技的不断进步,智能制造已经成为推动工业4.0发展的关键力量。在众多的智能制造技术中,智能焊接数据分析设备因其在提高生产效率和焊接质量方面的显著效果而受到广泛关注。本文将探讨智能焊接数据分析设备
    的头像 发表于 01-15 14:11 663次阅读

    美银分析师:英伟达加大“物理AI”投入为明智之举

    近日,美国银行的分析师对英伟达在“物理AI”领域的最新动向发表了评论。分析师指出,英伟达决定加大对“物理AI”的投入,是其在人工智能领域发展的合乎逻辑的下一步举措。 “物理AI”作为人工智能的一
    的头像 发表于 01-08 10:51 742次阅读

    Mathematica 在数据分析中的应用

    数据分析是现代科学研究和商业决策中不可或缺的一部分。随着数据量的爆炸性增长,对数据分析工具的需求也在不断增加。Mathematica,作为一种强大的计算软件,以其独特的符号计算能力和广泛的内置函数库
    的头像 发表于 12-26 15:41 1075次阅读

    绝缘电阻测试仪数据分析与处理

    绝缘电阻测试仪主要用于检查电气设备或电气线路对地及相间的绝缘电阻。将所测得的结果与有关数据比较,这是对实验结果进行分析判断的重要方法。以下是对绝缘电阻测试仪的数据分析与处理方法的介绍: 一、
    的头像 发表于 12-10 15:00 1510次阅读

    数据可视化与数据分析的关系

    在当今这个信息爆炸的时代,数据无处不在。无论是企业运营、科学研究还是个人决策,我们都需要从海量的数据中提取有价值的信息。数据分析数据可视化作为两
    的头像 发表于 12-06 17:09 1365次阅读