0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

John Sullivan给你的5项技能建议,实践是进入数据科学世界的最佳方式

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-11 16:35 次阅读

编者按:上MOOC、读教科书、一遍又一遍地刷题……在毕业前,如果你对未来还是这样一幅态度,那你几乎就是在虚度光阴。虽然数据科学家是未来最“性感”的工作,但要成为“性感”的人,枯坐灯前当个书呆子可不成……

在毕业前,也许你是个勤奋的人,一直很努力地自学教材,也会上在线课程充实自我,但临近毕业,现在的你在做些什么呢?数据科学家是一份令人望而生畏的工作,一方面,毕业生不知道自己水平是否足以胜任;另一方面,面试人员往往也很难从毕业生身上看出他们的全部实力。

但每个人都有走出象牙塔的一天,为了让自己在社会上更有实力,你准备好迎接挑战了吗?如果你的梦想是当一名数据科学家,下面是DataOptimal创始人John Sullivan给你的5项技能建议。实践是进入数据科学世界的最佳方式,而掌握热门的必备技能将使你在职场上面面俱到。

1.数据清理

不要以为其他分析师会帮你处理好一切,作为一名数据科学家,如果你刚接手一个新项目,你可以把项目总用时里的80%用来做数据清理,这是科学的。无论是多高级的数据团队,数据清理始终是从业人员心中的巨大痛点,换个角度看,这也是你的机遇。如果你能证明自己在数据清理上面经验丰富,那你的价值实现指日可待。

为了锻炼这方面的能力,记得找一些混乱的数据集,多多练习,多多积累。

如果你用的编程语言是Python,Pandas是个好库;如果是R语言,dplyr包也是个不错的选择。换句话说,语言和库只是工具,但你用它们做的事是一样的:

导入数据

添加多个数据集

检测缺失值

检测异常值

填补缺失值

保证数据质量

2.探索性数据分析

数据科学的另一个重要技能是探索性数据分析(EDA)。当有人扔给你一份数据时,你对这份数据完全陌生,又没有足够的业务背景,会不会感觉无从下手?如果你什么都不管,直接把数据喂给各种模型,却发现效果不好,因为你没有好的特征,那么你可能需要的是数据探索。

EDA是对已有数据在尽可能少的假定下进行探索,通过各种可视化方法探明数据结构、规律的一种数据分析方法,它能让你建立起对数据的直觉。从效果上来看,EDA允许分析师从数据中得出结论以推动业务影响,这个影响可以是客户群分析,也可以是季节性销售趋势。让自己和公司获得意料之外的惊喜,这是EDA的魅力。

对于EDA,Python用户可以用Pandas和Matplotlib,R语言用户可以用ggplot2包。一个精通EDA的人需要熟练这些技巧:

为数据分析制定问题

表明趋势

表明变量间的协变

用可视化结果(散点图、直方图等)有效地传达结果

3.交互式数据可视化

交互式数据可视化包括仪表板等工具。这些工具对数据科学团队以及更多面向业务的终端用户都很有用。仪表板允许数据科学团队进行协作,并一起商议见解。更重要的是,它们为面向业务的客户提供了一种交互式工具,后者往往专注于战略目标,而非技术细节。一般情况下,数据科学项目的最终呈现应该是以仪表板的形式出现的。

对于Python用户,Bokeh和Plotly库非常适合创建仪表板。对于R用户,请务必查看RStudio的Shiny软件包。无论是那种,你的仪表板上都要遵循:

包含和客户需求相关的各项指标

创建有用的feature

布局合理(如F-pattern可以在客户扫视时,让他们记住大部分内容)

切换演示文稿频率合理

生成报告或其他自动操作

4.机器学习

机器学习是数据科学的重要组成部分。当然,这不是说你现在就得开始学习构建复杂的深度学习模型,事实上,大多数工作都不需要你有太高的机器学习知识水平。线性回归、逻辑回归,会用这些简单算法就够了,而且这些东西也更容易让你的领导理解,理解是沟通的基础。

如果要在这方面积累经验,记得做客户留存预测、贷款预测、欺诈检测这类项目。这不是说预测植物品种这类问题不好,只是前者能帮你积累更多业务常识。

如果你是Python用户,用Scikit-learn库。对于R用户,用Caret包。同样的,下面是必须要呈现的内容:

为什么要选这个特定模型

把数据拆成训练集和测试集(k倍交叉验证),避免过拟合

选择正确的评估指标(AUC、adj-R2、混淆矩阵等)

调整超参数

5.沟通

沟通是所有工作的必备技能。优秀数据科学家和普通数据科学家的区别在于前者能有效传达结果,而后者不能。无论展示的模型有多花哨,如果你看到客户后连嘴巴都张不开,他们又怎么会支持你的成果?PPT和笔记本电脑是沟通必备工具,你也可以用Jupyter Notebook或RMarkdown文件和客户交流项目。

确保了解你的目标听众是谁,向高管们展示和向机器学习专家展示完全不是一码事。一定要掌握这些技能:

了解目标受众

提供相关可视化

PPT不要过长

PPT演示流畅

结果和业务影响紧密结合(降低成本?增加收入?)

辛辛苦苦做完项目后,不要把文件随便乱丢,要养成收集、记录的好习惯。你可以用Github Pages把文件免费转成静态网页,为你的潜在雇主提供了解你的资料

最后,只要是入了数据的门,无论短时间内岗位是不是称心如意,接受了这份工作就保持积极态度,继续不断尝试项目,快乐工作,快乐找更好的工作!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据分析
    +关注

    关注

    2

    文章

    1339

    浏览量

    33717
  • 数据科学
    +关注

    关注

    0

    文章

    163

    浏览量

    9977

原文标题:想成为数据科学家?这是你必须重视5种技能

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    信息与计算科学专业实践教学改革研究

    【作者】:赵专政;【来源】:《计算机教育》2010年06期【摘要】:信息与计算科学专业是以信息技术与计算技术的数学基础为研究对象的理科类专业。文章从专业教学现状、培养目标、课程改革、教学实践等方面
    发表于 04-24 09:46

    C编程最佳实践.doc

    C编程最佳实践.doc
    发表于 08-17 14:37

    PyODPS开发中的最佳实践

    。总结利用 PyODPS,我们其实能挖掘更多更灵活、更高效操作 MaxCompute 数据方式最佳实践可以不光是我们提供的一些建议,如果
    发表于 01-29 13:51

    "AI+"进入科学界:人工智能将主导原子世界科学发现进程

    融入所赋能的领域,并转化为该领域自身的技术及能力,它将不仅是一种科研方式和手段,而是与科学研究结合形成新的“AI化学”、“AI物理学”等全新的学科。AI并不仅仅在变革科学,它正在进入
    发表于 04-27 15:58

    Dockerfile的最佳实践

    ”微服务一条龙“最佳指南-“最佳实践”篇:Dockerfile
    发表于 07-11 16:22

    变量声明最佳实践

    所以我们开始编写32位和16位代码,并过渡到MPLAB X和XC编译器。我想到的一个主题是声明变量的最佳实践。常规IpType。h或类型。h pr STDIN。或It8或字节char等任何想法,走哪条路?
    发表于 09-30 12:01

    虚幻引擎的纹理最佳实践

    纹理是游戏不可或缺的一部分。 这是一个艺术家可以直接控制的领域,以提高游戏的性能。 本最佳实践指南介绍了几种纹理优化,这些优化可以帮助您的游戏运行得更流畅、看起来更好。 最佳实践系列指
    发表于 08-28 06:39

    安捷伦LTE和WiMAX测试设备获最佳实践

    安捷伦LTE和WiMAX测试设备获最佳实践奖  安捷伦科技公司荣膺Frost & Sullivan(弗若斯特沙利文公司)颁发的“全球LTE和WiMAX测试设备市场领先份额最佳
    发表于 12-24 09:17 883次阅读

    RE 'FLEKT获得Frost Sullivan最佳实践

    在沉浸式技术市场的风云变幻中,很容易让人迷失在混乱之中。很多公司都在努力创新,当一个人因为他们的努力而得到认可时,这总是件好事。 每年这个时候增长战略公司Frost & Sullivan会发
    发表于 03-11 16:08 440次阅读

    益莱储荣获Frost & Sullivan授予“2019年度最佳公司奖”

    根据对测试设备资产管理和优化的全球市场最新分析,Frost&Sullivan授予益莱储/Electro Rent “2019年度最佳公司奖”,益莱储以先进的仪器和一体化服务引领资产管理市场。
    发表于 01-06 17:00 643次阅读
    益莱储荣获Frost & <b class='flag-5'>Sullivan</b>授予“2019年度<b class='flag-5'>最佳</b>公司奖”

    什么是数据科学家的最佳编程语言?

    每个数据科学学习者都最常问的问题:“ 什么是数据科学家的最佳编程语言?”。
    的头像 发表于 07-05 11:32 2246次阅读

    数据科学和机器学习所需要的基本数学技能

    作为一切科学的基础,数学在数据科学领域也占据着重要地位。如果你是一名数据科学爱好者,一定想过这些问题: 我可以在几乎没有数学背景的情况下,成
    的头像 发表于 07-06 09:39 2376次阅读

    Kubernetes上Java应用的最佳实践

    在本文中,您将了解在 Kubernetes 上运行 Java 应用程序的最佳实践。大多数这些建议也适用于其他语言。但是,我正在考虑 Java 特性范围内的所有规则,并且还展示了可用于基于 JVM
    的头像 发表于 03-14 17:47 424次阅读

    伟创力荣获卓越运营(OPEX)最佳实践

    日前,世界著名的工业与系统工程领域专业学术组织 —国际工业与系统工程师学会(IISE)在新奥尔良举办了2023年卓越运营最佳实践大赛,伟创力吴中凭借着在运营、实践、创新等各方面的综合优
    的头像 发表于 06-16 09:49 449次阅读

    SAN设计和最佳实践指南

    电子发烧友网站提供《SAN设计和最佳实践指南.pdf》资料免费下载
    发表于 09-01 11:02 0次下载
    SAN设计和<b class='flag-5'>最佳</b><b class='flag-5'>实践</b>指南