0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

哪些才是对数据科学家最迫切的技能呢?

jmiy_worldofai 来源:未知 作者:李倩 2018-11-19 18:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据是新的石油,不过要想开采石油需要有熟练的工程师才行。数据科学家就是干这个的。但是要想成为一名数据科学家,你得掌握特定技能才行。哪些才是对数据科学家最迫切的技能呢?让Jeff Hale告诉我们答案。最难能可贵的是,其对需求最迫切技能的研究分析也体现出了一位数据科学家的素养。这个分析过程本身就非常的严谨,值得学习借鉴。

大家对数据科学家的预期是应该懂很多——机器学习、计算机科学、统计、数学、数据可视化、沟通,以及深度学习。这些领域牵涉到很多的语言、框架以及技术的学习。数据科学家要想成为雇主想要的那种人才的话,应该把学习的精力放在哪些地方呢?

我到求职网站去寻找对数据科学家最迫切的技能需求是什么。我看了一般的数据科学技能,也分别看了对语言和工具的要求。2018年10月10日,我在LinkedIn、Indeed、SimplyHired、Monster以及AngelList上面搜索了求职列表。下面这张图列出了每个网站对数据科学家的需求数量。

我看了很多求职列表和调查以找出最常见的技能。像管理这类的术语就不进行比较了,因为可以用到的场合太多了。

所有的搜索都是针对美国,使用了“data scientist(数据科学家)”、“[keyword]”作为搜索关键字。采用精确匹配以减少搜索结果数。然而,这个方法确保了结果对数据科学家职位是相关的,并且对所有搜索术语都产生类似的作用。

AngelList提供的是列出数据科学家岗位的公司数而不是岗位数。我把AngelList从所有分析里面排除掉了,因为其搜索算法似乎按照OR型的逻辑搜索进行,没有办法改成AND。如果你寻找的是“数据科学家”“TensorFlow”的话,AngelList也没问题,因为这只能在数据科学家岗位里面找到,但如果你的关键字是“数据科学家”“react.js”的话,它返回的结果就太多了,其中会包括一大堆非数据科学家的岗位列表。

Glassdoor也被排除在我的分析之外。该网站声称在美国有26263个“数据科学家”职位,但是显示出来的却不超过900个。此外,它上面的数据科学家岗位数超过任何其他主流平台3倍以上似乎极不可能。

LinkedIn上超过400个岗位列表都提到的通用技能以及超过200个岗位列表都提到的特别技术被纳入到最终分析里面。当然,这两者之间会有一些交叉。结果已经被记录进这张Google Sheet里面。

我下载了.csv文件并且导入到JupyterLab。然后我计算了出现比例并求出求职网站之间的平均数。

我还将软件结果跟GlassDoor的一项研究(2017年上半年,针对数据科学家岗位列表)进行了对比。再结合KDNuggets使用情况调查的信息,似乎一些技能正在变得越来月重要,而其他一些的相关性则在下降。后面我们会细谈。

互动式图表可以到我的Kaggle Kernel上面去看,额外分析可参见此处。可视化我用的是Plotly。为了本文结合使用Plotly和JupyterLab可费了一点功夫——相关指令可到我的Kaggle Kernel找,另外这里也有Plotly的脚本。

通用技能

下面这张图反映的是雇主寻找最频繁的数据科学家通用技能。

结果表明,分析和机器学习是数据科学家岗位的核心技能。从数据中发现洞察是数据科学的主要职能。机器学习则是要创建系统来预测表现,这是非常亟需的技能。

数据科学需要统计和计算机科学技能——这一点并不出奇。统计分析、计算机科学以及数学也是大学的专业,这大概对其出现频率有帮助。

有趣的是沟通在将近一般的岗位列表中被提到。数据科学家需要将洞察与工作与他人进行沟通。

AI和深度学习的出现频率没有其他一些属于那么频繁。然而,它们都属于机器学习的子集。机器学习过去由其他算法执行的任务正在被越来越多的深度学习算法替代。比方说,大多数自然语言处理问题最好的机器学习算法现在都是深度学习算法。我预计深度学习技能在未来的需求会更加迫切,而机器学习也将日益变成深度学习的同义词。

此外,哪些数据科学家的软件工具是雇主想要寻求的呢?下面我们就来看看这个问题的答案。

技术技能

以下是雇主希望数据科学家掌握的排名靠前的20种语言、库以及技术工具。

我们大概看一下其中最常见的技术技能。

Python

Python是需求最旺盛的语言。这门开源语言的流行度已经被很多人注意到。它对初学者很友好,有许多支持资源。绝大部分新的数据科学工具都兼容它。Python是数据科学家的主要语言。

R

R语言并不比Python落后多少。它一度是数据科学的主要语言。我反而对它的需求依然如此旺盛感到吃惊。这门开源语言的根在统计,至今在统计学家那里仍非常流行。

Python或者R几乎是每一个数据科学家岗位的必须。

SQL

SQL的需求也很高。SQL即结构化查询语言(Structured Query Language),是与关系式数据库的主要交互方式。SQL有时候会被数据科学界忽视,但这是一门值得掌握的技能,如果你打算切入求职市场的话。

Hadoop、Spark

接下来是Hadoop和Spark,这两个都是出自Apache的大数据开源工具。

Apache Hadoop是一个利用商品化硬件搭建的计算机集群对超大规模数据集进行分布式存储和分布式处理的开源软件平台。

Apache Spark是一个有着优雅的、富有表现力的API,可让数据工作者高效执行需要对数据集进行快速迭代存取的流处理、机器学习或者SQL负载的快速内存数据处理引擎。

相对于其他,这些工具在Medium和教程中被提及的次数少了点。我猜具备这些技能的求职者要比具备Python、R和SQL技能的求职者少得多。如果你掌握了一定Hadoop和Spark经验的话,应该可以在竞争中获得优势。

JavaSAS

然后是Java和SAS。这两门语言地位这么高倒是出乎我的意料。其背后都有大公司的支持,支持至少都提供了一些免费的产品。不过Java和SAS在数据科学社区受到的关注都很少。

Tableau

对Tableau的需求次之。这个分析平台和可视化工具非常强大,易用,而且越来越流行。它有一个免费的公共版本,但是如果你想数据保持私有的话得花钱。

如果你对Tableau不熟悉的话,到Udemy上一门Tableau 10 A-Z快速了解一下绝对是值得的。声明一下啊,我这么建议可不是拿了佣金的——那是因为我上过这门课之后发现它的确有用。

下面这张表反映的是更大范围内的语言、框架等数据科学软件工具的需求情况。

历史对比

GlassDoor对2017年1月到7月间数据科学家10大最常见的软件技能进行了分析。以下是那些术语出现的频度相对2018年10月在LinkedIn、Indeed、SimplyHired及Monster上出现频度平均数的对比。

结果相当类似。我的分析和GlassDoor的分析都发现Python、R及SQL都是需求最旺盛的技能。两份分析发现的需求前9大技术技能都是一样的,尽管顺序方面略有不同。

结果表明,相对于2017年上半年,R、Hadoop、Java、SAS及MatLab现在的需求略微下降,而对Tableau的需求则在上升。加上KDnuggets开发者调查这类的辅助性结果,我想这就是我预期的结论。R、Hadoop、Java和SAS均呈现出多年的下降趋势,而则显示出明显的上升势头。

建议

基于这些分析的结果,以下是对当前和想要成为数据科学家的人提供的提升自我价值的建议。

证明你可以进行数据分析并且专注机器学习,要变得非常擅长。

对你的沟通技能进行投资。我建议去读读《Made to Stick(让创意更有粘性)》这本书来让你的想法产生更大影响。此外还可以用Hemmingway Editor这款app改进写作的清晰性。

掌握一种深度学习框架。精通一种深度学习框架在精通机器学习中占据了越来越大的部分。深度学习框架在使用情况、流行度等方面的对比情况可以看我的这篇文章。

如果你要走学习Python和R语言之间做选择的话,选Python。如果你对Python不感冒,那就选择R。如果你也懂R的话在市场上一定会更加抢手。

当雇主寻找懂Python技能的数据科学家时,他们可能也会预期应征者了解常见的python数据库库:numpy、pandas、scikit-learn以及matplotlib等。如果你想学习这里提到的工具的话,我建议你看看以下这些资源:

DataCamp及DataQuest——均为定价合理的在线SaaS数据科学教育产品,可以一边编码一边学习。这两个都教若干的技术工具。

Data School上面有各种资源,其中就包括了一套很好的YouTube视频,里面解释了数据科学的概念。

McKinney的《Python for Data Analysis》。这本书是pandas库的主要作者写的,聚焦的是pandas,同时也讨论了python基础、numpy以及scikit-learn的数据科学功能。

Müller & Guido的《Introduction to Machine Leaning with Python》。Müller是scikit-learn的主要维护者之一。这本书非常优秀,是学习用scikit-learn做机器学习的好读物。

如果你寻求去学习深度学习的话,我建议先从Keras或者FastAI开始,然后再转到TensorFlow或者PyTorch。Chollet的《Deep Learning with Python》是学习Keras的好资源。

除了这些推荐以外,我还建议你学习自己感兴趣的东西,尽管在决定如何分配学习时间方面显然有很多考虑因素。

LinkedIn

如果你要通过在线门户找数据科学家岗位的话,我建议你从LinkedIn开始——这个地方总是有最多的结果。

如果你在求职网站上寻找工作或者职位的话,关键字很重要。每个网站搜“数据科学”返回的结果数几乎是“数据科学家”的3倍。但如果你要找的就是数据科学家的工作的话,最好还是搜索“数据科学家”。

无论你去哪里找,我建议你要制作一份在线作品集来证明你擅长许多亟需的技能。我也建议你在LinkedIn档案上展示你的技能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137228
  • 深度学习
    +关注

    关注

    73

    文章

    5608

    浏览量

    124637
  • 数据科学
    +关注

    关注

    0

    文章

    168

    浏览量

    10826

原文标题:想从事数据行业?你必须掌握这个最核心的技能

文章出处:【微信号:worldofai,微信公众号:worldofai】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤科技首席科学家林达华荣获第四届中银香港科技创新奖

    近日,商汤科技联合创始人兼首席科学家林达华教授,荣获第四届中银香港科技创新奖(人工智能及机器人领域),以表彰其于科研创新及成果转化方面的卓越贡献。
    的头像 发表于 04-24 16:48 364次阅读

    微电子科学家吴德馨院士逝世,在国内率先提出利用MEMS结构实现激光器和光纤的无源耦合

    3月24日,中国科学院微电子研究所官方账号发布讣告,中国科学院院士,我国杰出的微电子科学家,中国科学院微电子研究所研究员,原中国科学院微电子
    的头像 发表于 03-25 18:23 355次阅读
    微电子<b class='flag-5'>科学家</b>吴德馨院士逝世,在国内率先提出利用MEMS结构实现激光器和光纤的无源耦合

    中国科学家重大突破:智能手表未来有望靠体温供电

    长久以来,“续航焦虑”困扰着可穿戴消费电子、植入式医疗领域。但现在,中国科学家的一项重磅研究,正在让“人体自带充电宝”从科幻走进现实——只需利用体温与环境的微小温差,就能为智能设备持续供电。2026
    的头像 发表于 03-10 18:09 158次阅读

    思必驰首席科学家俞凯教授当选2026年度IEEE Fellow

    日前,全球最大的专业技术组织国际电气电子工程师协会(The Institute of Electrical and Electronics Engineers, IEEE)公布了2026年度IEEE Fellow(会士)名单,上海交通大学特聘教授、思必驰联合创始人、首席科学家俞凯教授当选。
    的头像 发表于 12-12 11:36 1000次阅读

    中兴通讯崔丽受邀出席2025腾冲科学家论坛

    近日,“2025腾冲科学家论坛”在云南启幕。本届论坛以“科学·AI改变世界”为主题,汇聚包括诺贝尔奖、图灵奖、菲尔兹奖得主在内的国际顶尖科学家,以及百余位两院院士、高校校长、科技精英与产业领袖,共话
    的头像 发表于 12-09 11:36 781次阅读

    昊衡科技:第四届飞行器健康管理技术国际高端论坛暨青年科学家论坛圆满落幕

    2025年11月21日,第四届飞行器健康管理技术国际高端论坛暨青年科学家论坛在厦门国际会展酒店(会展二路199号)圆满落下帷幕。深度交流本届论坛上,国产光学测量与传感仪器制造商——武汉昊衡科技,展示
    的头像 发表于 11-21 17:59 599次阅读
    昊衡科技:第四届飞行器健康管理技术国际高端论坛暨青年<b class='flag-5'>科学家</b>论坛圆满落幕

    技术感知世界!昊衡科技在第四届飞行器健康管理技术国际高端论坛暨青年科学家论坛等您!

    今日是第四届飞行器健康管理技术国际高端论坛暨青年科学家论坛在厦门国际会展酒店(会展二路199号)的会议日,现场学术氛围持续高涨。武汉昊衡科技作为国产先进光学测量与传感测量仪器制造商,此次携两款创新
    的头像 发表于 11-20 17:15 1832次阅读
    技术感知世界!昊衡科技在第四届飞行器健康管理技术国际高端论坛暨青年<b class='flag-5'>科学家</b>论坛等您!

    科学家利用微波激光照射钻石,制造出时间准晶体

    科学家利用微波激光照射钻石,制造出时间准晶体。 美国华盛顿大学、麻省理工学院和哈佛大学科学家携手,成功在钻石上“雕刻”出一种全新的物质形态:时间准晶体。这项突破有望为量子计算、精确计时等领域带来
    的头像 发表于 11-19 07:35 281次阅读
    <b class='flag-5'>科学家</b>利用微波激光照射钻石,制造出时间准晶体

    第四届飞行器健康管理技术国际高端论坛暨青年科学家论坛:昊衡科技,欢迎您来!

    大会介绍第四届飞行器健康管理技术国际高端论坛暨青年科学家论坛将于2025年11月19-21日在中国厦门举行。会议由厦门大学和江南大学联合主办,围绕飞行器健康管理与智能运维,以“数字时代、智领运维
    的头像 发表于 11-14 17:36 3202次阅读
    第四届飞行器健康管理技术国际高端论坛暨青年<b class='flag-5'>科学家</b>论坛:昊衡科技,欢迎您来!

    国际类脑计算科学家Yulia Sandamirskaya教授加盟时识科技

    近日,国际类脑计算与神经形态机器人领域知名科学家Yulia Sandamirskaya 教授,作为科学家顾问正式加入时识科技(SynSense)。
    的头像 发表于 10-13 13:50 949次阅读

    科技感拉满!鲸启智能机器人与无人机联动,闪耀服务世界青年科学家论坛

    9 月 20 日,以 “青年,世界科学的未来” 为主题的世界青年科学家论坛(南京)在江北新区启幕。20 余位诺贝尔奖得主、海内外院士,超百位国际国内青年科学家及产业代表齐聚,围绕前沿科技展
    的头像 发表于 10-11 16:54 477次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验
    发表于 09-17 11:45

    复星医药使用亚马逊云科技生成式AI技术赋能医疗撰写场景 助力科学家效率跃升

    进程。通过“临床试验报告一致性检查”和“研发文献翻译”两大功能,复星医药可解放科学家生产力,使其专注于创新药研发的核心工作。在亚马逊云科技的加持下,“临床试验报告一致性检查”可覆盖研究人员90%的撰写场景,工作效率提升70%;而在“研发文
    发表于 07-14 14:16 1200次阅读

    数字信号处理,科学家与工程师指南(664页)

    数字信号处理入门书籍,非常全面,清晰易懂 获取完整文档资料可下载附件哦!!!! 如果内容有帮助可以关注、点赞、评论支持一下哦~
    发表于 07-11 14:59

    地物光谱仪如何帮助科学家研究植被和土壤?

    在遥感、生态、农业等研究领域,科学家们常常会提到一个工具: 地物光谱仪 。它看起来像一台“测光的枪”,却能揭示土壤和植被的“隐藏信息”。那么,地物光谱仪到底是怎么工作的?它又是如何在科学研究中
    的头像 发表于 05-20 15:46 784次阅读
    地物光谱仪如何帮助<b class='flag-5'>科学家</b>研究植被和土壤?