0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据科学家和数据工程师能合二为一吗?

倩倩 来源:IT168 2020-07-25 10:17 次阅读

越来越多的企业关注AI,企业组织也意识到拥有相关人才和技能非常重要。特别是最近对AI、机器学习(ML)、非ML预测分析和“大数据”的应用,使得数据科学家的需求有了显著的增长,未来还将继续。事实上,对数据科学家的巨大需求导致许多企业和组织出现了人才短缺,然而,80%的AI项目与数据准备和数据工程有关,也许企业组织应该寻找更多的数据工程师而不是数据科学家?

许多企业、供应商和初创企业常常混淆数据科学家和数据工程师,虽然二者有相似之处,但是其工作内容有很大不同,其中包含两个迥异的技能,鱼与熊掌不易兼得。

数据科学家vs数据工程师

在2000年代中期,数据科学家职位开始出现,O’Reilly在文章中提到:“对数据科学家需求的增长是由大型互联网公司驱动的。谷歌、Facebook、LinkedIn和亚马逊都以创造性地使用数据而闻名:不仅仅是储存数据,还将其转化为价值。毫无疑问,任何希望从数据中获得价值的企业组织都在关注数据科学和数据科学家。

数据科学家起源于统计建模和数据分析的发展,具有高级数学和统计、高级分析以及越来越多的机器学习/人工智能的背景。毫无疑问,数据科学家的重点是数据科学,也就是说,如何从海量数据中提取有用的信息,以及如何将业务和科学信息需求转化为信息和数学语言。为了能从海量信息中获得见解,数据科学家需要掌握统计学、概率、数学和算法知识。这些数据科学家通常只是为了运行程序、对数据进行高级分析这类特定需要而学习编程,因此,数据科学家通常只写最少最简易的代码,能完成数据科学任务以及提供干净的数据进行分析即可。数据科学家创建假设,对数据进行测试和分析,然后将其结果以便于查看和理解的形式呈现给组织中的其他人。

但是如果没有大量的干净数据,数据科学家就无法完成自身工作。提取、清理和移动数据实际上并不是数据科学家的职责,而是数据工程师的职责。数据工程师拥有编程、技术方面的专业知识,以前曾参与过数据集成、中间件、分析、业务数据门户和ETL操作。数据工程师的重心和技能集中在大数据和分布式系统上,可以使用JavaPython、Scala等编程语言脚本工具,拥有技术经验。数据工程师面临的挑战是如何从各种各样的系统中获取结构化和非结构化的数据,解决不“干净”的数据例如字段缺失、数据类型不匹配等与数据相关的问题。数据工程师要使用编程、集成、体系结构和系统技能来清理所有数据,并将其放入一种格式和系统中,然后数据科学家就可以使用该格式和系统来分析、建立数据模型并为组织提供价值。数据工程师的角色就是设计、构建和安排数据的工程师。

数据科学家和数据工程师能合二为一吗?

虽然数据科学家和数据工程师的角色似乎截然不同,但数据科学家和数据工程师有许多共同的特点和共技能。这些重叠的技能包括处理和操作大数据集、应用数据的编程技能、数据分析技能以及对系统操作的总体熟练程度。

尽管有很多共性重叠的部分,但是数据科学家和数据工程师的工作重点仍有差异,因此不太可能两个角色合二为一。更重要的是,在招聘数据科学家和数据工程师时,要确保问对了问题,从候选人身上找到正确的技能。

更重要的是,随着数据科学兴起的代码学院、研讨会和培训班引出了新问题:这些培训和代码学院的重点是数据科学背后的科学,还是数据工程背后的工程、编程,更糟的是,这些活动是否只是泛泛研究了一点囫囵吞枣地教学而混淆了细分的需求,比如应该关注大数据和ML分析的哪些领域?

虽然看起来您可以在科学角色中做一点工程工作,或者在工程角色中做一点科学工作,但是混合角色可能会不利于企业组织在ML或数据科学的成功。那些被迫从事数据工程工作而没有相关背景、技能或资质的数据科学家很容易错误配置、误用技术,或者编写效率低、成本高、浪费时间的程序。同样地,要求从根本上具有工程背景的人学习复杂的数据科学数学,可能会导致组织对其信息得出错误的结论,产生灾难性结果。专业化是很重要的,好比医生要做检查,抽血师负责抽血。医生可以为你抽血,抽血师可以了解化验结果,但你为什么要拿自己的舒适和健康去冒险呢?

数据科学家在企业组织中处于什么位置?

为了从数据中获得价值,大多数企业组织都需要数据科学和数据工程,由于相关技能有很大差异,二者合体也不太现实。企业组织可能需要多个数据科学家和数据工程师,但两者之间的比例很少是1:1。对于大多数企业组织来说,拥有更多的数据工程师比数据科学家更有意义。因为数据科学家已经学会处理大量的干净数据,但是从许多不同系统获得大量的干净数据更难也更具挑战。与抽象数据模型和对数据集运行分析相比,移动和清理数据的工作量更大。

此外,数据科学家在企业组织应该向谁报告可能是错的,有的数据科学家向技术团队报告,这是没有意义的。数据科学家通常不会询问特定技术的实施和数据分析,其所面临的挑战特定的业务线。因此,数据科学家应该向业务战略决策相关人员报告。

有以业务为中心的工具吗?

如果数据科学和数据工程确实是组织中独立的角色,那么将它们所需的工具应该是分开的。许多进入数据科学/机器学习领域的供应商正在混淆视听,使事情变得更加混乱。他们声称工具是为数据科学家准备的,但是其一切主要功能和特性都是为数据工程师准备的,在上面点缀一些数据科学的特性是没有意义的。对于数据科学家来说,需要一个分析的、面向数据的、以模型为中心的工具,而不是在数据清理、移动数据和将数据从私有环境迁移到云环境等方面的工具。这就像给一个驾驶教练一辆车的零件,然后说:“自己造这辆车,然后教别人如何驾驶它。”

数据科学家需要的是以数据科学为中心的工具,而不是以工程和编程为中心的工具。现在,这些工具越来越多,让数据科学家可以进行数据挖掘或预测分析。然而,随着数据科学家越来越深入业务领域,以业务为中心的工具是更合适的,例如,几十年前,如果您希望以类似电子表格的格式操作大量数据,这就涉及到编程,但是像Excel这样的工具引入了数据透视表这样的东西,现在业务经理能够执行各种分析。Excel等工具将数据科学功能或以业务为中心的数据挖掘和分析工具嵌入到产品中只是时间问题。

随着数据科学家的人才缺口继续扩大,新的工具将会出现,这些工具是为了允许非技术人员(即业务人员)运行、测试和分析数据而创建的,战略业务经理将开始学习数据科学,数据科学家仍然需要运行非常复杂的数据分析工具。然而,随着越来越多易用工具的出现,大多数情况下基本分析将更多地转移到业务方。企业中ML和数据科学相关工具和技术也越来越大有可为。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 工程师
    +关注

    关注

    59

    文章

    1553

    浏览量

    67481
  • 数据科学
    +关注

    关注

    0

    文章

    163

    浏览量

    9979
收藏 人收藏

    评论

    相关推荐

    如何搞崩个硬件工程师心态?试试对ta说这几句

    硬件工程师
    扬兴科技
    发布于 :2024年02月20日 18:05:49

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 191次阅读

    飞腾首席科学家窦强荣获 “国家卓越工程师” 称号

         飞腾首席科学家窦强荣获 “国家卓越工程师” 称号 1月19日上午,首届 “国家工程师奖” 表彰大会在北京人民大会堂隆重举行。81 名个人被授予 “国家卓越工程师” 称号,50
    的头像 发表于 01-19 19:22 1067次阅读
    飞腾首席<b class='flag-5'>科学家</b>窦强荣获 “国家卓越<b class='flag-5'>工程师</b>” 称号

    #人工智能 #FPGA 怎么成为个合格的FPGA工程师

    fpga工程师
    明德扬助教小易老师
    发布于 :2023年12月18日 21:19:01

    电子工程师天上班就暴揍师傅。。。#科普 #示波器 #电子工程师 #打工日记

    电子工程师示波器
    安泰小课堂
    发布于 :2023年12月18日 17:36:12

    释放积极信号!“国家工程师奖”首次开评

    近期,国家卓越工程师及卓越工程师团队拟定表彰名单颁布,共包含83位获选为国家卓越工程师、50家团队荣获国家卓越工程师团队称号。从本年度起,首次设立“国家
    的头像 发表于 12-11 11:02 442次阅读

    FPGA工程师需要具备哪些技能?

    ,需要具备系列的技能,才能胜任日益复杂的设计工作。因此,本文将从设计思路、硬件语言、EDA工具、数字信号处理、通信协议、测试验证等多个方面,探讨FPGA工程师需要具备哪些技能。
    发表于 11-09 11:03

    很好的书籍,学以致用

    BlueField系列DPU和NVIDIA DOCA的实用指南,使开发人员和数据科学家走近DPU的应用和编程,是本非常好的DPU入门书籍。
    发表于 10-31 08:45

    华为辟谣3.2万名科学家移籍

    华为辟谣3.2万名科学家移籍 对于近期网络传言的华为3.2万名科学家移籍华为方面表示,造谣者毫无根据、无中生有。 华为辟谣3.2万名科学家移籍以及其他的一些网络传言,比如“华为孟晚舟宣布23万亿
    的头像 发表于 08-22 16:51 991次阅读
    华为辟谣3.2万名<b class='flag-5'>科学家</b>移籍

    热门推荐:硬件工程师必备工具

    硬件开发的工作流程般可分为:原理图设计、PCB Layout设计、采购电子BOM、PCB板生产、PCBA组装、功能调试及测试、小批量试产、大批量生产正式投放市场等步骤。 作为名优秀的硬件工程师
    发表于 06-21 10:15

    芯片测试设备有哪些?看完这篇你就知道了

    芯片测试设备是用于检测芯片性能的工具和设备。这些设备可以帮助工程师科学家和制造商检测和分析芯片的特定属性,以确保它们符合规格和标准。以下是些常见的芯片测试设备: 逻辑分析仪(Logic
    发表于 06-17 15:01

    踏歌智行创始人、首席科学家余贵珍教授登榜“2023科创家”

    “一群跨越了科学与商业边界的人”这是科创媒体36氪对科创企业家的定义。近日, 踏歌智行创始人、首席科学家余贵珍教授从全赛道中脱颖而出, 登榜首届“2023科创家”榜单。此次共有15位教授荣登榜单
    的头像 发表于 06-16 19:15 2250次阅读
    踏歌智行创始人、首席<b class='flag-5'>科学家</b>余贵珍教授登榜“2023科创家”

    性能超ARM A76!国产第代“香山”RISC-V开源处理器最快6月流片

    据开芯院首席科学家包云岗介绍,第代“香山”于2022年6月启动工程优化,同年9月研制完毕,计划2023年6月流片,性能超过2018年ARM发布的Cortex-A76,主频2GHz@14nm
    发表于 05-28 08:41

    科学家用银线团搭建「纳米线网络」,触电就像大脑一样运作

    这也是如今不少AI科学家们梦寐以求的特性。最近,来自悉尼大学和日本国家材料科学研究所的科学家们在自然通讯上发表论文,试着通过使用纳米线网络(NWN)来模拟人类大脑在受到电激时的反应,实验效果还不错。
    的头像 发表于 05-04 09:30 415次阅读
    <b class='flag-5'>科学家</b>用银线团搭建「纳米线网络」,触电就像大脑一样运作