0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何建立一个强大的数据科学团队?

如意 来源:TechTarget中国 作者:邹铮 2020-08-31 14:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据科学团队中的每个角色都很重要。你需要了解这些角色以及正确发挥他们的作用,以从对数据科学家的巨额投资中获得价值,而不是为表现不佳的团队支付过多费用。

Deloitte AI Institute执行董事Beena Ammanath说:“我们不应该说‘让我们来聘请数据科学家,以及让我们来建立数据团队’,而是应该关联业务挑战,例如流程优化、成本节省、新产品线或竞争对手的业务。”

谁在数据科学团队中?

显然,数据科学家是数据科学团队的重要组成部分。很多数据科学家通常具有数据或统计学方面的高学位,并具有R或Python的编码技能,但他们还必须了解企业想要实现的目标。他们的工作往往具有探索性和迭代性。

俄罗斯数据科学咨询公司BroutonLab的首席技术官兼创始人Michael Yurushkin表示,企业想要实现的目标将确定其聘用的数据科学家的类型。

Yurushkin说:“如果你的目标是改善内容发现、广告定位、收入优化和搜索结果,则应雇用机器学习专家。如果你的目标是测试你的产品设计–使用带有最小偏差的受控实验,那么你需要专门从事实验设计和因果推断的统计人员小组。”

广告植入和许可公司Branded Entertainment Network的AI主管Tyler Folkman说,他是全栈数据科学的忠实拥护者,其中数据科学家收集自己的数据、对其进行清理、对其进行处理、建立模型、将这些模型投入生产,并确保它们为最终用户提供价值。

但是,数据科学家需要可靠的数据。这正是数据工程师的用武之地。他们建立数据管道并管理数据。

Folkman说:“数据工程师构建工具,使数据科学家能够轻松有效地全栈工作。我还没有找到开箱立即提供所需一切功能的供应商,因此让数据工程师构建自己的平台非常有价值,这个平台应整合内部工具、开源工具甚至企业工具。”

大多数专家表示,数据分析师通常是在数据分析师团队或业务部门工作,而不是数据科学团队。不管他们属于哪个部门,他们的技术水平都不及数据科学家和数据工程师,而且他们专注于数据科学的后期阶段,即分析和共享见解。

Folkman认为数据分析师和研究科学家应作为数据科学团队结构的一部分。分析师拥有数据,有助于确保数据健康,并为整个公司提供见解。研究科学家们不断提高技术水平,并投资基础研究。

BroutonLab的Yurushkin还认为需要数据战略家,他作为业务与数据科学团队之间的桥梁。他还认为那些计划建立大型数据科学团队的企业要有数据架构师。

大数据研究所董事总经理Jesse Anderson推荐三种数据团队:数据科学、数据工程和运营。他也是即将出版的《Data Teams: A Unified Management Model for Successful Data-Focused Teams》的作者。

Anderson说:“运营工程师具有专门的能力来监视和管理这些大数据系统。”

但是,当没有数据工程团队时,没有人会注意架构或代码质量问题,这会造成多年的技术负担。Anderson说,而当缺少运营团队时,企业可能会采用在生产中无法正常运行的模型和代码。

公民数据科学家的作用以及他们使用的工具

公民数据科学家是业务领域的超级用户。与真正的数据科学家不同,他们往往缺乏深厚的统计知识,不会使用R或Python进行编程,也不了解机器学习的工作原理

增强型分析工具供应商表示,他们正在使数据科学民主化,这意味着他们将提供简单、功能强大的工具,让公民数据科学家可以用来解决相对简单的问题,例如了解为什么某个地区或某个季度销售额下降。增强分析工具使用AI和机器学习来简化数据准备和分析等任务。相比之下,数据科学家使用专家级工具来帮助解决复杂问题。

Anderson说:“公民数据科学将能够访问企业用于决策的相同数据,而无需等待支持。”

目前有两种方法可以应对公民数据科学。首先是让数据科学团队为大家建立或提供自助服务工具。另一种方法是让业务部门获取自己的工具。前一种方法可最大程度地减少工具蔓延。还可以最大程度降低风险–通过确保对数据和数据使用进行管理和保护。

Ammanath说:“如果你在此过程中处于非常领先的地位,那么在整个企业中拥有公民数据科学是至关重要的,因为你希望他们能够进行自己的数据探索。但是,如果你还处于早期阶段,那么让每个人都可使用数据可能是没有意义,因为你需要了解数据的质量和背景信息。”

数据科学家向谁报告?

数据科学团队可以向首席执行官、首席运营官、首席财务官、首席信息官、首席技术官,首席行政官、首席数据官或其他高级管理人员或副总裁报告。该团队向谁报告将影响该团队所做的工作。根据Anderson的说法,首席营销官可能过于关注产品,首席财务官可能专注于规避风险,而首席技术官或工程副总裁可能不了解数据科学与软件工程的区别。

Ammanath说,数据科学团队应该向CAO或CDO报告,因为拥有集中的数据科学职能非常重要。否则,该举措会变得狭窄而迷失。

该团队向谁报告通常取决于其组织方式。有些企业创建集中的数据科学团队。在其他公司中,业务部门雇用自己的数据科学家。对于更成熟的组织,第三个选择是将这两种结构组合成中心辐射型模型,该模型具有卓越中心,由具有特定业务领域专业知识的数据科学家或数据科学团队支持。

你需要CAO还是CDO?

CAO和CDO的角色经常被混淆。企业可能会混淆使用这两个职位头衔,而没有考虑它们之间的差异。大公司可能同时兼有这两个职位。

Anderson说:“首席分析官通常具有很高的分析背景,而首席数据官则可能具有数据工程背景,也许是数据仓库甚至是DBA(数据库管理员)背景。”

你是否应该雇用CAO还是CDO?答案是肯定的,如果你的企业足够成熟,你可以适当地支持这些职位,而且你会意识到需要这种级别的责任。大公司往往会创建该职位,他们会发现对该职位的需求很明显。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据采集
    +关注

    关注

    40

    文章

    7804

    浏览量

    119840
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143062
  • 数据科学
    +关注

    关注

    0

    文章

    168

    浏览量

    10749
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中科曙光推出科学大模型站式开发平台OneScience

    for Science热点模型及数据集,支持地球科学、生物信息、流体仿真、材料化学等领域用户进步开发新模型,并实现百倍提升模型研发与优化效率,让用户3小时开发
    的头像 发表于 10-28 17:29 721次阅读

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保护科学

    和部署用于海洋科学的实时声学监测系统,但要使我们的技术发挥作用,需要平台。ARMSoM CM5 及其外围硬件与 Northport Limited 合作,安装在新西兰北部旺格雷港内的
    发表于 10-27 09:18

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五
    发表于 09-17 11:45

    科学团队在红外光谱遥感分析方法领域取得新进展

    图1. 基于VDL-DTCWT的背景光谱实时合成框架 近日,中国科学院合肥物质院安光所团队在红外光谱遥感分析领域取得新进展。相关研究成果以《基于可变分解层双树复小波变换的大气污染红外光谱定量分析》为
    的头像 发表于 09-16 07:57 123次阅读
    <b class='flag-5'>科学</b>岛<b class='flag-5'>团队</b>在红外光谱遥感分析方法领域取得新进展

    SOLIDWORKS教育版 团队协作与沟通技巧的提升

    在工程技术教育领域,SOLIDWORKS教育版不仅是强大的三维CAD设计软件,更是培养学生团队协作与沟通技巧的重要工具。随着工程项目的日益复杂和跨学科合作的普及,良好的团队协作与沟
    的头像 发表于 04-29 11:35 443次阅读
    SOLIDWORKS教育版 <b class='flag-5'>团队</b>协作与沟通技巧的提升

    SOLIDWORKS 2025教育版有效的数据管理与团队协作

    在当今数字化时代,工程设计领域对数据管理和团队协作的要求日益提高。SOLIDWORKS 2025教育版作为款CAD软件,以其强大数据管理
    的头像 发表于 04-07 17:28 587次阅读
    SOLIDWORKS 2025教育版有效的<b class='flag-5'>数据</b>管理与<b class='flag-5'>团队</b>协作

    云服务器计算池的运维团队需要掌握的网络工具

    和性能指标,帮助运维团队及时发现并解决问题。 Prometheus + Grafana Prometheus 是款开源的监控系统,适用于云原生和容器化环境,支持多维数据模型和强大的查
    的头像 发表于 02-17 15:50 552次阅读

    SOLIDWORKS 2025:支持用户与团队成员无缝协作

    在快速发展的工程设计和制造领域,团队合作与有效沟通已成为推动项目成功的关键因素。SOLIDWORKS作为3D CAD解决方案提供商,直致力于通过技术创新提升用户的设计效率和协作能力。随着SOLIDWORKS 2025的发布,这款强大
    的头像 发表于 02-12 14:15 626次阅读
    SOLIDWORKS 2025:支持用户与<b class='flag-5'>团队</b>成员无缝协作

    海光信息技术团队成功适配DeepSeek大模型

    近日,海光信息技术团队宣布,已成功完成DeepSeek-Janus-Pro多模态大模型与海光DCU(数据计算单元)的适配优化,并正式上线运行。这成果标志着海光团队在推动AI大模型与国
    的头像 发表于 02-08 14:10 1108次阅读

    字节豆包大模型团队成立AGI长期研究团队Seed Edge

     据1月24日的报道,字节跳动旗下的豆包大模型团队已悄然组建了专注于通用人工智能(AGI)的长期研究团队,内部代号为“Seed Edge”。该
    的头像 发表于 01-24 15:03 2018次阅读

    首个科学计算基座大模型BBT-Neutron开源,助力突破大科学装置数据分析瓶颈

    大语言模型能否解决传统大语言模型在大规模数值数据分析中的局限性问题,助力科学界大科学装置设计、高能物理领域科学计算? 高能物理是探索宇宙基本组成与规律的前沿
    的头像 发表于 12-26 15:29 1135次阅读
    首个<b class='flag-5'>科学</b>计算基座大模型BBT-Neutron开源,助力突破大<b class='flag-5'>科学</b>装置<b class='flag-5'>数据</b>分析瓶颈

    国外科研团队在X射线科学领域取得了重大突破

    了兆赫兹级别,为超快电子动力学研究开辟了新领域。 此次团队展示了单尖峰硬X射线脉冲,其脉冲能量超过100微焦耳,脉冲持续时间仅为几百阿秒(1阿秒=10-18秒)。这时间尺度使科学家能够捕捉到物质中最快的电子运动。
    的头像 发表于 12-20 09:11 673次阅读

    中国科学技术大学团队突破非接触心脏活动感知技术

    近日,中国科学技术大学的陈彦教授团队在非接触心脏活动感知研究领域取得了重大突破。他们首次发现并成功利用了心脏机械活动谐波中的“拍频效应”这关键物理现象,为远程监测心脏活动提供了全新的技术手段。 在
    的头像 发表于 12-17 11:09 1832次阅读

    ClickHouse:强大数据分析引擎

    库,是款开源的面向列的分布式数据库管理系统,以其卓越的性能和强大数据分析能力在大数据领域备受瞩目。 列式存储 列式存储是
    的头像 发表于 12-10 10:23 867次阅读
    ClickHouse:<b class='flag-5'>强大</b>的<b class='flag-5'>数据</b>分析引擎

    DAC81408的建立时间为12uS,如何理解数据手册中的12uS建立时间这个参数呢?

    数据手册中,DAC81408的建立时间为12uS 而爬升速率0~5V为1V/uS,如果控制输出从0V跳变至5V,以此时间计算,时间为5uS,小于12uS的建立时间典型值 如上图所示为
    发表于 12-09 08:33