0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

帮助我们创建数据科学领域的下一代数据可视化工具

Tableau社区 来源:Tableau社区 作者:ANA CRISAN 2021-03-19 10:11 次阅读

数据科学在过去十年里蓬勃发展,改变了我们的商业模式,同时对于新一代的年轻人来说,提供了一个未来的职业方向。但在数据科学快速发展的同时,人们对它的理解也在逐步演变,这导致了不同的人对于如何更好地从数据中获取洞察有了不同的观点。对于我来说,数据科学的发展重塑了我的职业生涯,接下来我想深入研究数据科学是什么、数据科学的研究工作是什么以及数据科学家是谁等问题。我查阅了大量的文献,将数据科学和数据科学家的各种研究和分析关联汇总到一起,从而试图来回答了这些问题。我在一篇题为 “Passing the Data Baton: A Retrospective Analysis on Data Science Work and Workers” 的研究出版物中说明了以上结果。

这项研究的部分动机是作为未来研究和开发的基础,这样我可能可以找到一个可视化分析工具还未满足其需求的领域。而另一个动机是,我希望对十多年前我刚开始学习计算机科学时还不存在的这个领域进行自我反思和回顾。在这篇文章中,我总结了这篇研究论文的几个关键收获,并分享了这些发现将如何帮助我们创建数据科学领域的下一代数据可视化工具。

什么是数据科学?

数据科学对不同的人来说是不一样的。对某些人来说,数据科学并不是什么新鲜事,只是统计技术的实际应用,并且已经存在了很长一段时间。对其他人来说,数据科学不仅需要统计方法的知识,而且还需要计算技术使这些方法得到应用。例如,一个数据科学家仅仅理解线性回归是不够的,他们还需要知道如何在大规模的数据中应用线性回归——这不是传统统计学教育的一部分。尽管如此,即使是那些认为数据科学不仅仅是应用统计学的人,也可能并不认为它是一件新事物。收集和分析数据的做法,长期以来一直是科学研究的一部分,例如生物学或物理学;许多人认为,数据科学只是经验科学中对已经存在的研究的延伸。

eee32ca0-879b-11eb-8b86-12bb97331649.png

但其实还有第三种观点,即数据科学确实是一件新的事物,既不同于统计学,也不同于科学家在研究原子和基因时使用的方法。数据科学将统计学、计算机科学以及其他必要的学科专业知识结合起来,带来了数据科学所独有的、由数据科学家所应对的全新挑战。此外,数据科学家开展的工作与其他类型的数据分析不同,它需要更广泛的跨学科技能。我们和其他人的研究都认为数据科学确实是一件全新的、不同的事物,基于这点,我们创建了一个关于数据科学的定义,作为我们工作的基础:

数据科学是一个跨学科领域,旨在通过统计和计算技术的结构化应用,从现实世界的数据中得到新的见解。 这一定义很重要,因为它帮助我们了解数据科学工作者面临的挑战和未满足的需求,它们主要来自于处理真实数据的挑战(而不是模拟数据),以及大规模应用统计和计算方法的挑战。

什么是数据科学工作?

efed810e-879b-11eb-8b86-12bb97331649.png

重要的是,数据科学的有效定义缩小了研究范围。我们并没有包含人们可能希望进行研究的所有类型的数据分析,而是仔细研究那些数据科学家进行研究的分析类型。这种区别很重要,因为实验物理学家分析数据所采取的具体步骤与数据科学家可能采取的分析步骤不同,尽管它们有共同点。这就引出了一个重要的后续问题:究竟什么是数据科学的研究工作? 有好几个行业标准来分解数据科学的研究工作。第一种是 KDD(数据发现中的知识)方法,随着时间的推移,其他人会对该方法进行修改和扩展。基于这些推论,以及采访数据科学家,我们创建了一个框架,其中包括四个高阶过程(准备、分析、部署和通信)和 14 个低阶过程。使用红色笔划轮廓,我们还强调了数据可视化在数据科学工作中已经发挥突出作用的具体领域。在我们的研究文章中,我们提供了这些过程的详细定义和示例。

谁是数据科学工作者?

我们在与数据科学家进行的 12 项深入研究中发现了 9 个数据科学角色。这些年来,我听到了许多关于数据科学家的不同看法。我喜欢的一个例子是,数据科学家是“比统计学家更擅长软件工程,比软件工程师更擅长统计学” 的人。我最近听到的一个直白的说法是,数据科学家是“西海岸的统计学家”。

然而,当我们深入研究现有的数据科学家的研究时,我们没想到发现了一个重要且一致的特征,即 “数据科学家” 的多样性以及它们在特定数据科学过程中的作用如何变化。您可能已经注意到数据工程师的崛起,例如,作为一个独特但仍然相邻的数据科学角色。随着数据科学工作的复杂性的增加,数据科学家变得更专业,往往从事数据科学研究工作的具体方面。Harris 等人的访谈早在 2012 年就已经确定了这一趋势,这种趋势只是随着时间的推移而加速。他们敏锐地发现,数据科学角色之间的这种多样性导致了 “数据科学家和寻求帮助的人之间的交流不畅”。

我们根据 Harris 的研究结果,对 12 项研究进行了调查,共有数千名被认定为数据科学家的个体。通过对这些研究的分析,我们能够识别出 9 个不同的数据角色。这些人有不同的技能和背景,我们以统计、计算机科学和领域专业知识为轴心来说明。我们还将以人为中心的设计纳入了我们对数据科学技能的描述,因为考虑到数据产品的影响,就像面部识别应用程序一样,越来越重要。我们要强调的是,这些角色不是绝对的范畴,它们的边界是不固定的,同时这些角色的技术技能也符合类似的规律。相反,提出这些角色类别的目的是提供一个指导,从而帮助研究人员对于正在交谈的人以及他们的背景有一个直观的认识。

这将如何改变我们创建可视化

和数据分析工具的方式?

当然,最重要的是我们对数据科学的定义以及我们的数据科学工作框架和工作人员如何帮助我们构建更好的数据可视化工具。首先也是最重要的一点是,它有助于提供一个清晰的标准,从而明确了数据科学研究工作的多样性和对应的工作人员。我们已经使用这个框架创建了更清晰的标准来分解数据科学中的 Tableau 客户体验。我们可以更精确地确定他们正试图做什么,并可以就这些过程提出更深入的问题。

已知 “数据科学家” 这个角色本身包含了大量的多样性,我们可以通过将与我们交谈的个人归类到九个数据科学的角色,从而更好地确定谁在执行这项工作。这样的分类使得我们更容易理解可视化系统需要支持的任务以及在什么级别上支持这些任务。例如,技术分析员和 ML/AI 工程师是我们描述的两个数据科学角色,他们都可以参与模型构建的共同任务,但需求截然不同;如果我们忽略这些差异,我们就有可能为这两个角色创建错误的工具。

但也许对我来说最重要的是,这个框架还帮助我思考当前可视化分析工具生态系统中缺少的东西。我得出的一个令人担忧的结论是,现有工具对可视化机器学习模型的关注范围很窄,缺乏支持数据科学研究工作的其他关键方面的工具,如数据准备、部署或通信。这种工具的缺乏不仅增加了数据科学研究工作的开销,还使得数据科学家无论担任什么角色,都更难让他们的工作影响到组织的决策和实践。这项关于数据科学工作和工作者的研究帮助我面对以上挑战,同时为构建更好的工具来帮助人们查看和理解他们的数据提供了机会。

原文标题:数据科学的十年回顾与可视化工具的未来

文章出处:【微信公众号:Tableau社区】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6514

    浏览量

    87609
  • 机器学习
    +关注

    关注

    66

    文章

    8134

    浏览量

    130577

原文标题:数据科学的十年回顾与可视化工具的未来

文章出处:【微信号:TableauChina,微信公众号:Tableau社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    贼拉好用的一个嵌入式数据可视化工具

    相关内容。SerialStudio概述SerialStudio从名称就可以看的出来,它是一款串口(Serial)可视化(Studio)工具:主要用于嵌入式开发者的跨平台数据可视化工具
    的头像 发表于 03-07 08:09 117次阅读
    贼拉好用的一个嵌入式<b class='flag-5'>数据</b><b class='flag-5'>可视化工具</b>

    一个嵌入式数据可视化工具——Serial Studio

    Serial Studio从名称就可以看的出来,它是一款串口(Serial)可视化(Studio)工具:主要用于嵌入式开发者的跨平台数据可视化工具(应用软件,或上位机软件)。
    的头像 发表于 03-04 10:12 1759次阅读

    数据可视化的未来:2024 年及以后

    随着我们进入数据驱动决策的下一个时代,数据可视化领域即将迎来一场变革性革命。随着信息的不断涌入和
    的头像 发表于 01-25 11:52 206次阅读

    一键生成可视化图表/大屏 这13款数据可视化工具很强大

    选择何种数据可视化工具。那么你来对地方了,往下看。 什么是数据可视化? 数据可视化
    的头像 发表于 12-19 17:27 1196次阅读
    一键生成<b class='flag-5'>可视化</b>图表/大屏 这13款<b class='flag-5'>数据</b><b class='flag-5'>可视化工具</b>很强大

    多式数据可视化微观服务

    多式数据可视化微观服务
    的头像 发表于 10-27 16:29 181次阅读
    多式<b class='flag-5'>数据</b><b class='flag-5'>可视化</b>微观服务

    可视化大屏设计模板 | 主题皮肤(报表UI设计)

    下载使用可视化大屏设计模板,减少重复性操作,提高报表制作效率的同时也确保了报表风格致,凸显关键数据信息。 软件:奥威BI系统,又称奥威BI数据可视
    发表于 09-12 10:10

    千人千面的数据分析有没可能?奥威BI数据可视化工具告诉你

    ,实现数字化运营管理。 ③按需筛选。用户可根据具体情况按照组织、时间段、产品品类等条件展开数据筛选分析。 奥威BI数据可视化工具款支持零编程的智能
    发表于 08-29 14:45

    财务数据分析?奥威BI数据可视化工具很擅长

    ,好与不好,目了然。 与其他BI数据可视化工具需要另外从零开始设计财务分析方案不同,奥威BI智能财务方案擅长“BI+方案”组合,最大化发挥“BI工具+智能财务方案”的低成本、低风险、
    发表于 08-29 09:44

    紧跟老板思维,这款数据可视化工具神了

    多维度自助分析;可无边界钻取分析,帮助商品/运营部门以数据驱动运营,实现数字化运营管理。 在奥威BI数据可视化工具的多维动态分析功能的帮助
    发表于 08-22 13:46

    SpeedBI数据可视化工具:浏览器上做分析

    数据源,如数据库、Excel、CSV等,从而满足不同用户的需求。 数据可视化图表多 SpeedBI数据分析云是
    发表于 08-22 10:55

    keras可视化介绍

    keras可视化可以帮助我们直观的查看所搭建的模型拓扑结构,以及模型的训练的过程,方便我们优化模型。 模型可视化又分为模型拓扑结构可视化以及
    发表于 08-18 07:53

    请注意!这些都是国内主流的可视化工具

    可视化不单单指数据可视化,还包含了信息可视化、2D可视化、3D可视化等,
    的头像 发表于 08-11 16:02 365次阅读
    请注意!这些都是国内主流的<b class='flag-5'>可视化工具</b>

    可视化工厂实现生产智能管理解决方案

    随着科学技术的不断发展,可视化技术在工业生产领域应用越来越广泛。可视化工厂通过将设备、数据和生产工艺以图形图表的形式展示出来,
    的头像 发表于 08-10 11:22 300次阅读

    10款数据可视化工具,同行公认的好BI

    都说内行看门道,一款BI数据可视化工具好不好,同行心里比谁都清楚。那么,能够得到同行一致认可的BI数据可视化工具有哪些,各自又有着怎样的特色优势?接下来就来简单地总结下。 1、Tabl
    的头像 发表于 08-10 10:46 788次阅读
    10款<b class='flag-5'>数据</b><b class='flag-5'>可视化工具</b>,同行公认的好BI

    几款好用的可视化工具推荐

    。同时,利用可视化软件可以简洁、清晰地理解和记忆数据,并帮助我们发现数据中的模式和趋势。通过可视化工具
    的头像 发表于 07-23 15:24 670次阅读
    几款好用的<b class='flag-5'>可视化工具</b>推荐