0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

帮助我们创建数据科学领域的下一代数据可视化工具

Tableau社区 来源:Tableau社区 作者:ANA CRISAN 2021-03-19 10:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据科学在过去十年里蓬勃发展,改变了我们的商业模式,同时对于新一代的年轻人来说,提供了一个未来的职业方向。但在数据科学快速发展的同时,人们对它的理解也在逐步演变,这导致了不同的人对于如何更好地从数据中获取洞察有了不同的观点。对于我来说,数据科学的发展重塑了我的职业生涯,接下来我想深入研究数据科学是什么、数据科学的研究工作是什么以及数据科学家是谁等问题。我查阅了大量的文献,将数据科学和数据科学家的各种研究和分析关联汇总到一起,从而试图来回答了这些问题。我在一篇题为 “Passing the Data Baton: A Retrospective Analysis on Data Science Work and Workers” 的研究出版物中说明了以上结果。

这项研究的部分动机是作为未来研究和开发的基础,这样我可能可以找到一个可视化分析工具还未满足其需求的领域。而另一个动机是,我希望对十多年前我刚开始学习计算机科学时还不存在的这个领域进行自我反思和回顾。在这篇文章中,我总结了这篇研究论文的几个关键收获,并分享了这些发现将如何帮助我们创建数据科学领域的下一代数据可视化工具。

什么是数据科学?

数据科学对不同的人来说是不一样的。对某些人来说,数据科学并不是什么新鲜事,只是统计技术的实际应用,并且已经存在了很长一段时间。对其他人来说,数据科学不仅需要统计方法的知识,而且还需要计算技术使这些方法得到应用。例如,一个数据科学家仅仅理解线性回归是不够的,他们还需要知道如何在大规模的数据中应用线性回归——这不是传统统计学教育的一部分。尽管如此,即使是那些认为数据科学不仅仅是应用统计学的人,也可能并不认为它是一件新事物。收集和分析数据的做法,长期以来一直是科学研究的一部分,例如生物学或物理学;许多人认为,数据科学只是经验科学中对已经存在的研究的延伸。

eee32ca0-879b-11eb-8b86-12bb97331649.png

但其实还有第三种观点,即数据科学确实是一件新的事物,既不同于统计学,也不同于科学家在研究原子和基因时使用的方法。数据科学将统计学、计算机科学以及其他必要的学科专业知识结合起来,带来了数据科学所独有的、由数据科学家所应对的全新挑战。此外,数据科学家开展的工作与其他类型的数据分析不同,它需要更广泛的跨学科技能。我们和其他人的研究都认为数据科学确实是一件全新的、不同的事物,基于这点,我们创建了一个关于数据科学的定义,作为我们工作的基础:

数据科学是一个跨学科领域,旨在通过统计和计算技术的结构化应用,从现实世界的数据中得到新的见解。 这一定义很重要,因为它帮助我们了解数据科学工作者面临的挑战和未满足的需求,它们主要来自于处理真实数据的挑战(而不是模拟数据),以及大规模应用统计和计算方法的挑战。

什么是数据科学工作?

efed810e-879b-11eb-8b86-12bb97331649.png

重要的是,数据科学的有效定义缩小了研究范围。我们并没有包含人们可能希望进行研究的所有类型的数据分析,而是仔细研究那些数据科学家进行研究的分析类型。这种区别很重要,因为实验物理学家分析数据所采取的具体步骤与数据科学家可能采取的分析步骤不同,尽管它们有共同点。这就引出了一个重要的后续问题:究竟什么是数据科学的研究工作? 有好几个行业标准来分解数据科学的研究工作。第一种是 KDD(数据发现中的知识)方法,随着时间的推移,其他人会对该方法进行修改和扩展。基于这些推论,以及采访数据科学家,我们创建了一个框架,其中包括四个高阶过程(准备、分析、部署和通信)和 14 个低阶过程。使用红色笔划轮廓,我们还强调了数据可视化在数据科学工作中已经发挥突出作用的具体领域。在我们的研究文章中,我们提供了这些过程的详细定义和示例。

谁是数据科学工作者?

我们在与数据科学家进行的 12 项深入研究中发现了 9 个数据科学角色。这些年来,我听到了许多关于数据科学家的不同看法。我喜欢的一个例子是,数据科学家是“比统计学家更擅长软件工程,比软件工程师更擅长统计学” 的人。我最近听到的一个直白的说法是,数据科学家是“西海岸的统计学家”。

然而,当我们深入研究现有的数据科学家的研究时,我们没想到发现了一个重要且一致的特征,即 “数据科学家” 的多样性以及它们在特定数据科学过程中的作用如何变化。您可能已经注意到数据工程师的崛起,例如,作为一个独特但仍然相邻的数据科学角色。随着数据科学工作的复杂性的增加,数据科学家变得更专业,往往从事数据科学研究工作的具体方面。Harris 等人的访谈早在 2012 年就已经确定了这一趋势,这种趋势只是随着时间的推移而加速。他们敏锐地发现,数据科学角色之间的这种多样性导致了 “数据科学家和寻求帮助的人之间的交流不畅”。

我们根据 Harris 的研究结果,对 12 项研究进行了调查,共有数千名被认定为数据科学家的个体。通过对这些研究的分析,我们能够识别出 9 个不同的数据角色。这些人有不同的技能和背景,我们以统计、计算机科学和领域专业知识为轴心来说明。我们还将以人为中心的设计纳入了我们对数据科学技能的描述,因为考虑到数据产品的影响,就像面部识别应用程序一样,越来越重要。我们要强调的是,这些角色不是绝对的范畴,它们的边界是不固定的,同时这些角色的技术技能也符合类似的规律。相反,提出这些角色类别的目的是提供一个指导,从而帮助研究人员对于正在交谈的人以及他们的背景有一个直观的认识。

这将如何改变我们创建可视化

和数据分析工具的方式?

当然,最重要的是我们对数据科学的定义以及我们的数据科学工作框架和工作人员如何帮助我们构建更好的数据可视化工具。首先也是最重要的一点是,它有助于提供一个清晰的标准,从而明确了数据科学研究工作的多样性和对应的工作人员。我们已经使用这个框架创建了更清晰的标准来分解数据科学中的 Tableau 客户体验。我们可以更精确地确定他们正试图做什么,并可以就这些过程提出更深入的问题。

已知 “数据科学家” 这个角色本身包含了大量的多样性,我们可以通过将与我们交谈的个人归类到九个数据科学的角色,从而更好地确定谁在执行这项工作。这样的分类使得我们更容易理解可视化系统需要支持的任务以及在什么级别上支持这些任务。例如,技术分析员和 ML/AI 工程师是我们描述的两个数据科学角色,他们都可以参与模型构建的共同任务,但需求截然不同;如果我们忽略这些差异,我们就有可能为这两个角色创建错误的工具。

但也许对我来说最重要的是,这个框架还帮助我思考当前可视化分析工具生态系统中缺少的东西。我得出的一个令人担忧的结论是,现有工具对可视化机器学习模型的关注范围很窄,缺乏支持数据科学研究工作的其他关键方面的工具,如数据准备、部署或通信。这种工具的缺乏不仅增加了数据科学研究工作的开销,还使得数据科学家无论担任什么角色,都更难让他们的工作影响到组织的决策和实践。这项关于数据科学工作和工作者的研究帮助我面对以上挑战,同时为构建更好的工具来帮助人们查看和理解他们的数据提供了机会。

原文标题:数据科学的十年回顾与可视化工具的未来

文章出处:【微信公众号:Tableau社区】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7379

    浏览量

    95298
  • 机器学习
    +关注

    关注

    67

    文章

    8574

    浏览量

    137558

原文标题:数据科学的十年回顾与可视化工具的未来

文章出处:【微信号:TableauChina,微信公众号:Tableau社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    VirtualLab Fusion中的可视化设置

    摘要 VirtualLab Fusion中的全局选项对话框可以轻松定制软件的外观和感觉。还可以保存和加载全局选项文件,以便可以轻松地将偏好设置从个设备转移到另个设备。本文档说明了与可视化和结果
    发表于 06-03 08:28

    利用数据API构建实时数据分析与可视化报表系统

    API(涵盖销售统计、用户画像、流量分析等)进行高效的数据整合、分析,并实现 自定义报表生成 和 实时数据可视化 ,为商业决策提供强大支持。
    的头像 发表于 04-02 15:56 260次阅读
    利用<b class='flag-5'>数据</b>API构建实时<b class='flag-5'>数据</b>分析与<b class='flag-5'>可视化</b>报表系统

    3D系统可视化

    本身的深入描述和F-Theta透镜的应用示例。 光学系统的3D-可视化 VirtualLab Fusion提供的工具可以实现光学系统的3D可视化,因此可以用于检查元件的位置,以及快速了解系统内部的光
    发表于 03-30 09:25

    华为数据通信携手全球伙伴共探下一代网络发展方向

    作为全球互联网技术领域顶级盛会,第125届互联网工程任务组会议(IETF 125)近日在深圳召开。华为数据通信深度参与,通过前沿技术提案与创新实践,携手全球伙伴共探下一代网络发展方向。
    的头像 发表于 03-24 15:03 573次阅读
    华为<b class='flag-5'>数据</b>通信携手全球伙伴共探<b class='flag-5'>下一代</b>网络发展方向

    Molex产品组合推动下一代数据中心高速互连

    云计算、物联网、VR/AR、数字孪生、人工智能(AI)……这些让科技圈热血沸腾的技术背后,都有个共同的底层逻辑——它们都是以海量数据的处理作为支撑的。因此,无论是哪条赛道上的竞争,都会体现为数字基础设施建设上的比拼,即新一代数据
    的头像 发表于 03-12 10:38 809次阅读

    芯科科技免费提供SystemView可视化分析工具

    Silicon Labs(芯科科技)近期宣布与嵌入式设计领导者 SEGGER 建立合作伙伴关系,为所有采用芯科科技技术的开发者免费提供SystemView工具-这是款专业级的跟踪与可视化工具,无需
    的头像 发表于 02-28 15:13 1444次阅读

    最受欢迎的大数据可视化工具

     在数聚股份看来,大数据可视化是进行各种大数据分析的最重要组成部分之旦原始数据流被以图像
    的头像 发表于 12-24 17:05 470次阅读
    最受欢迎的大<b class='flag-5'>数据</b><b class='flag-5'>可视化工具</b>

    工业物联网可视化平台是什么?有什么功能?

    工业物联网可视化平台是基于物联网、大数据、人工智能等技术,将工业生产中的设备、系统、流程等数据以图形化方式呈现,实现实时监控、智能分析与交互式管理的数字化工具。 其核心功能涵盖
    的头像 发表于 11-17 17:49 1581次阅读

    安森美SiC器件赋能下一代AI数据中心变革

    安森美(onsemi)凭借其业界领先的Si和SiC技术,从变电站的高压交流/直流转换,到处理器级的精准电压调节,为下一代AI数据中心提供了从3kW到25-30kW HVDC的供电全环节高能效、高密度
    的头像 发表于 10-31 13:47 1244次阅读

    工业可视化平台是什么

    工业可视化平台是种基于信息技术和可视化技术,将工业生产过程中的数据、信息、流程等以直观、动态的图形化方式呈现,并实现交互式管理与分析的数字化工具
    的头像 发表于 10-24 18:00 1362次阅读

    适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM skyworksinc

    电子发烧友网为你提供()适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM相关产品参数、数据手册,更有适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM的引脚图、接线图、封装
    发表于 09-05 18:34
    适用于<b class='flag-5'>下一代</b> GGE 和 HSPA 手机的多模/多频段 PAM skyworksinc

    文读懂 | 晶圆图Wafer Maps:半导体数据可视化的核心工具

    在精密复杂的半导体制造领域,海量数据的有效解读是提升产能、优化良率的关键。数据可视化技术通过直观呈现信息,帮助工程师快速识别问题、分析规律,
    的头像 发表于 08-19 13:47 3833次阅读
    <b class='flag-5'>一</b>文读懂 | 晶圆图Wafer Maps:半导体<b class='flag-5'>数据</b><b class='flag-5'>可视化</b>的核心<b class='flag-5'>工具</b>

    安森美携手英伟达推动下一代AI数据中心发展

    安森美(onsemi,美国纳斯达克股票代号:ON)宣布与英伟达(NVIDIA)合作,共同推动向800V直流(VDC)供电架构转型。这变革性解决方案将推动下一代人工智能(AI)数据中心在能效、密度及可持续性方面实现显著提升。
    的头像 发表于 08-06 17:27 1890次阅读

    如何使用协议分析仪进行数据分析与可视化

    使用协议分析仪进行数据分析与可视化,需结合数据捕获、协议解码、统计分析及可视化工具,将原始数据转化为可解读的图表和报告。以下是详细步骤及关键
    发表于 07-16 14:16

    什么是数字孪生 —— 释放数据价值,预见运营未来

    大核心技术的下一代数字孪生系统,正在彻底改变企业运营与决策模式! 我们专注于数字孪生领域,深知其变革潜力。基于领先的数字孪生平台、强大的大数据中心、稳健的物联网平台 ,
    的头像 发表于 06-25 11:19 897次阅读
    什么是数字孪生 —— 释放<b class='flag-5'>数据</b>价值,预见运营未来