0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MIT开发数据分析师的“无界画布”

Hf1h_BigDataDig 来源:YXQ 2019-07-11 15:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

还记得《复仇者联盟2》里面钢铁侠和班纳博士创造奥创的时候,使用全息投影将三维数据投射到空气中,然后直接用双手操控这些数据的画面吗?

遗憾的是,这样的系统目前尚未成为现实。

是什么限制了我们像钢铁侠一样操作数据呢?如果暂时还想不到答案,不如我们先来看一下要实现这个需要哪些技术吧。

首先肯定是全息投影,很多人可能认为,限制这个技术的肯定是没有这么好的全息投影,诚然,全息投影目前还尚未成熟,但是以目前的发展来看,并不是说现有的技术不能将数据表实时投影到三维空间中,还记得五月中旬被Magic Leap收购的Mimesys公司么?我们来看看这家公司已经将全息投影做到什么地步了。

建筑模型和人都进行了全息投影,而且人还可以对模型进行交互操作,是不是有点赛博朋克?

也就是说,尽管在边界的处理还存在一些瑕疵,但是将数据表投影到空气中并进行操作,并不是遥不可及的。

那是究竟什么封印了Stark的出现?

答案是智能。因为就算我们将各种数据表投影到了空气中,并且各种诸如手环、指环的传感器也能够将我们的动作反映给计算机形成指令,但是如果没有智能,我们实现的仅仅就是用了更加炫酷的姿势来操作Excel而已。你将一个表格拖过来,也就实现了ctrl+c&ctrl+v。

两家高校的研究员正在尝试突破这个瓶颈。

不久之前,麻省理工学院和布朗大学的研究人员开发了一个在触摸屏上运行的交互式智能数据分析系统,名为Northstar,该系统在云中运行,而且其界面支持任何触摸屏设备,包括智能手机和大型交互式显示屏。

更关键的是,它可以根据用户操作实时生成机器学习模型,从而在其数据集上运行预测任务。

而这,得益于一项新的AutoML组件:VDS

迄今为止最快的交互式AutoML工具——VDS

VDS首先出现在ACM SIGMOD会议上发表的一篇论文中,利用的是现在比较火的人工智能技术——自动机器学习(AutoML),它可以让没有数据科学知识的人根据他们的数据集训练AI模型进行预测。

例如,医生可以使用该系统来帮助预测哪些患者更容易患某些疾病,而企业主也可以通过该系统预测销售情况。用户也可以通过使用交互式显示屏进行实时协作。这个系统的目的是使用户更容易进行复杂的数据分析,同时保证分析的速度和准确度,在此基础上实现数据科学的大众化。

“即使是不了解数据科学的咖啡店老板也应该能够预测未来几周内他们的销售情况,以确定要进多少货”,论文的共同作者和长期担任Northstar项目的负责人Tim Kraska说。他是麻省理工学院计算机科学和人工智能实验室(CSAIL)的电气工程和计算机科学副教授,也是新数据系统和人工智能实验室(DSAIL)的创始人之一。

目前,自动机器学习技术的优化基于DARPA D3M自动机器学习竞赛,该竞赛每六个月决出一次性能最佳的AutoML工具。

数据分析师的“无界画布”

这一新成果建立在麻省理工学院和布朗研究员在Northstar的多年合作基础之上。四年多来,研究人员发表了大量论文,详细介绍Northstar组件,包括交互式界面,多平台操作,加速运行结果以及用户行为研究。

Northstar系统以空白白色界面开始。用户将数据集上载到系统之后,该数据集会显示在左侧的“数据集”框中。任何数据标签都会自动填充进界面下方的“属性”框。界面上还有一个“运算符”框,其中包含各种算法,以及新的AutoML工具。所有数据都在云中存储和分析。

下面让我们用一个例子详细论述:

设想一群医学研究人员,他们想要探究某年龄组中特定疾病并发可能性。

他们将模式检查算法拖放到界面中间,该算法最初显示为空白框。

作为输入,他们将标记好的疾病特征如“血液”、“传染性”和“代谢”移动到算法框中。

随后,算法框中就会显示这些疾病的百分比。如果他们将“年龄”特征拖到界面中,该界面就会出现另外一个框,框内会显示患者年龄分布的条形图。

最后,在两个框之间画一条线将它们连接在一起,算法就会立即自动计算围绕不同年龄范围的三种疾病的关联和并发现象。

“这就像一个大而无界的画布,你可以在这里展示你想要的一切”,Northstar互动界面的主要开发者的Zgraggen说,“你还可以将所有内容链接在一起,以处理更复杂的问题”。

通过VDS,用户现在还可以通过个性化模型,使其适合自己的分析任务,并在自己的数据集上进行预测分析,例如数据预测,图像分类或分析复杂图形结构。

以上述的医学探究为例,医学研究人员希望根据数据集中的特征预测哪些患者可能患有血液疾病。他们从算法列表中将“AutoML”拖入数据集中。系统首先会产生一个带有“目标”标签的空白框。研究人员将“血液”这一标签拖到空白框。系统将自动找到性能最佳的机器学习算法,以不断更新的精度百分比的选项卡显示。用户可以随时停止该过程,优化搜索,并检查每个模型的错误率,结构,计算和其他事项。

请看视频演示:

实时智能交互,才是真正的交互

据研究人员的介绍,VDS是迄今为止最快的交互式AutoML工具,这部分归功于他们定制的“估算引擎”。引擎位于界面和云存储之间。引擎自动创建数据集的几个代表性样本进行逐步处理,从而在几秒钟内生成高质量的结果。

“我们花了两年时间设计VDS,使之契合数据科学家的思维方式,”论文的另一位作者Shang说。VDS可以根据各种编译规则,立即确定哪些模型和预处理步骤是不是应该为用户提前实现。

在机器学习模型的选择上,它可以从那些大量的机器学习算法列表中选择并在样本集上运行模拟,同时记录结果并优化选择。在提供快速近似结果后,系统还会在后端细化结果。

“至于预测,用户不希望等待四个小时才能获得第一个结果。用户希望看到实时发生的事情,这样如果发现了错误,用户可以立即纠正它。但这在任何其他系统中通常是不可能的”,Kraska说。

研究人员在300个真实数据集上对工具进行评估。与其他最先进的AutoML系统相比,VDS预测的准确度大致相同,但VDS的预测结果可以在几秒钟内生成,这比其他工具快得多,后者往往需要在几分钟到几小时内才能运行出结果。

有了Northstar的VDS组件,我们得到了一个二维空间的交互式智能数据分析系统,也许离钢铁侠的实验室还有点距离,但是如果有一天Northstar将全息投影加到下一代分析系统中,那么——也许我就可以坐在沙发上小手一挥:“Javis,把我这个表做好发给老板。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • MIT
    MIT
    +关注

    关注

    3

    文章

    254

    浏览量

    25036
  • 数据分析
    +关注

    关注

    2

    文章

    1523

    浏览量

    36360

原文标题:MIT开发数据分析师的“无界画布”:实时交互预测,可拖拽的AutoML系统

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瓴羊Quick BI V6.1智能小Q深度进化,超级数据分析师如何更好用?

    自25年8月发布以来,瓴羊Quick BI智能小Q作为数据分析Agent的先行者,已在零售、金融、制造等行业的百余个业务场景中完成价值验证,让“人人拥有超级数据分析师”从愿景走向现实。但在应用场
    的头像 发表于 03-18 10:18 136次阅读
    瓴羊Quick BI V6.1智能小Q深度进化,超级<b class='flag-5'>数据分析师</b>如何更好用?

    利用BigQuery MCP服务器开发面向数据分析的生成式AI应用

    。借助 BigQuery MCP 服务器,您现在可以为 AI 智能体提供一种直接且安全的数据分析方式。这一全托管式 MCP 服务器不会带来额外的管理开销,让您可以专注于智能体的开发
    的头像 发表于 02-25 10:22 448次阅读
    利用BigQuery MCP服务器<b class='flag-5'>开发</b>面向<b class='flag-5'>数据分析</b>的生成式AI应用

    API数据分析:淘宝流量来源分析,渠道优化!

    优化渠道策略。我们将使用Python作为工具,结合数据分析和统计方法,确保过程真实可靠。 1. 理解淘宝流量来源 淘宝流量主要来自多个渠道,包括: 直接访问 :用户直接输入淘宝网址或从收藏夹访问。 搜索引擎 :如百度或淘宝内搜索,贡献
    的头像 发表于 01-23 13:42 390次阅读
    API<b class='flag-5'>数据分析</b>:淘宝流量来源<b class='flag-5'>分析</b>,渠道优化!

    利用拼多多用户API进行粉丝数据分析,有效提升用户粘性

    这些API进行粉丝数据分析,并基于分析结果制定增强用户粘性的策略。 一、 拼多多用户API概览 拼多多开放平台提供了丰富的API接口,涵盖商品、交易、用户、物流等多个维度。对于粉丝数据分析,以下几个API尤为关键: 粉丝明细查询
    的头像 发表于 12-30 10:38 368次阅读
    利用拼多多用户API进行粉丝<b class='flag-5'>数据分析</b>,有效提升用户粘性

    经营数据分析可以通过哪些方式

    系统的、科学的、符合商业规律的数据分析知识。这些数据分析都要基于数据质量,所以通常我们还会需要有个数据质量管理的相关体系来配合。  经营
    的头像 发表于 12-05 16:31 736次阅读

    技术探索 | 淘宝平台商品评论数据获取方法与接口浅析

    ​  导语: 在电商数据分析和竞品研究领域,商品评论数据蕴藏着巨大的价值。对于淘宝这个国内领先的电商平台,如何高效、合规地获取其商品评论信息,是许多开发者和数据分析师关注的问题。本文将
    的头像 发表于 11-07 14:09 563次阅读
    技术探索 | 淘宝平台商品评论<b class='flag-5'>数据</b>获取方法与接口浅析

    广立微DE-G零断档重构智能数据分析

    近日,数据分析领域被一则消息推上风口浪尖:一家老牌软件巨头将撤出中国。在此背景下,其旗下以灵活著称的数据分析软件,在中国市场的未来将面临极大的不确定性。
    的头像 发表于 11-07 10:39 821次阅读

    Forrester首席分析师谈Net5.5G数据中心网络

    Forrester Research首席分析师Andre Kindness谈及AI对数据中心网络的影响,指出面临性能、扩展性与编排管理三大挑战。关于数据中心功能协同,传统通用架构已分化为通用
    的头像 发表于 10-14 14:29 786次阅读

    Omdia高级首席分析师畅谈运营商面临的网络挑战

    Omdia高级首席分析师Sameer Ashfaq Malik指出,运营商面临三大核心网络挑战:传统服务收入低迷、新兴服务(如人工智能)规模化进程缓慢,以及运营成本(OPEX)持续攀升。“AI
    的头像 发表于 10-13 09:19 1286次阅读

    学习物联网可以做什么工作?

    嵌入式软件和硬件,支持物联网设备的功能实现。   数据分析师:负责从物联网设备和传感器中获取和分析数据,并提供数据支持和决策。   物联网产品经理:负责物联网产品的策划、设计、实施、推
    发表于 10-11 16:40

    【产品介绍】Altair RapidMiner数据分析与人工智能平台

    AltairRapidMiner赋能组织解锁数据洞察,运用数据分析和先进的人工智能自动化,提供可扩展的面向未来的解决方案。Altair数据分析和人工智能平台包括数据准备、
    的头像 发表于 09-18 17:56 1035次阅读
    【产品介绍】Altair RapidMiner<b class='flag-5'>数据分析</b>与人工智能平台

    普迪飞 Exensio®数据分析平台 | Test Operations解锁半导体测试新纪元

    TestOperations是Exensio数据分析平台的四个主要模块之一。T-Ops模块旨在帮助集成器件制造商(IDM)、无晶圆厂半导体公司(Fabless)和外包半导体(产品)封测厂(OSAT
    的头像 发表于 08-19 13:53 1678次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台 | Test Operations解锁半导体测试新纪元

    如何通过数据分析识别设备故障模式?

    通过数据分析识别设备故障模式,本质是从声振温等多维数据中提取故障特征,建立 “数据特征 - 故障类型” 的映射关系,核心可通过特征提取、模式匹配、趋势分析三步实现,精准定位故障根源与发
    的头像 发表于 08-19 11:14 1119次阅读
    如何通过<b class='flag-5'>数据分析</b>识别设备故障模式?

    构建自定义电商数据分析API

      在电商业务中,数据是驱动决策的核心。随着数据量的增长,企业需要实时、灵活的分析工具来监控销售、用户行为和库存等指标。一个自定义电商数据分析API(应用程序接口)可以自动化
    的头像 发表于 07-17 14:44 730次阅读
    构建自定义电商<b class='flag-5'>数据分析</b>API

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 870次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪