0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

zhKF_jqr_AI 来源:未知 作者:易水寒 2018-06-10 10:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

tSNE是目前最为流行的一种高维数据降维的算法。在大数据时代,数据不仅越来越多,而且变得越来越复杂,数据维度的转化也在惊人地增加。对于计算机而言,处理高位数据是没问题的,但是人类能感知到的只有三个维度,因此很有必要将高维数据进行可视化,tSNE就是讲数据集从任意维度降到二维或三维的算法。谷歌的一名实习员工最近提出了一种方法,可以让tSNE在大型、高维数据库上实时进行可视化,而且还开源了。以下是论智为大家带来的编译。

最近几年,t分布随机邻近嵌入(tSNE)算法已经成为最常用的高维数据分析工具,它经常能提供有深度的见解。在TensorFlow嵌入项目和TensorBoard中用tSNE解释深度神经网络的输出时,其中一个强大的特征是,tSNE在使用时只需要稍微调整参数,就能在不同规模下展现高维数据点的聚类。尽管有这个优点,tSNE算法计算时候的复杂程度也限制了它在很多小数据集上的应用。虽然已经有一些针对这个问题的解决方法(主要关注点在数据点之间相似度计算的可扩展性上),但目前为止当可视化大数据及使用tSNE嵌入时,它们还不能提供真正的互动体验。

Linear tSNE Optimization for the Web一文中,我们提出了一种解决tSNE高度依赖现代图形硬件问题的方法。我们的方法比其他类似技术能更快地生成嵌入,甚至可以利用GPU在客户端的网页浏览器上执行。二者的结合让大型、高维的数据库实时可视化成为了可能。另外,我们还在TensorFlow.js中开源了这项成果,希望能带来更多贡献。

用我们的方法为全部MNIST数据集进行实时tSNE嵌入演化。该数据集包含60000张手写数字的图片

tSNE的目标是聚合相似数据点之间的小“邻居”,同时降低整体数据的维度使之更加便于可视化。换句话说,tSNE目标函数计算的是在二维或三维空间中这些相似数据的“邻居”是如何分布的,然后根据此将它们映射到聚类之中。

在之前的研究中,tSNE的目标最小化是作为N-body模拟问题进行的,其中点在嵌入空间中随机分布,每个点都受到两种不同类型的力的作用。吸引力会将点与其在高维空间中最相似的点之间的距离越拉越近,同时排斥力使得它们与嵌入中的其他邻近点越来越远。

吸引力只作用于一小部分点(也就是有相同近邻的点),而排斥力在所有成对的点上都有作用。由于这个原因,tSNE需要强大的计算力和多次的目标函数迭代,这就限制了数据库的尺寸。为了改善这一问题,Barnes-Hut算法就用来近似估算排斥力和目标函数的梯度。这就可以将计算扩展到成千上万个数据点,但是仍然需要15分钟以上计算MNIST嵌入。

在我们的论文中,我们提出了解决上述问题的方法,通过利用在WebGL上生成的纹理计算目标函数的梯度近似值。我们的技术利用一个三通道的图案在每次最小化迭代时都绘制一个“排斥域(repulsive field)”,其中的三个组成元素作为RGB通道中的颜色和形状。每个点都会得到一个排斥域,用来表示点上水平和竖直方向的排斥力,第三个元素用作归一化。归一化要保证转换过程中的量值对应高维空间的相似度测量方法。除此之外,图案的分辨率也会根据不同情况调整,以保证像素的数量是不变的。

如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

渲染三个用来计算单个点产生的排斥力。上图显示了蓝色区域中的点被推到了左侧和底部,而红色区域中的点被推倒右侧和顶部,而白色区域中的点不会移动

之后每个点的作用都被添加到GPU中,生成与排斥域相似的图形(如下面的动图所示)。这种方法比计算点和点之间的作用的方法对GPU更友好。这是因为多个点的排斥力可以在GPU中快速地同时计算。另外,我们在GPU中也计算了点之间的吸引力。

如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

tSNE嵌入的演变动画(左上);用来计算梯度的标量场(右上);水平变换(左下);竖直变换(右下)

我们还将嵌入更新从点对点实现修改为在TensorFlow.js中计算的一系列标准张量操作,这是一个JavaScript库,用于在Web浏览器中执行张量计算。我们已经开源的方法能完全在GPU上实现tSNE嵌入的变换,同时计算复杂性也得以改善。

有了这种只需15分钟就能在MNIST数据集上完成计算的方法,我们现在可以实时在网页中进行可视化。另外,这种可视化还能在更大的数据集上实现。但是我们这项成果的主要缺陷就是目前只能在二维嵌入上工作。然而二维可视化却经常比三维可视化更受欢迎,应为三维可视化需要更多交互才能理解聚类的结果。

未来的工作

我们相信,更快、更易交互的tSNE将大大提高数据分析系统的发展。我们很期待将这项成果用于深度神经网络。除此之外,我们的实验表明,在使用GPU计算时的横向思维(即用RGB图像计算梯度)可以加速计算。在未来我们将开发更多这类的梯度计算,不仅将其应用于降维算法上,还可以用到其他浏览器的N-body模拟中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134465
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97147
  • 数据库
    +关注

    关注

    7

    文章

    3993

    浏览量

    67738
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:谷歌实习生提出tSNE在大型高维数据集上实时可视化的方法(附代码)

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业物联网可视化平台是什么?有什么功能?

    工业物联网可视化平台是基于物联网、大数据、人工智能等技术,将工业生产中的设备、系统、流程等数据以图形方式呈现,实现实时监控、智能分析与交互
    的头像 发表于 11-17 17:49 1047次阅读

    光伏电站可视化的实现

    ,将光伏电站的物理环境、设备状态、发电数据等信息以图形、动态化形式呈现,构建电站虚拟镜像,从而实现对光伏电站运行状态的实时监控、故障预测及运优化。 如何实现光伏电站的
    的头像 发表于 10-21 17:29 867次阅读
    光伏电站<b class='flag-5'>可视化</b>的实现

    如何使用协议分析仪进行数据分析与可视化

    使用协议分析仪进行数据分析与可视化,需结合数据捕获、协议解码、统计分析及可视化工具,将原始数据转化为可解读的图表和报告。以下是
    发表于 07-16 14:16

    如何实现光伏数字孪生可视化

    光伏数字孪生可视化是通过数字手段构建光伏电站的虚拟镜像,实现物理实体与数字模型的实时映射与交互,目的是促进光伏电站运管理的智能、高效
    的头像 发表于 05-29 15:27 513次阅读
    如何实现光伏数字孪生<b class='flag-5'>可视化</b>?

    工业设备可视化管理系统是什么

    工业设备可视化管理系统是一种基于物联网(IoT)、大数据、云计算、数字孪生等技术,对工业设备的运行状态、性能参数、维护信息等进行实时监测、数据
    的头像 发表于 05-27 14:56 735次阅读
    工业设备<b class='flag-5'>可视化</b>管理系统是什么

    工业设备数据集中监控可视化管理平台是什么

    工业设备数据集中监控可视化管理平台是一种用于整合、监控和可视化工业设备数据的综合性系统,旨在帮助企业实现设备数据的集中管理、
    的头像 发表于 05-06 11:10 836次阅读

    SEGGER emFile支持大型数据库

    SEGGER宣布emFile对大型数据库的支持,集成了SQLite,方便与SEGGER的BigFAT和微软的exFAT一起使用。
    的头像 发表于 04-23 15:51 566次阅读

    可视化组态物联网平台是什么

    可视化组态物联网平台是物联网技术与组态技术相结合的产物,是通过提供丰富的图形组件和可视化元素,用户能够以直观、便捷的方式对物联网数据
    的头像 发表于 04-21 10:40 698次阅读

    VirtualLab Fusion应用:光学系统的3D可视化

    摘要 为了从根本上了解光学系统的特性,对其组件进行可视化并显示光的传播情况大有帮助。为此,VirtualLab Fusion 提供了显示光学系统三可视化的工具。这些工具还可用于检查
    发表于 04-02 08:42

    VirtualLab Fusion中的可视化设置

    通过以下控件进行重置、加载和保存: 主窗口设置 字体配置 数字显示 文档窗口设置 1D数据数组可视化设置 颜色表 谐波场视图
    发表于 02-25 08:51

    七款经久不衰的数据可视化工具!

    。通过FineBI,企业能够多维度、多场景下进行灵活的数据分析,提升数据可视化效果,帮助决策者做出更加精准的决策。
    发表于 01-19 15:24

    Oracle数据库的多功能集成开发环境

    无需编码即可在图表构建可视化查询 消除性能瓶颈的查询优化器 数据库管理和灵活的用户管理 带有图表和数据透视表的数据分析和报告工具 200
    的头像 发表于 01-14 13:52 695次阅读
    Oracle<b class='flag-5'>数据库</b>的多功能集成开发环境

    光学系统的3D可视化

    **摘要 ** 为了从根本上了解光学系统的特性,对其组件进行可视化并显示光的传播情况大有帮助。为此,VirtualLab Fusion 提供了显示光学系统三可视化的工具。这些工具还可
    发表于 01-06 08:53

    什么是大屏数据可视化?特点有哪些?

    大屏数据可视化是指通过大屏幕展示大量数据和信息,以直观、可视化的方式帮助用户理解和分析数据。这种展示方式通常用于展示复杂的
    的头像 发表于 12-16 16:59 1001次阅读

    如何找到适合的大屏数据可视化系统

    选择合适的大屏数据可视化系统是企业或组织在数字转型过程中至关重要的一步。一个优秀的大屏数据可视化系统能够
    的头像 发表于 12-13 15:47 805次阅读