0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用2.5GPU年的算力在7个数据集上训练了12000多个模型

nlfO_thejiangme 来源:lq 2019-04-30 09:14 次阅读

基于无监督的方式理解高维数据并将信息浓缩为有用的表示一直是深度学习领域研究的关键问题。其中一种方法是利用非耦合表示(disentangled representations)模型来捕捉场景中独立变化的特征。如果能够实现对于各种独立特征的描述,机器学习系统就可以用于真实环境中的导航,机器人或无人车利用这种方法可以将环境解构成一系列元素,并利用通用的知识去理解先前未见过的场景。



虽然非监督解耦方法已被广泛应用于好奇驱动的探索、抽象推理、视觉概念学习和域适应的强化学习中,但最近进展却无法让我们清晰了解不同方法的性能和方法的局限。为了深入探索这一问题,谷歌的研究人员在ICML2019上发表了一篇大规模深入研究非监督非耦合表示的论文”Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations”,对近年来绝大多数的非监督解耦表示方法进行探索、利用2.5GPU年的算力在7个数据集上训练了12000多个模型。基于大规模的实验结果,研究人员对这一领域的一些假设产生了质疑,并为解耦学习的未来发展方向给出了建议。与此同时,研究人员还同时发布了研究中所使用的代码和上万个预训练模型,并封装了disentanglement_lib供研究者进行实验复现和更深入的探索。

理解非耦合表示

为了更好地理解非耦合表示的本质,让我一起来看看下面动图中每个独立变化的元素。下面的每一张图代表了一个可以被编码到矢量表示中的因子,它可以独立控制图像中每个语义元素的属性。例如第一个可以控制地板的颜色,第二个则控制墙的颜色,最后一个则控制图片的视角。

解耦表示的目标在于建立起一个能够独立捕捉这些特征的模型,并将这些特征编码到一个表示矢量中。下面的10个小图展示了基于FactorVAE方法学习十维表示矢量的模型,图中展示 了每一维对于图像对应信息的捕捉。从各个图中可以看出模型成功地解耦了地板、墙面的颜色,但是左下角的两个图片可以看到物体的颜色和大小的表示却依然相关没有解耦。

大规模研究的发现

在直观地理解了解耦表示之后,让我们来看看科学家在研究中发现了什么。这一领域基于变分自编码器提出了各种各样的非监督方法来学习非耦合表示,同时给出了许多不同的性能度量方法,但却缺乏一个大规模的性能测评和对比研究。为此研究人员构建了一个大规模、公平性、可复现的实验基准,并系统的测试了六种不同的模型(BetaVAE, AnnealedVAE, FactorVAE, DIP-VAE I/II and Beta-TCVAE)和解耦性能度量方法(BetaVAE score, FactorVAE score, MIG, SAP, Modularity and DCI Disentanglement),在7个数据集上进行了12800个模型的训练后,研究人员们有了颠覆过去的发现:首先,是非监督学习的方式。研究人员在大量的实验后发现没有可靠的证据表明模型可以通过无监督的方式学习到有效的解耦表示,随机种子和超参数对于结构的影响甚至超过了模型的选择。换句话说,即使你训练的大量模型中有部分是解耦的,但这些解耦表示在不基于基准标签的情况下是无从确认和识别的。此外好的超参数在不同的数据集上并不一致,这意味着没有归纳偏置(inductive biases)是无法实现非监督解耦学习的(需要把对数据集的假设考虑进模型中)。对于实验中评测的模型和数据集,研究人员表示无法验证解耦对于downstream tasks任务有利的假设(这一假设认为基于解耦表示可以利用更少的标签来进行学习)。下图展示了研究中的一些发现,可以看到随机种子在运行中的影响超过了模型的选择(左)和正则化(右)的强度(更强的正则化并没有带来更多的解耦性能)。这意味着很差超参数作用下的好模型也许比很好超参数作用下的坏模型要好得多。

未来研究方向

基于这些全新的发现和研究结果,研究人员为解耦表示领域提出了四个可能的方向:1.在没有归纳偏置的条件下给出非监督解耦表示学习的理论结果是不可能的,未来的研究应该更多地集中于归纳偏置的研究以及隐式和显示监督在学习中所扮演的角色;2.为横跨多数据集的非监督模型寻找一个有效的归纳偏置将会成为关键的开放问题;3.应该强调解耦学习在各个特定领域所带来的实际应用价值,潜在的应用方向包括机器人、抽象推理和公平性等;4.在各种多样性数据集上的实验应该保证可重复性。

代码和工具包

为了让其他研究人员更好的复现结构,论文同时还发布了 disentanglement_lib工具包,其中包含了实验所需的模型、度量、训练、预测以及可视化代码工具。可以在命令行中用不到四行代码就能复现是论文中所提到的模型,也可以方便地改造来验证新的假设。最后 disentanglement_lib库易于拓展和集成,易于创建新的模型,并用公平的可复现的比较进行检验。由于复现所有的模型训练需要2.5GPU年的算力,所以研究人员同时开放了论文中提到的一万多个预训练模型可以配合前述工具使用。如果想要使用这个工具可以在这里找到源码:

https://github.com/google-research/disentanglement_lib

其中包含了以下内容:模型:BetaVAE, FactorVAE, BetaTCVAE, DIP-VAE度量:BetaVAE score, FactorVAE score, Mutual Information Gap, SAP score, DCI, MCE数据集:dSprites, Color/Noisy/Scream-dSprites, SmallNORB, Cars3D, and Shapes3D预训练模型:10800 pretrained disentanglement models依赖包:TensorFlow, Scipy, Numpy, Scikit-Learn, TFHub and Gin

git clone https://github.com/google-research/disentanglement_lib.git #下载gitcd disentanglement_lib #转到源码目录pip install .[tf_gpu] #安装依赖文件dlib_tests #验证安装

随后下载对应的数据文件:

dlib_download_data#在.bashrc写入路径export DISENTANGLEMENT_LIB_DATA=

随后就可以愉快地复现实验了,其中?是0-12599间的模型序号:dlib_reproduce --model_num=进行评测:dlib_aggregate_results

相信这篇文章的研究结果和代码工具将为接下来的研究提供更为明确的方向和便捷的途径,促进非耦合表示学习领域的发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5804

    浏览量

    103145
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4342

    浏览量

    126300
  • 数据集
    +关注

    关注

    4

    文章

    1174

    浏览量

    24289

原文标题:耗时2.5GPU年训练12800个模型,谷歌研究人员揭示非耦合表示的奥秘

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    阿里云CPFS人工智能/深度学习领域的实践

    IOPS和高度的并行性,并且能够方便的扩展和管理。例如,某些的训练场景中,训练都是几十KB的小图片,并且训练
    发表于 08-23 17:39

    深度融合模型的特点

    深度融合模型的特点,背景深度学习模型训练完成之后,部署并应用在生产环境的这一步至关重要,毕竟训练出来的
    发表于 07-16 06:08

    数据、算法和其实现载体是什么

    背景介绍数据、算法和是人工智能技术的三大要素。其中,体现着人工智能(AI)技术具体实现的能力,实现载体主要有CPU、
    发表于 07-26 06:47

    GPU八大主流的应用场景

    人工智能时代,随着对芯片大和低功耗的要求提高,GPU的市场渗透率正不断提升。据统计,2020GP
    发表于 12-07 10:04

    Ubuntu使用Nvidia GPU训练模型

    问题最近在Ubuntu使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示
    发表于 01-03 08:24

    GPU,RISC-V的长痛

    级的GPU的话,没有Windows和安卓这两大平台的支持的话,也是很难做起来的。但考虑到Think Silicon的老本行就是主要做IoT设备、可穿戴和小屏嵌入式设备,系统支持和
    发表于 03-24 15:53

    benchmark实现大规模数据的OOD检测

    out -distribution (OOD)检测已经成为开放世界中安全部署机器学习模型的一核心挑战,开放世界中,测试数据可能与
    发表于 08-31 15:11

    Mali GPU支持tensorflow或者caffe等深度学习模型

    Mali GPU 支持tensorflow或者caffe等深度学习模型吗? 好像caffe2go和tensorflow lit可以部署到ARM,但不知道是否支持GPU运行?我希望把
    发表于 09-16 14:13

    你了解GPU就可以运行的Transformer模型

    与Transformer模型相比,最终的Reformer模型具有更高的存储效率和更快的存储速度。Trax:代码和示例Trax是一深度学习训练和推理库,可以让你从头理解深度学习。Ref
    发表于 11-02 15:19

    探索一种降低ViT模型训练成本的方法

    工作探索了如何在小型数据从头开始训练ViT。也有工作探索如何在24小时内对文本数据
    发表于 11-24 14:56

    FPGA和CPU、GPU有什么区别?为什么越来越重要?

    是“XPU”等加速器兴起的原因。 图1:CPU 面临瓶颈的原因 同时, 自 2010 AI 兴起, AI 模型训练所需
    发表于 11-09 14:09

    GPU如何训练大批量模型?方法在这里

    深度学习模型数据集的规模增长速度已经让 GPU 算力也开始捉襟见肘,如果你的 GPU 连一个样本都容不下,你要如何训练大批量
    发表于 12-03 17:24 672次阅读

    ICML 2019最佳论文新鲜出炉!

    这是一篇大规模深入研究无监督解耦表示(Disentangled Representation)的论文,对近年来绝大多数的非监督解耦表示方法进行了探索、利用 2.5GPU 年的算力在 7 个数据集上
    的头像 发表于 06-15 10:02 4981次阅读

    利用ImageNet训练了一个能降噪、超分和去雨的图像预训练模型

    。但是不同的是,因为IPT是同时训练多个task,因此模型定义了多个head和tail分别对应不同的task。
    的头像 发表于 03-03 16:05 3918次阅读
    <b class='flag-5'>利用</b>ImageNet<b class='flag-5'>训练了</b>一个能降噪、超分和去雨的图像预<b class='flag-5'>训练</b><b class='flag-5'>模型</b>

    PyTorch教程-13.5。在多个 GPU 上进行训练

    数据拆分到多个设备并使其工作。本节填写详细信息并展示如何从头开始并行训练网络。有关如何利用高级 API 中的功能的详细信息归入 第 13.6 节. 我们假设您熟悉 minibatc
    的头像 发表于 06-05 15:44 720次阅读
    PyTorch教程-13.5。在<b class='flag-5'>多个</b> <b class='flag-5'>GPU</b> 上进行<b class='flag-5'>训练</b>