0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

训练表示学习函数(即编码器)以最大化其输入和输出之间的互信息

MqC7_CAAI_1981 来源:未知 作者:李倩 2018-09-11 16:51 次阅读

许多表示学习算法使用像素级的训练目标,当只有一小部分信号在语义层面上起作用时是不利的。在这篇论文中,Bengio 等研究者假设应该更直接地根据信息内容和统计或架构约束来学习表示,据此提出了 Deep INFOMAX(DIM)。该方法可用于学习期望特征的表示,并且在分类任务上优于许多流行的无监督学习方法。他们认为,这是学习「好的」和更条理的表示的一个重要方向,有利于未来的人工智能研究。

引言

在意识层面上,智能体并不在像素和其他传感器的层面上进行预测和规划,而是在抽象层面上进行预测。因为语义相关的比特数量(在语音中,例如音素、说话者的身份、韵律等)只是原始信号中总比特数的一小部分,所以这样可能更合适。

然而,大多数无监督机器学习(至少是部分地)基于定义在输入空间中的训练目标。由于无需捕获少数语义相关的比特,就可以很好地优化这些目标,因此它们可能不会产生好的表示。深度学习的核心目标之一是发现「好的」表示,所以我们会问:是否有可能学习输入空间中未定义的训练目标的表示呢?本文探讨的简单想法是训练表示学习函数(即编码器)以最大化其输入和输出之间的互信息。

互信息是出了名的难计算,特别是在连续和高维设置中。幸运的是,在神经估计的最新进展中,已经能够有效计算深度神经网络的高维输入/输出对之间的互信息。而在本项研究中,研究人员利用这些技术进行表示学习。然而,最大化完全输入与其表示之间的互信息(即全局互信息)不足以学习有用的表示,这依赖于下游任务。相反,最大化输入的表示和局部区域之间的平均互信息可以极大地改善例如分类任务的表示质量,而全局互信息在给定表示的重建完整输入上能发挥更大的作用。

表示的作用不仅仅体现在信息内容的问题上,架构等表示特征也非常重要。因此,研究者以类似于对抗性自编码器或 BiGAN 的方式将互信息最大化与先验匹配相结合,以获得具有期望约束的表示,以及良好的下游任务表现。该方法接近 INFOMAX 优化原则,因此研究者们将他们的方法称为深度 INFOMAX(DIM)。

本研究贡献如下:

规范化的深度 INFOMAX(DIM),它使用互信息神经估计(MINE)来明确地最大化输入数据和学习的高级表示之间的互信息。

互信息最大化可以优先考虑全局或局部一致的信息,这些信息可以用于调整学习表示的适用性,以进行分类或风格重建的任务。

研究者使用对抗学习来约束「具有特定于先验的期望统计特征」的表示。

引入了两种新的表示质量的度量,一种基于 MINE,另一种是 Brakel&Bengio 研究的的依赖度量,研究者用它们来比较不同无监督方法的表示。

论文:Learning deep representations by mutual information estimation and maximization

论文地址:https://arxiv.org/abs/1808.06670v2

摘要:许多流行的表示学习算法使用在观察数据空间上定义的训练目标,我们称之为像素级。当只有一小部分信号在语义层面上起作用时,这可能是不利的。我们假设应该更直接地根据信息内容和统计或架构约束来学习和估计表示。为了解决第一个质量问题,研究者考虑通过最大化部分或全部输入与高级特征向量之间的互信息来学习无监督表示。为了解决第二个问题,他们通过对抗地匹配先验来控制表示特征。他们称之为 Deep INFOMAX(DIM)的方法可用于学习期望特征的表示,并且在分类任务按经验结果优于许多流行的无监督学习方法。DIM 开辟了无人监督学习表示的新途径,是面向特定最终目标而灵活制定表征学习目标的重要一步。

实验

我们使用以下指标来评估表示。下面编码器都固定不变,除非另有说明:

使用支持向量机(SVM)进行线性分类。它同时代表具有线性可分性的表示的互信息。

使用有 dropout 的单个隐藏层神经网络(200 个单元)进行非线性分类。这同样代表表示的互信息,其中标签与线性可分性分开,如上面的 SVM 所测的。

半监督学习,即通过在最后一个卷积层(有标准分类器的匹配架构)上添加一个小型神经网络来微调整个编码器,以进一步评估半监督任务(STL-10)。

MS-SSIM,使用在 L2 重建损失上训练的解码器。这代表输入和表示之间的全部互信息,并且可以表明编码的像素级信息的数量。

通过训练参数为ρ的判别器来最大化 KL 散度的 DV 表示,来表示输入 X 和输出表示 Y 之间的互信息神经估计(MINE),I_ρ(X,Y)。

神经依赖度量(NDM)使用第二判别器来度量 Y 和分批再组(batch-wise shuffled)的 Y 之间的 KL 散度,使得不同的维度相互独立。

表 1:CIFAR10 和 CIFAR100 的分类准确率(top-1)结果。DIM(L)(仅局部目标)显著优于之前提出的所有其他无监督方法。此外,DIM(L)接近甚至超过具有类似架构的全监督分类器。具有全局目标的 DIM 表现与任务中的某些模型相似,但不如 CIFAR100 上的生成模型和 DIM(L)。表中提供全监督分类结果用于比较。

表 2:Tiny ImageNet 和 STL-10 的分类准确率(top-1)结果。对于 Tiny ImageNet,具有局部目标的 DIM 优于所有其他模型,并且接近全监督分类器的准确率,与此处使用的 AlexNet 架构类似。

图 5:使用 DIM(G)和 DIM(L)在编码的 Tiny ImageNet 图像上使用 L1 距离的最近邻。最左边的图像是来自训练集的随机选择的参考图像(查询)以及在表示中测量的来自测试集的最近邻的四个图像,按照接近度排序。来自 DIM(L)的最近邻比具有纯粹全局目标的近邻更容易理解。

图 7:描绘判别器非归一化输出分布的直方图,分别是标准 GAN、具有-log D 损失的 GAN、最小二乘 GAN、Wasserstein GAN 以及作者提出的以 50:1 训练率训练的方法。

方法:深度 INFOMAX

图 1:图像数据上下文中的基本编码器模型。将图像(在这种情况下)编码到卷积网络中,直到有一个 M×M 特征向量的特征图与 M×M 个输入块对应。将这些矢量(例如使用额外的卷积和全连接层)归一化到单个特征向量 Y。目标是训练此网络,以便从高级特征中提取有关输入的相关信息。

图 2:具有全局 MI(X; Y)目标的深度 INFOMAX(DIM)。研究者通过由额外的卷积层、flattening 层和全连接层组成的判别器来传递高级特征向量 Y 和低级 M×M 特征图(参见图 1)以获得分数。通过将相同的特征向量与来自另一图像的 M×M 特征图结合来绘制伪样本。

结论

在这项研究中,研究者们介绍了 Deep INFOMAX(DIM),这是一种通过最大化互信息来学习无监督表示的新方法。DIM 允许在架构「位置」(如图像中的块)中包含局部一致信息的表示。这提供了一种直接且灵活的方式来学习在各种任务上有优良表现的表示。他们认为,这是学习「好的」和更条理的表示的一个重要方向,这将利于未来的人工智能研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3360

    浏览量

    131509
  • 人工智能
    +关注

    关注

    1776

    文章

    43843

    浏览量

    230590
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119904

原文标题:学界 | 最大化互信息来学习深度表示,Bengio等提出Deep INFOMAX

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何使应用程序开机运行最大化

    我现在生成一个应用程序并开机启动了,但是如何啊能让他启动是最大化显示呢现在一开机启动不是最大化啊。。。。。。很苦恼啊,希望大家指点
    发表于 05-11 20:57

    labview获取【显示分辨率】并实时设置界面【最大化】和【最小化居中】

    = GetSystemMetrics(SM_CYSCREEN);//屏幕高度在labview中设置参数类型和返回类型:labview中调用代码:如此就可以获取显示分辨率了。(2)、实时设置界面【最大化
    发表于 04-19 12:40

    基于最大互信息方法的机械零件图像识别

    提出了应用最大互信息方法进行零件图像识别的方法,它利用图像的信息熵描述图像的特征,结合图像的颜色信息及局部形状信息,以
    发表于 12-18 16:39 22次下载

    基于互信息的功能磁共振图像配准

    互信息作为衡量两幅图像配准的相似性测度函数,当两幅图像配准时,互信息达到最大值。该文提出了基于互信息脑功能磁共振图像配准新方法,采用了无需计
    发表于 02-28 17:01 22次下载

    基于图嵌入和最大互信息组合的降维

    在特征降维方面,图嵌入框架统一了PCA, LDA 等一系列特征降维算法,方便求解,但相似度矩阵计算有赖于人为假设。而最大互信息(MMI)从信息论的角度得到有效的特征降维变换,
    发表于 08-21 10:24 9次下载

    基于互信息梯度优化计算的信息判别特征提取

    该文将互信息梯度优化引入特征提取矩阵求解,提出一种信息判别分析的特征提取方法。首先,分析了现有线性判别方法的特点和局限,建立了类条件分布参数模型下互信息最大化
    发表于 02-10 12:02 9次下载

    Powell和SA混合优化的互信息图像配准

    基于互信息的图像配准方法具有鲁棒性强、配准精度高等优点,已被广泛应用于医学图像的配准。但计算互信息涉及大量的浮点运算,且搜索最大互信息时容易陷入局部极值。本文提出
    发表于 02-21 14:46 14次下载

    基于互信息属性分析与极端学习机的超短期风速预测

    基于互信息属性分析与极端学习机的超短期风速预测_黄南天
    发表于 01-05 15:33 0次下载

    基于互信息和余弦的不良文档过滤

    针对网页中的维吾尔文不良文档信息的过滤问题,提出一种基于互信息和余弦相似度的不良文档信息过滤方案。首先,对输入文档进行预处理,过滤掉无用单词。然后,利用文档频率(DF)和
    发表于 11-13 10:41 7次下载
    基于<b class='flag-5'>互信息</b>和余弦的不良文档过滤

    基于社交网络弱连接属性的影响力最大化算法

    首先研究了目前影响力最大化问题的解决方案,并总结了这些解决方案的优缺点.对社交网络中弱连接的研究之后发现,弱连接可以有效地打通社交网络中不同社团之间信息壁垒,使得信息在不同社区间流通
    发表于 01-02 16:22 0次下载

    密码芯片时域互信息能量分析

    在对密码芯片进行时域上互信息能量分析基础上,提出频域上最大互信息系数能量分析攻击的方法。该方法结合了密码芯片在频域上信息泄露的原理和互信息
    发表于 02-27 10:48 0次下载
    密码芯片时域<b class='flag-5'>互信息</b>能量分析

    编码器参数_编码器型号说明

    编码器一种很常见的人机交互信息输入元器件, 主要分为两大类一类是光电编码器一类是接触式的编码器,今天主要跟大家分享一下接触式旋转
    发表于 02-19 15:15 2.9w次阅读
    <b class='flag-5'>编码器</b>参数_<b class='flag-5'>编码器</b>型号说明

    一种改进互信息的加权朴素贝叶斯算法

    互信息和朴素贝叶斯算法应用于垃圾邮件过滤时,存在特征冗余和独立性假设不成立的问题。为此,提出种改进互信息的加权朴素贝叶斯算法。针对互信息效率较低的问题,通过引入词频因子与类间差异因子,提出一种改进
    发表于 03-16 10:15 12次下载
    一种改进<b class='flag-5'>互信息</b>的加权朴素贝叶斯算法

    基于互信息最大化的Raptor码优化设计方法

    基于互信息最大化的Raptor码优化设计方法
    发表于 07-02 11:47 8次下载

    堆叠降噪自动编码器(SDAE)

    。该网络可以看作由两部分组成:一个由函数 h = f(x) 表示编码器和一个生成重构的解码器 r = g(h)。我们不应该将自编码器设计成输入
    的头像 发表于 01-11 17:04 5106次阅读
    堆叠降噪自动<b class='flag-5'>编码器</b>(SDAE)