0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

BigBiGAN问世,“GAN父”都说酷的无监督表示学习模型有多优秀?

WpOh_rgznai100 来源:YXQ 2019-07-11 15:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

众所周知,对抗训练生成模型(GAN)在图像生成领域获得了不凡的效果。尽管基于GAN的无监督学习方法取得了初步成果,但很快被自监督学习方法所取代。

DeepMind近日发布了一篇论文《Large Scale Adversarial Representation Learning》(大规模对抗性表示学习),提出了无监督表示学习新模型BigBiGAN。

致力于将图像生成质量的提升转化为表征学习性能的提高,基于BigGAN模型的基础上提出了BigBiGAN,通过添加编码器和修改鉴别器将其扩展到图像学习。作者评估了BigBiGAN模型的表征学习能力和图像生成功能,证明在ImageNet上的无监督表征学习以及无条件图像生成,该模型达到了目前的最佳性能。

论文发布后,诸多AI大牛转发并给出了评价。

“GAN之父”Ian Goodfellow表示这很酷,在他读博士期间,就把样本生成双产物的表示学习感兴趣,而不是样本生成本身。

特斯拉AI负责人Andrej Karpathy则表示,自我监督的学习是一个非常丰富的领域(但需要比ImageNet提供更高的密度和结构),这将避免大规模数据集的当前必要性(或在RL中推出)。

1、介绍

近年来,图像生成模型快速发展。虽然这些模型以前仅限于具有单模或多模的结构域,生成的图像结构简单,分辨率低,但随着模型和硬件的发展,已有生成复杂、多模态,高分辨率图像的能力。

图1 BigBiGAN框架框图

联合鉴别器,输入是数据潜在对,

,从数据分布Px和编码器输出中采样,或

从生成器输出和潜在分布Pz中采样。损失包括一元数据项和一元潜在项,以及将数据和潜在分布联系起来的联合项

通过BiGAN或ALI框架学习的编码器,是ImageNet上用于下游任务的可视化表示学习的有效手段。然而,该方法使用了DCGAN样式生成器,无法在该数据集上生成高质量图像,因此编码器可以建模的语义非常有限。作者基于该方法,使用BigGAN作为生成器,能够捕获ImageNet图像中存在的多模态和出现的大部分结构。总体而言,本文的贡献如下:

(1)在ImageNet上,BigBiGAN(带BigGAN的BiGAN生成器)匹配无监督表征学习的最新技术水平

(2)为BigBiGAN提出了一个稳定版本的联合鉴别器

(3)对模型设计选择进行了全面的实证分析和消融实验

(4)表征学习目标还有助于无条件图像生成,并展示无条件ImageNet生成的最新结果

2、BigBiGAN

BiGAN、ALI方法作为GAN框架的扩展,能够学习可以用作推理模型或特征表示的编码器。给定数据项x的分布Px(例如,图像)和潜在项z的分布Pz(通常是像各向同性高斯N(0;I)的简单连续分布),生成器模拟条件概率分布

,给定潜在项z后数据项x的概率值,如标准GAN生成器。编码器对逆条件分布

进行建模,预测给定数据项x的情况下,潜在项z的概率值。

除了添加之外,BiGAN框架中对GAN的另一种修改是联合鉴别器 - 潜在项对(x,z)(而不仅仅是标准GAN中的数据项x),并且学习区分数据分布和编码器对,生成器和潜在分布。具体地说,它的输入对是

的目标是“欺骗”鉴别器,使得被采样的两个联合概率分布难以区分。GAN框架的目标,定义如下:

在这个目标下,在最优最小化联合分布之间的Jensen-Shannon散度,因此在全局最优时,两个联合分布

匹配。此外,在是确定性函数的情况下(即,学习条件分布

是Dirac δ函数),这两个函数是全局最优的逆:例如

,最佳联合鉴别器有效地对x和z施加重建成本。

具体地,鉴别器损失值

其中

优化参数

3、评估

作者在未标记的ImageNet上训练BigBiGAN,固定其表征学习结果,然后在其输出上训练线性分类器,使用所有训练集标签进行全面监督学习。 作者还测量图像生成性能,其中

IS)和

FID)作为标准指标。

3.1 消融

作者先评估了多种模型,见表1。作者使用不同的种子对每个变体进行三次运行并记录每个度量的平均值和标准差。

潜在分布随机值

,其中在给定和线性输出的情况下,预测

一元损失:

评估删除损失函数的一元项影响。只有z一元项和没有一元项的IS和FID性能要比只有x一元项和两者都有的性能差,结果表明x一元项对生成性能有很大的正面影响。

生成器容量:

为了证明生成器在表征学习中的重要性,作者改变生成器的容量观察对结果的影响。实验结果表明,好的图像生成器模型能提高表征学习能力。

带有不同分辨率的的高分辨率

使用更高的分辨率,尽管的分辨率相同,但是生成结果显着改善(尤其是通过FID)。

结构:

使用不同结构的评估性能,结果表明网络宽度增加,性能会得到提升

解耦优化:

优化器与的优化器分离,并发现简单地使用10倍的E学习速率可以显着加速训练并改善最终表征学习结果。

3.2与已有方法比较

表征学习

表1:BigBiGAN变体的结果

在生成图像的IS和FID中,以及ImageNet top-1分类准确率,根据从训练集中随机抽样的10K图像的分割计算,称为Train分裂。每行中基本设置的更改用蓝色突出显示。具有误差范围的结果(写为“μ±σ”)是具有不同随机种子的三次运行的平均值和标准偏差。

表2:使用监督逻辑回归分类器对官方ImageNet验证集上的BigBiGAN模型与最近竞争方法的比较

基于10K训练集图像的trainval子集的最高精度,选择BigBiGAN结果并提前停止。ResNet-50结果对应于表1中的行ResNet(“ELR”),RevNet-50×4对应于RevNet×4(“ELR”)

表3:无监督(无条件)生成的BigBiGAN与已有的无监督BigGAN的比较结果

作者将“伪标签”方法指定为SL(单标签)或聚类。为了进行比较,训练BigBiGAN的步数(500K)与基于BigGAN的方法相同,但也可以在最后一行中对1M步骤进行额外训练,并观察其变化。上述所有结果均包括中值m以及三次运行的平均μ和标准偏差σ,表示为“m(μ±σ)”。BigBiGAN的结果由最佳FID与Train的停止决定的。

无监督图像生成

图2:从无监督的BigBiGAN模型中选择的重建

上图2中第一行表示真实数据x~Px;第二行表示由

3.3 重建

BiGAN E和G通过计算编码器预测的潜在表示E(x),然后将预测的潜在表示传回生成器,得到重建的G(E(x)),从而重构数据实例x。我们在图2中展示了BigBiGAN重构。这些重构远非有像素级的完美度,部分原因可能是目标并没有明确强制执行重构成本,甚至在训练时也没有计算重构。然而,它们可能为编码器学习建模的特性提供一些直观的认识。例如,当输入图像包含一条狗、一个人或一种食物时,重建通常是相同“类别”的不同实例,具有相似的姿势、位置和纹理。这些重构倾向于保留输入的高级语义,而不是低级细节,这表明BigBiGAN训练鼓励编码器对前者建模,而不是后者。

4、相关研究

基于自我监督图像中的无监督表示学习的许多方法被证明是非常成功的。自我监督通常涉及从以某种方式设计成类似于监督学习的任务中学习,但是其中“标签”可以自动地从数据本身创建而无需人工操作。早期的例子是相对位置预测,其中模型在输入的图像块对上进行训练并预测它们的相对位置。

对比预测编码(CPC)是最近的相关方法,其中,给定图像补丁,模型预测哪些补丁出现在其他图像位置中。其他方法包括着色、运动分割、旋转预测和样本匹配。

对这些方法进行了严格的实证比较。相对于大多数自我监督的方法,BigBiGAN和基于生成模型的其他方法的关键优势是它们的输入可能是全分辨率图像或其他信号,不需要裁剪或修改所需的数据。这意味着结果表示通常可以直接应用于下游任务中的完整数据,而不会发生域移位(domain shift)。

还提出了许多相关的自动编码器和GAN变体。关联压缩网络(ACN)学会通过调节其他先前在代码空间中相似的传输数据的数据来压缩数据集级别,从而产生可以“模糊”语义相似样本的模型,类似于BigBiGAN重建。VQ-VAE 将离散(矢量量化)编码器与自回归解码器配对,以产生具有高压缩因子的忠实重建,并在强化学习设置中展示表示学习结果。在对抗性空间中,对抗性自动编码器提出了一种自动编码器式编码器 - 解码器对,用像素级重建成本训练,用鉴别器代替VAE中使用的先验的KL-发散正则化。

在另一个提出的VAE-GAN混合中,在大多数VAE中使用的像素空间重建误差被替换为距GAN鉴别器的中间层的特征空间距离。AGE和α-GAN等其他混合方法增加了编码器来稳定GAN训练。这些方法与BiGAN框架间的一个区别是,BiGAN不会以明确的重建成本训练编码器,虽然可以证明BiGAN隐含地使重建成本最小化,但定性重建结果表明这种重建成本具有不同的风格,强调了像素级细节上的高级语义。

5.探讨

我们已经证明,BigBiGAN是一种纯粹基于生成模型的无监督学习方法,它在ImageNet上实现了图像表示学习的最好的结果。我们的消融实验进一步证实强大的生成模型可以有利于表征学习,反过来,学习推理模型可以改善大规模的生成模型。在未来,我们希望表示学习可以继续受益于生成模型和推理模型的进一步发展,同时扩展到更大的图像数据库。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GaN
    GaN
    +关注

    关注

    21

    文章

    2382

    浏览量

    84330
  • 无监督学习
    +关注

    关注

    1

    文章

    17

    浏览量

    2904

原文标题:BigBiGAN问世,“GAN父”都说酷的无监督表示学习模型有多优秀?

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    强化学习会让自动驾驶模型学习更快吗?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶大模型训练时,有的技术方案会采用模仿学习,而有些会采用强化学习。同样作为大模型的训练方式,强化学习
    的头像 发表于 01-31 09:34 815次阅读
    强化<b class='flag-5'>学习</b>会让自动驾驶<b class='flag-5'>模型</b><b class='flag-5'>学习</b>更快吗?

    云知声荣登MedAIBench优秀国产医疗大模型榜单

    12月20日,国家人工智能应用中试基地(医疗)·浙江正式发布《MedAIBench测评榜(优秀国产医疗大模型)》。在这一具备行业权威性与临床导向性的严格测评中,云知声自主研发的山海·知医大模型凭借全面领先的综合能力与扎实的落地成
    的头像 发表于 12-29 14:36 919次阅读

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 监督学习:无需缺陷样本即可训练高精度检测
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 监督学习:无需缺陷样本即可训练高精度检测
    发表于 12-03 13:50

    Leadway GaN系列模块的功率密度

    Leadway GaN系列模块以120W/in³的功率密度为核心,通过材料创新、电路优化与封装设计,实现了体积缩减40%、效率提升92%+的突破。其价值在于为工业自动化、机器人、电动汽车等空间受限
    发表于 10-22 09:09

    芯干线GaN器件在电源系统的应用优势

    自从氮化镓(GaN)器件问世以来,凭借其相较于传统硅基半导体的多项关键优势,GaN 被广泛认为是快速充电与工业电源应用领域中的变革性技术。
    的头像 发表于 10-21 14:56 2909次阅读
    芯干线<b class='flag-5'>GaN</b>器件在电源系统的应用优势

    analog devices方案:在LTspice仿真中使用GaN FET模型

    运行时会产生巨大的热损耗。在相同条件下,并联MOSFET并不能节省空间或提升效率,因此GaN FET成为一种颇具吸引力的技术。业界对GaN器件性能表现的关注,相应地催生了对各种GaN器件进行准确仿真以优化应用性能的需求。LTsp
    的头像 发表于 10-15 11:27 3.3w次阅读
    analog devices方案:在LTspice仿真中使用<b class='flag-5'>GaN</b> FET<b class='flag-5'>模型</b>

    自动驾驶中Transformer大模型会取代深度学习吗?

    持续讨论。特别是在自动驾驶领域,部分厂商开始尝试将模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与实际落地路径等维度来看,Transforme
    的头像 发表于 08-13 09:15 4351次阅读
    自动驾驶中Transformer大<b class='flag-5'>模型</b>会取代深度<b class='flag-5'>学习</b>吗?

    刷直流电机单神经元自适应智能控制系统

    摘要:针对刷直流电机(BLDCM)设计了一种可在线学习的单神经元自适应比例-积分-微分(PID)智能控制器,通过监督的 Hebb学习规则
    发表于 06-26 13:36

    机器学习异常检测实战:用Isolation Forest快速构建标签异常检测系统

    本文转自:DeepHubIMBA监督异常检测作为机器学习领域的重要分支,专门用于在缺乏标记数据的环境中识别异常事件。本文深入探讨异常检测技术的理论基础与实践应用,通过IsolationForest
    的头像 发表于 06-24 11:40 1586次阅读
    机器<b class='flag-5'>学习</b>异常检测实战:用Isolation Forest快速构建<b class='flag-5'>无</b>标签异常检测系统

    世界模型模态融合+因果推理,解锁AI认知边界

    电子发烧友网综合报道 在人工智能的蓬勃发展进程中,世界模型正崭露头角,成为推动其迈向更高智能水平的关键力量。世界模型作为 AI 系统对外部世界的内部表示和预测机制,致力于模仿人类和动物通过观察与交互
    的头像 发表于 06-23 04:49 4447次阅读

    新成果:GaN基VCSEL动态物理模型开发

    团队开发了 GaN基VCSEL的动态物理模型 ,揭示了器件内部载流子输运行为对激光器动态特性的影响规律。 GaN材料固有的极化特性导致GaN基VCSEL有源区中产生了量子限制斯塔克效应
    的头像 发表于 06-05 15:58 670次阅读
    新成果:<b class='flag-5'>GaN</b>基VCSEL动态物理<b class='flag-5'>模型</b>开发

    从FA模型切换到Stage模型时:module的切换说明

    调用Ability时所有调用参数的元信息。/Stage模型不支持。 results标识Ability返回值的元信息。/Stage模型不支持。 customizeData该标签标识级组件的自定义元信息
    发表于 06-05 08:16

    在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期发布了 Cosmos Reason-1 的 7B 和 56B 两款模态大语言模型 (MLLM),它们经过了“物理 AI 监督微调”和“物理 AI 强化学习”两个阶段
    的头像 发表于 06-04 13:43 1162次阅读

    使用MATLAB进行监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。监督学习旨在识别数据中隐藏的模式和关系,无需任何
    的头像 发表于 05-16 14:48 1581次阅读
    使用MATLAB进行<b class='flag-5'>无</b><b class='flag-5'>监督学习</b>