0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

图像生成领域的一个巨大进展:SAGAN

zhKF_jqr_AI 来源:未知 作者:李倩 2018-10-08 09:11 次阅读

编者按:几个月前,论智介绍了图像生成领域的一个巨大进展:SAGAN。在那篇论文中,罗格斯大学和Google Brain的研究人员大胆把NLP中的self-attention模型引入GAN,解决了特征记忆问题,把图像生成的初始分数(IS)从36.8一下提到了52.52。而近日,一篇ICLR 2019的Open Review论文(赫瑞-瓦特大学&DeepMind)带来了更震撼结果,他们把IS一下子提高了一百多分,从52.52提升到了166.3。

摘要

尽管学界在生成图像建模上取得了不小进展,但从像ImageNet这样的复杂数据集中成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此,我们以至今最大规模训练了生成对抗网络(GAN),并研究了这种规模所特有的不稳定性。研究发现,通过在生成器上使用正交正则化,我们可以让它适应简单的“截断技巧”,即允许利用“截断”潜在空间来精确控制样本保真度和多样性之间的权衡。

我们的修改使模型的性能达到了新高度。当我们在ImageNet上用128×128分辨率的图像进行训练时,我们的模型(BigGAN)的IS为166.3,FID为9.6,而之前的最佳记录是IS 52.52,FID 18.65。

简介

近年来,生成图像建模领域出现了不少成果,其中最前沿的是GAN,它能直接从数据中学习,生成高保真、多样化的图像。虽然GAN的训练是动态的,而且对各方面的设置都很敏感(从优化参数到模型架构),但大量研究已经证实,这种方法可以在各种环境中稳定训练。

尽管取得了这些进步,当前生成图像模型在ImageNet数据集上的表现还是很一般,最高IS只有52.52,而真实图像数据的得分高达233。

在这篇论文中,研究人员通过一系列修改,缩小了GAN生成的图像和ImageNet中的真实图像之间的差异,他们做出的贡献主要有以下三点:

证明GAN能从大规模训练中受益。通过对体系结构做了两个简单修改,他们在训练过程中使用的参数量是现有研究的2-4倍,batch size是8倍,但模型性能有显著提高。

作为改进的副作用,新模型非常适合“截断技巧”,即精确控制样本保真度和多样性之间的权衡。

发现大规模GAN的特有不稳定性,并根据经验进行表征。根据分析所得,他们认为把新方法和现有技术结合可以缓解这种不稳定性,但如果要实现完全的稳定训练,这会大大有损性能。

主要改进

本文提出的BigGAN遵循了SAGAN的基本架构,它基于ResNet,但判别器D中的通道和一般ResNet不同,每个模块的第一个卷积层的filter数量等于输出的filter数,而不是输入数。

在128×128 ImageNet数据上的架构

研究人员首先简单增加了基线模型的batch size,这样做的效果如下表所示。随着batch size逐渐变为基线的2倍、4倍、8倍,模型的FID不断下降,IS不断增加,至8倍时,BigGAN的IS较SAGAN已经提高了约46%。对于这个结果,他们提出的一个猜想是更大的batch size意味着每个batch覆盖的模式更多,这为两个神经网络提供了更好的梯度。

但这么做也有缺点,就是虽然模型能在更少的迭代中达到更好的最终性能,但它很不稳定,甚至会在训练时崩溃。

各batch size下BigGAN的IS(越高越好)和FID(越低越好)

之后,他们又把神经网络每一层的通道数在原有基础上增加了50%,这时每个神经网络的参数数量也几乎翻了一倍。当BigGAN的参数数量是SAGAN的两倍时,它的IS较后者提高了约21%。对此,他们给出的解释是,相对于数据集的复杂性,模型的容量增加了。而增加神经网络深度不会产生相似效果,反而会降低最终性能。

考虑到生成器G中conditional BatchNorm layer的类嵌入c包含大量权重,他们不再为每个嵌入分别设置一个层,而是使用了一个共享嵌入,由它投影到每一层。这降低了计算和存储成本,并把训练速度提高了37%。同时,他们使用了分层潜在空间的变体,把噪声向量z馈送进生成器的多个层,直接影响不同分辨率和层次结构级别的特征。

(a)常规生成器架构;(b)生成器中的残差块

生成效果

BigGAN生成的各个类别的图像

BigGAN生成的256×256的图像

BigGAN生成的512×512的图像

上面是论文呈现的一些生成图像。虽然其他GAN也能精选一些不错的图,但对比细节,BigGAN在质地、光影、外形等方面的表现都优于以往成果。而且就SAGAN强调的腿部生成效果来看,上图中公鸡的腿不突兀、更自然,和真实图像难以区分。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4568

    浏览量

    98702
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40034
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1761

    浏览量

    67837

原文标题:DeepMind:从52.52到166.3,图像生成再现巨大突破

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于扩散模型的图像生成过程

    近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭文本来控制
    的头像 发表于 07-17 11:00 2086次阅读
    基于扩散模型的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

    低质量图像生成与增强的区别 图像生成领域中存在的难点

    1. 论文信息   2. 引言   这篇论文的研究背景是图像生成领域中存在的一个难点 - 如何从低质量的图像中恢复高质量的细节信息。这对很多下游应用如监控视频分析等都是非常重要的。现有
    的头像 发表于 08-03 15:36 1053次阅读
    低质量<b class='flag-5'>图像</b>的<b class='flag-5'>生成</b>与增强的区别 <b class='flag-5'>图像</b><b class='flag-5'>生成</b><b class='flag-5'>领域</b>中存在的难点

    请问labview vision 做了改变图像尺寸的每次生成的图片都是黑的是为什么?

    做了改变图像尺寸的,每次生成的图片都是黑的是什么情况啊?求大神看看,指出问题。
    发表于 07-30 10:31

    关于使用LabVIEW生成彩色图像的问题

    我手里目前有图像的数据(附件), 是RGB565格式的,用两个字节表示像素点,现在我想在LabVIEW上通过这些数据,生成
    发表于 11-12 16:33

    医疗图像处理的关键领域

    本文重点介绍医疗图像处理的关键领域,考虑特定成像模式的环境,并讨论该领域的主要挑战和趋势。
    发表于 02-04 07:17

    CMOS图像传感器最新进展及发展趋势是什么?

    CMOS图像传感器最新进展及发展趋势是什么?
    发表于 06-08 06:20

    总结可微图像参数表示的最新进展

    。之前一些使用不同寻常的图像参数表示的工作(arXiv:1412.1897、3D对抗样本、特征可视化)展示了激动人心的结果——我们觉得概览下这一领域进展能够提示更具潜力的方法。
    的头像 发表于 08-16 09:19 3486次阅读

    图像生成领域的一个巨大进展,BigGAN的效果真的有那么好吗?

    因此,如果快速浏览BigGAN生成的一系列图像,我们能从中发现不少图具有诡异的美感。比如模型在生成下面几幅景观图时都遵循了从数据集中学到的构图和光影,但当这些来自不同样本的素材杂糅到一起后,它们给人的感觉就成了既熟悉又奇怪。
    的头像 发表于 11-21 09:05 6454次阅读

    三星在图像传感器领域进展介绍

    在以上榜单中,我们并没有看到在CMOS图像传感器领域对索尼龙头位置虎视眈眈的三星公司身影。考虑到索尼在TOF方面的强势表现,这种情况有点异常。但近日,三星宣布了在这个领域进展,正式加
    的头像 发表于 11-06 15:25 2134次阅读

    基于生成式对抗网络的端到端图像去雾模型

    针对现有图像去雾算法严重依赖中间量准确估计的问题,提出了一种基于 Wasserstein生成对抗网络(wGAN)的端到端图像去雾模型。首先,使用全卷积密集块网络(FC- Dense Net充分学习
    发表于 04-12 15:03 20次下载
    基于<b class='flag-5'>生成</b>式对抗网络的端到端<b class='flag-5'>图像</b>去雾模型

    一种基于改进的DCGAN生成SAR图像的方法

    针对SAR图像识别软件,通过改进 DCGAN模型单生成器与单判别器对抗的结构,采用多生成器与单判别器进行对抗,设计了控制各生成生成
    发表于 04-23 11:01 21次下载
    一种基于改进的DCGAN<b class='flag-5'>生成</b>SAR<b class='flag-5'>图像</b>的方法

    基于生成式对抗网络的图像补全方法

    图像补全是数字图像处理领域的重要研究方向,具有广阔的应用前景。提出了一种基于生成式对抗网络(GAN)的图像补全方法。
    发表于 05-19 14:38 14次下载

    如何去解决文本到图像生成的跨模态对比损失问题?

    从文本到图像的自动生成,如何训练模型仅通过一段文本描述输入就能生成具体的图像,是一项非常具有挑战性的任务。
    的头像 发表于 06-15 10:07 2400次阅读
    如何去解决文本到<b class='flag-5'>图像</b><b class='flag-5'>生成</b>的跨模态对比损失问题?

    简述文本与图像领域的多模态学习有关问题

    模型中的几个分支角度,简述文本与图像领域的多模态学习有关问题。 1. 引言 近年来,计算机视觉和自然语言处理方向均取得了很大进展。而融合二者的多模态深度学习也越来越受到关注,在基于图像
    的头像 发表于 08-26 16:29 6401次阅读

    虹软图像深度恢复技术与生成式AI的创新 生成式AI助力

    当前,生成式人工智能(AI)技术的快速发展令人瞩目。它能够理解人类的描述,并在短时间内生成逼真的图像和视频。在生成式AI的应用中,图像深度信
    发表于 06-21 09:06 299次阅读