0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌大脑打造“以一当十”的GAN:仅用10%标记数据,生成图像却更逼真

DPVg_AI_era 来源:YXQ 2019-03-22 08:53 次阅读

近日,谷歌大脑研究人员提出了一种基于自监督和半监督学习的“条件GAN”,使用的标记数据量大降90%,生成图像的质量比现有全监督最优模型BigGAN高出20%(以FID得分计),有望缓解图像生成和识别领域标记数据量严重不足的问题。

生成对抗网络(GAN)是一类强大的深度生成模型。GAN背后的主要思想是训练两个神经网络:生成器负责学习如何合成数据,而判别器负责学习如何区分真实数据与生成器合成的虚假数据。目前,GAN已成功用于高保真自然图像合成,改善学习图像压缩质量,以及数据增强等任务。

对于自然图像合成任务来说,现有的最优结果是通过条件GAN实现的。与无条件GAN不同,条件GAN在训练期间要使用标签(比如汽车,狗等)。虽然数据标记让图像合成任务变得更容易实现,在性能上获得了显著提升,但是这种方法需要大量标记数据,而在实际任务中很少有大量标记数据可用。

随着ImageNet上训练过程的持续,生成的图像逼真度进步明显

谷歌大脑的研究人员在最近的《用更少的数据标签生成高保真图像》中,提出了一种新方法来减少训练最先进条件GAN所需的标记数据量。文章提出结合大规模GAN的最新进展,将高保真自然图像合成技术与最先进技术相结合,使数据标记数量减少到原来的10%。

在此基础上,研究人员还发布了Compare GAN库的重大更新,其中包含了训练和评估现代GAN所需的所有组件。

利用半监督和自监督方式提升预测性能

条件GAN与基线BigGAN的FID分数对比,图中黑色竖线为BigGAN基线模型(使用全部标记数据)得分。S3GAN在仅使用10%标记数据的情况下,得分比基线模型最优得分高20%

在条件GAN中,生成器和判别器通常都以分类标签为应用条件。现在,研究人员建议使用推断得出的数据标签,来替换手工标记的真实标签。

上行:BigGAN全监督式学习生成的128×128像素最优图像样本。下行为S3GAN生成的图像样本,标记数据量降低了90%,FID得分与BigGAN表现相当

为了推断大型数据集中多数未标记数据的高质量标签,可以采取两步方法:首先,仅使用数据集的未标记部分来学习特征表示。

为了学习特征表示,需要利用新方法,以不同的方法利用自我监督机制:将未标记的图像进行随机旋转,由深度卷积神经网络负责预测旋转角度。这背后的思路是,模型需要能够识别主要对象及其形状,才能在此类任务中获得成功。

对一幅未标记的图像进行随机旋转,网络的任务是预测旋转角度。成功的模型需要捕捉有意义的语义图像特征,这些特征可用于完成其他视觉任务

研究人员将训练网络的一个中间层的激活模式视为输入的新特征表示,并训练分类器,以使用原始数据集的标记部分识别该输入的标签。由于网络经过预训练,可以从数据中提取具有语义意义的特征,因此,训练此分类器比从头开始训练整个网络更具样本效率。最后使用分类器对未标记的数据进行标记。

为了进一步提高模型质量和训练的稳定性,最好让判别器网络学习有意义的特征表示。通过这些改进手段,在加上大规模的训练,使得新的条件GAN在ImageNet图像合成任务上达到了最优性能。

给定潜在向量,由生成器网络生成图像。在每行中,最左侧和最右侧图像的潜在代码之间的线性插值导致图像空间中的语义插值

CompareGAN:用于训练和评估GAN的库

对GAN的前沿研究在很大程度上依赖于经过精心设计和测试的代码库,即使只是复制或再现先前的结果和技术,也需要付出巨大努力。

为了促进开放科学并让研究界从最近的进步中获益,研究人员发布了Compare GAN库的重大更新。该库包括现代GAN中常用的损失函数,正则化和归一化方案,神经架构和量化指标,现已支持:

GPU和TPU训练

通过Gin进行轻量级配置(含实例)

通过TensorFlow数据集库提供大量数据集

未来方向:自监督学习会让GAN更强大

由于标记数据源和未标记数据源之间的差距越来越大,让模型具备从部分标记的数据中学习的能力变得越来越重要。

目前来看,自监督学习和半监督学习的简单而有力的结合,有助于缩小GAN的这一现实差距。自监督是一个值得研究的领域,值得在该领域开展面向其他生成建模任务的研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5803

    浏览量

    103144
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1744

    浏览量

    67214

原文标题:谷歌大脑打造“以一当十”的GAN:仅用10%标记数据,生成图像却更逼真

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    麻省理工与Adobe新技术DMD提升图像生成速度

    2023年3月27日,据传,新型文生图算法虽然使得图像生成无比逼真,但奈何运行速度较慢。近期,美国麻省理工学院联合Adobe推出新型DMD方法,仅略微牺牲图像质量就大幅度提高
    的头像 发表于 03-27 14:17 71次阅读

    谷歌计划重新推出改进后的Gemini AI模型人像生成功能

    谷歌DeepMind的首席执行官德米斯·哈萨比斯在2月26日透露,公司计划在接下来的几周内重新发布其备受关注的Gemini AI模型人像生成功能。此前,由于在某些历史图像生成描述中出现
    的头像 发表于 02-28 10:17 116次阅读

    谷歌推出图像生成新工具ImageFX,提升图像质量

    作为实验室的新兴工具,ImageFX 允许用户借助简洁的文字指令来创作图像。经过前期试验,该团队认为对生成型人工智能工具来说最关键的是如何启发并鼓励用户挖掘和实践创意想法。
    的头像 发表于 02-02 14:18 215次阅读

    Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型,能直接根据模型文字或单张图片的输入,生成 3D NeRF。在单个 A100 GPU 上,仅
    的头像 发表于 01-30 16:20 338次阅读
    Adobe提出DMV3D:3D<b class='flag-5'>生成</b>只需30秒!让文本、<b class='flag-5'>图像</b>都动起来的新方法!

    谷歌投资10亿美元在英国建设新数据中心

    谷歌公司近日宣布,已开始在英国赫特福德郡的Waltham Cross地区建设新的数据中心。该数据中心的建设将耗资10亿美元,并选址在谷歌于2
    的头像 发表于 01-19 15:42 235次阅读

    二值图像连通区域的标记原理

    二值图像是一种由黑白两色组成的图像,其像素值只有两种可能,分别对应黑色和白色。在二值图像中,连通区域是指一块相邻的、像素值相同的区域。为了对二值图像中的连通区域进行分析和处理,我们需要
    的头像 发表于 01-05 14:28 179次阅读

    香港大学最新提出!实现超现实的人类图像生成:HyperHuman

    最后,为了进一步提高视觉质量,我们提出了一种结构引导细化器来组合预测条件,以更详细地生成更高分辨率。大量的实验表明,我们的框架具有最先进的性能,可以在不同的场景下生成逼真的人类图像
    的头像 发表于 11-27 16:03 224次阅读
    香港大学最新提出!实现超现实的人类<b class='flag-5'>图像</b><b class='flag-5'>生成</b>:HyperHuman

    检测并消除瑕疵,DeSRA让真实场景超分中的GAN更加完美

    使用生成对抗网络(GAN)进行图像超分辨率(SR)已经在恢复逼真细节方面取得了巨大成功。然而,众所周知,基于 GAN 的 SR 模型会产生令
    的头像 发表于 08-06 22:00 230次阅读
    检测并消除瑕疵,DeSRA让真实场景超分中的<b class='flag-5'>GAN</b>更加完美

    低质量图像生成与增强的区别 图像生成领域中存在的难点

    1. 论文信息   2. 引言   这篇论文的研究背景是图像生成领域中存在的一个难点 - 如何从低质量的图像中恢复高质量的细节信息。这对很多下游应用如监控视频分析等都是非常重要的。现有的图像
    的头像 发表于 08-03 15:36 1008次阅读
    低质量<b class='flag-5'>图像</b>的<b class='flag-5'>生成</b>与增强的区别 <b class='flag-5'>图像</b><b class='flag-5'>生成</b>领域中存在的难点

    生成式 AI 研究通过引导式图像结构控制为创作者赋能

    新的研究正在通过一个文本引导的图像编辑工具来提升生成式 AI 的创造性潜能。这项创新性的研究提出了一个使用即插即用扩散特征(PnP DFs)的框架,可引导实现逼真而精确的图像
    的头像 发表于 07-24 19:30 337次阅读

    基于扩散模型的图像生成过程

    等很难用文本指定。   最近,谷歌发布了MediaPipe Diffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(LoRA)变体 背景知识 基于扩散模型的
    的头像 发表于 07-17 11:00 1972次阅读
    基于扩散模型的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

    Exelon 利用电网基础设施合成数据生成来实现无人机检查的自动化

    十分困难。 在一场 NVIDIA GTC 分会上,专家分享了 Exelon 如何在 NVIDIA Omniverse 中使用 Omniverse Replicator 进行合成数据生成,从而自动创建涵盖各种电网资产缺陷的数千个已标记
    的头像 发表于 07-04 23:45 271次阅读
    Exelon 利用电网基础设施合成<b class='flag-5'>数据</b><b class='flag-5'>生成</b>来实现无人机检查的自动化

    虹软图像深度恢复技术与生成式AI的创新 生成式AI助力

    当前,生成式人工智能(AI)技术的快速发展令人瞩目。它能够理解人类的描述,并在短时间内生成逼真图像和视频。在生成式AI的应用中,
    发表于 06-21 09:06 283次阅读

    PyTorch教程-20.2. 深度卷积生成对抗网络

    或正态分布,并将它们转换成看起来与某些数据集的分布相匹配的样本。虽然我们匹配 2D 高斯分布的示例说明了要点,但它并不是特别令人兴奋。 在本节中,我们将演示如何使用 GAN 生成逼真
    的头像 发表于 06-05 15:44 416次阅读
    PyTorch教程-20.2. 深度卷积<b class='flag-5'>生成</b>对抗网络

    如何通过PyTorch实现卷积GAN构建?

    人们曾经认为生成的任务是不可能的,并且被 GAN 的力量所震惊,因为传统上,根本没有任何事实可以比较我们生成图像
    发表于 05-09 14:47 407次阅读
    如何通过PyTorch实现卷积<b class='flag-5'>GAN</b>构建?