0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当前生成图像最逼真的BigGAN被谷歌超越!造假效果更为逼真

传感器技术 来源:杨湘祁 作者:电子发烧友 2019-03-11 15:28 次阅读

当前生成图像最逼真的BigGAN被超越了!

出手的,是谷歌大脑和苏黎世联邦理工学院。他们提出了新一代GAN:S³GAN。

它们生成的照片,都是真假难辨。

下面这两只蝴蝶,哪只更生动?

两张风景照片,哪张更真实?

难以抉择也正常,反正都是假的。上面的照骗,都是左边出自S³GAN,右边的出自BigGAN之手。

它们还有更多作品:

至于哪些是S³GAN,答案文末揭晓。

肉眼难分高下,就用数据说话。跑个FID(Frechet Inception Distance)得分,分值越低,就表示这些照骗,越接近人类认识里的真实照片——

S³GAN是8.0分,而BigGAN是8.4分。新选手略微胜出。

你可还记得BigGAN问世之初,直接将图像生成的逼真度提高了一个Level,引来Twitter上花样赞赏?

如今它不止被超越,而且是被轻松超越。

“轻松”在哪呢?

S³GAN达到这么好的效果,只用了10%的人工标注数据。而老前辈BigGAN,训练所用的数据100%是人工标注过的。

如果用上20%的标注数据,S³GAN的效果又会更上一层楼。

标注数据的缺乏,已经是帮GAN提高生成能力,拓展使用场景的一大瓶颈。如今,这个瓶颈已经几乎被打破。

现在的S³GAN,只经过了ImageNet的实验,是实现用更少标注数据训练生成高保真图像的第一步。

接下来,作者们想要把这种技术应用到“更大”和“更多样化”的数据集中。

不用标注那么多

为什么训练GAN生成图像,需要大量数据标注呢?

GAN有生成器、判别器两大组件。

其中判别器要不停地识破假图像,激励生成器拿出更逼真的图像。

而图像的标注,就是给判别器做判断依据的。比如,这是真的猫,这是真的狗,这是真的汉堡……这是假图。

可是,没有那么多标注数据怎么办?

谷歌和ETH苏黎世的研究人员,决定训练AI自己标注图像,给判别器食用。

自监督 vs 半监督

要让判别器自己标注图像,有两种方法。

一是自监督方法,就是给判别器加一个特征提取器 (Feature Extractor) ,从没有标注的真实训练数据里面,学到它们的表征 (Feature Representation) 。

对这个表征做聚类 (Clustering) ,然后把聚类的分配结果,当成标注来用。

这里的训练,用的是自监督损失函数。

二是半监督方法,也要做特征提取器,但比上一种方法复杂一点点。

在训练集的一个子集已经标注过的情况下,根据这些已知信息来学习表征,同时训练一个线性分类器 (Linear Classifier) 。

这样,损失函数会在自监督的基础上,再加一项半监督的交叉熵损失 (Cross-Entropy Loss) 。

预训练了特征提取器,就可以拿去训练GAN了。这个用一小部分已知标注养成的GAN,叫做S²GAN。

不过,预训练也不是唯一的方法。

想要双管齐下,可以用协同训练 (Co-Training) :

直接在判别器的表征上面,训练一个半监督的线性分类器,用来预测没有标注的图像。这个过程,和GAN的训练一同进行。

这样就有了S²GAN的协同版,叫S²GAN-CO。

升级一波

然后,团队还想让S²GAN变得更强大,就在GAN训练的稳定性上面花了心思。

研究人员说,判别器自己就是一个分类器嘛,如果把这个分类器扩增 (Augmentation) 一下,可能疗效上佳。

于是,他们给了分类器一个额外的自监督任务,就是为旋转扩增过的训练集 (包括真图和假图) ,做个预测。

再把这个步骤,和前面的半监督模型结合起来,GAN的训练变得更加稳定,就有了升级版S³GAN:

架构脱胎于BigGAN

不管是S²GAN还是S³GAN,都借用了前辈BigGAN的网络架构,用的优化超参数也和前辈一样。

不同的是,这个研究中,没有使用正交正则化 (Orthogonal Regularization) ,也没有使用截断 (Truncation) 技巧。

△BigGAN的生成器和鉴别器架构图

训练的数据集,来自ImageNet,其中有130万训练图像和5万测试图像,图像中共有1000个类别。

图像尺寸被调整成了128×128×3,在每个类别中随机选择k%的样本,来获取半监督方法中的使用的部分标注数据集。

最后,在128核的Google TPU v3 Pod进行训练。

超越BigGAN

研究对比的基线,是DeepMind的BigGAN,当前记录的保持者,FID得分为7.4。

不过,他们在ImageNet上自己实现的BigGAN,FID为8.4,IS为75,并以此作为了标准。

在这个图表中,S²GAN是半监督的预训练方法。S²GAN-CO是半监督的协同训练方法。

S³GAN,是S²GAN加上一个自监督的线性分类器 (把数据集旋转扩增之后再拿给它分类) 。

其中,效果最好的是S³GAN,只使用10%由人工标注的数据,FID得分达到8.0,IS得分为78.7,表现均优于BigGAN。

如果你对这项研究感兴趣,请收好传送门:

论文:

High-Fidelity Image Generation With Fewer Labels

https://arxiv.org/abs/1903.02271

文章开头的这些照骗展示,就出自论文之中:

第一行是BigGAN作品,第二行是S³GAN新品,你猜对了吗?

另外,他们还在GitHub上开源了论文中实验所用全部代码:

https://github.com/google/compare_gan

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5861

    浏览量

    103263
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40041

原文标题:史上最强GAN被谷歌超越!标注数据少用90%,造假效果却更逼真

文章出处:【微信号:WW_CGQJS,微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    麻省理工与Adobe新技术DMD提升图像生成速度

    2023年3月27日,据传,新型文生图算法虽然使得图像生成无比逼真,但奈何运行速度较慢。近期,美国麻省理工学院联合Adobe推出新型DMD方法,仅略微牺牲图像质量就大幅度提高
    的头像 发表于 03-27 14:17 137次阅读

    Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型,能直接根据模型文字或单张图片的输入,生成 3D NeRF。在单个 A100 GPU 上,仅
    的头像 发表于 01-30 16:20 377次阅读
    Adobe提出DMV3D:3D<b class='flag-5'>生成</b>只需30秒!让文本、<b class='flag-5'>图像</b>都动起来的新方法!

    何恺明新作RCG:无自条件图像生成新SOTA!与MIT首次合作!

    它有望超越条件图像生成,并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展(这也是为什么条件生成图像发展得这么好,我们还要重视无
    的头像 发表于 12-10 10:24 531次阅读
    何恺明新作RCG:无自条件<b class='flag-5'>图像</b><b class='flag-5'>生成</b>新SOTA!与MIT首次合作!

    阿迪达斯与 Covision Media 使用 AI 和 NVIDIA RTX 创建逼真的 3D 内容

    Covision 的基于 AI 的 3D 技术可帮助企业扫描数千种产品,为网站和移动应用创建逼真的 3D 图像、视频和 AR 体验。 将实体产品扫描成 3D 模型是一项十分耗时的工作。企业通常
    的头像 发表于 11-28 18:45 338次阅读
    阿迪达斯与 Covision Media 使用 AI 和 NVIDIA RTX 创建<b class='flag-5'>逼真的</b> 3D 内容

    香港大学最新提出!实现超现实的人类图像生成:HyperHuman

    最后,为了进一步提高视觉质量,我们提出了一种结构引导细化器来组合预测条件,以更详细地生成更高分辨率。大量的实验表明,我们的框架具有最先进的性能,可以在不同的场景下生成逼真的人类图像
    的头像 发表于 11-27 16:03 264次阅读
    香港大学最新提出!实现超现实的人类<b class='flag-5'>图像</b><b class='flag-5'>生成</b>:HyperHuman

    CVPR2023 RobustNeRF: 从单张图像生成3D形状

    在通常使用的nerf数据中,一个场景往往无法从同一视角捕捉多幅图像,这使得数学建模干扰物变得困难。更具体地说,虽然视角相关效应(View-Dependent)是使NeRF看起来逼真的因素,但模型如何区分干扰物和视角相关效果呢?
    的头像 发表于 11-09 16:35 573次阅读
    CVPR2023 RobustNeRF: 从单张<b class='flag-5'>图像</b><b class='flag-5'>生成</b>3D形状

    LED虚拟拍摄:提升视觉效果的新途径

    ,创造出更为逼真的虚拟场景,提升了视觉效果。 一、LED虚拟制片技术简介 LED虚拟制片技术是一种利用高分辨率、高刷新率的LED显示屏,实时渲染虚拟背景,与前景中的演员和景物完美融合的拍摄技术。它可以将计算机
    的头像 发表于 09-04 17:22 320次阅读

    生成式AI如何帮助创建和编辑逼真的材质?

    这项研究的演示现身 SIGGRAPH 展会 Real-Time Live 活动,展示了艺术家如何利用文本或图像提示来更快地生成织物、木材和石材等自定义纹理材质,同时对创作进行更加
    的头像 发表于 09-01 15:36 519次阅读

    SIGGRAPH 2023 | 贴图帮手:NVIDIA Research 展示生成式 AI 如何帮助创建和编辑逼真的材质

    工作流。 这项研究的演示现身 SIGGRAPH 展会 Real-Time Live 活动,展示了艺术家如何利用文本或图像提示来更快地生成织物、木材和石材等自定义纹理材质,同时对创作进行更加精细的把控。 NVIDIA Picasso 将提供这些功能,使企业、软件创作者和服
    的头像 发表于 08-10 20:15 413次阅读

    NVIDIA高度逼真模拟应用PhysX现已开源

    NVIDIA 宣布高度逼真模拟应用PhysX,持续开源
    的头像 发表于 08-01 14:50 394次阅读

    基于扩散模型的图像生成过程

    等很难用文本指定。   最近,谷歌发布了MediaPipe Diffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(LoRA)变体 背景知识 基于扩散模型的
    的头像 发表于 07-17 11:00 2110次阅读
    基于扩散模型的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

    通过 NVIDIA RTX 为建筑项目打造逼真渲染和 4D 序列

    Layton Construction 使用 RTX Ada 架构 GPU 改进可视化工作流,为建筑项目各个阶段创造出逼真的渲染和动画。 近日,Layton Construction 在一个码头
    的头像 发表于 07-05 18:15 299次阅读
    通过 NVIDIA RTX 为建筑项目打造<b class='flag-5'>逼真</b>渲染和 4D 序列

    虹软图像深度恢复技术与生成式AI的创新 生成式AI助力

    当前生成式人工智能(AI)技术的快速发展令人瞩目。它能够理解人类的描述,并在短时间内生成逼真的图像和视频。在
    发表于 06-21 09:06 309次阅读

    识别「ChatGPT造假」,效果超越OpenAI:北大、华为的AI生成检测器来了

    AI 造假的成功率很高,前几天「10 分钟骗 430万」还上了热搜。在最热门的大语言模型上,研究人员最近探索了一种识别方法。 随着生成式大模型的不断进步,它们生成的语料正逐步逼近人类。虽然大模型正在
    的头像 发表于 06-06 11:05 336次阅读
    识别「ChatGPT<b class='flag-5'>造假</b>」,<b class='flag-5'>效果</b><b class='flag-5'>超越</b>OpenAI:北大、华为的AI<b class='flag-5'>生成</b>检测器来了

    PyTorch教程-20.2. 深度卷积生成对抗网络

    或正态分布,并将它们转换成看起来与某些数据集的分布相匹配的样本。虽然我们匹配 2D 高斯分布的示例说明了要点,但它并不是特别令人兴奋。 在本节中,我们将演示如何使用 GAN 生成逼真的图像。我们的模型
    的头像 发表于 06-05 15:44 456次阅读
    PyTorch教程-20.2. 深度卷积<b class='flag-5'>生成</b>对抗网络