0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当前生成图像最逼真的BigGAN被谷歌超越!造假效果更为逼真

传感器技术 来源:杨湘祁 作者:电子发烧友 2019-03-11 15:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当前生成图像最逼真的BigGAN被超越了!

出手的,是谷歌大脑和苏黎世联邦理工学院。他们提出了新一代GAN:S³GAN。

它们生成的照片,都是真假难辨。

下面这两只蝴蝶,哪只更生动?

两张风景照片,哪张更真实?

难以抉择也正常,反正都是假的。上面的照骗,都是左边出自S³GAN,右边的出自BigGAN之手。

它们还有更多作品:

至于哪些是S³GAN,答案文末揭晓。

肉眼难分高下,就用数据说话。跑个FID(Frechet Inception Distance)得分,分值越低,就表示这些照骗,越接近人类认识里的真实照片——

S³GAN是8.0分,而BigGAN是8.4分。新选手略微胜出。

你可还记得BigGAN问世之初,直接将图像生成的逼真度提高了一个Level,引来Twitter上花样赞赏?

如今它不止被超越,而且是被轻松超越。

“轻松”在哪呢?

S³GAN达到这么好的效果,只用了10%的人工标注数据。而老前辈BigGAN,训练所用的数据100%是人工标注过的。

如果用上20%的标注数据,S³GAN的效果又会更上一层楼。

标注数据的缺乏,已经是帮GAN提高生成能力,拓展使用场景的一大瓶颈。如今,这个瓶颈已经几乎被打破。

现在的S³GAN,只经过了ImageNet的实验,是实现用更少标注数据训练生成高保真图像的第一步。

接下来,作者们想要把这种技术应用到“更大”和“更多样化”的数据集中。

不用标注那么多

为什么训练GAN生成图像,需要大量数据标注呢?

GAN有生成器、判别器两大组件。

其中判别器要不停地识破假图像,激励生成器拿出更逼真的图像。

而图像的标注,就是给判别器做判断依据的。比如,这是真的猫,这是真的狗,这是真的汉堡……这是假图。

可是,没有那么多标注数据怎么办?

谷歌和ETH苏黎世的研究人员,决定训练AI自己标注图像,给判别器食用。

自监督 vs 半监督

要让判别器自己标注图像,有两种方法。

一是自监督方法,就是给判别器加一个特征提取器 (Feature Extractor) ,从没有标注的真实训练数据里面,学到它们的表征 (Feature Representation) 。

对这个表征做聚类 (Clustering) ,然后把聚类的分配结果,当成标注来用。

这里的训练,用的是自监督损失函数。

二是半监督方法,也要做特征提取器,但比上一种方法复杂一点点。

在训练集的一个子集已经标注过的情况下,根据这些已知信息来学习表征,同时训练一个线性分类器 (Linear Classifier) 。

这样,损失函数会在自监督的基础上,再加一项半监督的交叉熵损失 (Cross-Entropy Loss) 。

预训练了特征提取器,就可以拿去训练GAN了。这个用一小部分已知标注养成的GAN,叫做S²GAN。

不过,预训练也不是唯一的方法。

想要双管齐下,可以用协同训练 (Co-Training) :

直接在判别器的表征上面,训练一个半监督的线性分类器,用来预测没有标注的图像。这个过程,和GAN的训练一同进行。

这样就有了S²GAN的协同版,叫S²GAN-CO。

升级一波

然后,团队还想让S²GAN变得更强大,就在GAN训练的稳定性上面花了心思。

研究人员说,判别器自己就是一个分类器嘛,如果把这个分类器扩增 (Augmentation) 一下,可能疗效上佳。

于是,他们给了分类器一个额外的自监督任务,就是为旋转扩增过的训练集 (包括真图和假图) ,做个预测。

再把这个步骤,和前面的半监督模型结合起来,GAN的训练变得更加稳定,就有了升级版S³GAN:

架构脱胎于BigGAN

不管是S²GAN还是S³GAN,都借用了前辈BigGAN的网络架构,用的优化超参数也和前辈一样。

不同的是,这个研究中,没有使用正交正则化 (Orthogonal Regularization) ,也没有使用截断 (Truncation) 技巧。

△BigGAN的生成器和鉴别器架构图

训练的数据集,来自ImageNet,其中有130万训练图像和5万测试图像,图像中共有1000个类别。

图像尺寸被调整成了128×128×3,在每个类别中随机选择k%的样本,来获取半监督方法中的使用的部分标注数据集。

最后,在128核的Google TPU v3 Pod进行训练。

超越BigGAN

研究对比的基线,是DeepMind的BigGAN,当前记录的保持者,FID得分为7.4。

不过,他们在ImageNet上自己实现的BigGAN,FID为8.4,IS为75,并以此作为了标准。

在这个图表中,S²GAN是半监督的预训练方法。S²GAN-CO是半监督的协同训练方法。

S³GAN,是S²GAN加上一个自监督的线性分类器 (把数据集旋转扩增之后再拿给它分类) 。

其中,效果最好的是S³GAN,只使用10%由人工标注的数据,FID得分达到8.0,IS得分为78.7,表现均优于BigGAN。

如果你对这项研究感兴趣,请收好传送门:

论文:

High-Fidelity Image Generation With Fewer Labels

https://arxiv.org/abs/1903.02271

文章开头的这些照骗展示,就出自论文之中:

第一行是BigGAN作品,第二行是S³GAN新品,你猜对了吗?

另外,他们还在GitHub上开源了论文中实验所用全部代码:

https://github.com/google/compare_gan

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110239
  • 图像
    +关注

    关注

    2

    文章

    1095

    浏览量

    42150

原文标题:史上最强GAN被谷歌超越!标注数据少用90%,造假效果却更逼真

文章出处:【微信号:WW_CGQJS,微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    看点:谷歌Veo 3.1迎来重大更新硬刚Sora 2 12英寸硅片国产龙头西安奕材今日申购

    给大家带来一些业界资讯: 谷歌Veo 3.1迎来重大更新硬刚Sora 2 据外媒报道,在10月16日,谷歌发布了AI视频生成模型Veo 3.1,升级音频集成与叙事控制能力;以及更逼真的
    的头像 发表于 10-16 16:00 820次阅读

    HarmonyOSAI编程编辑区代码生成

    Accept ALL或使用快捷键Alt+Enter,接受当前生成的全部内容。或使用快捷键Shift+Ctrl+Y或点击界面中Shift+Ctrl+Y区域,分段逐一接受并保留生成内容;使用快捷键
    发表于 08-20 15:24

    AI开启更逼真的游戏时代

    ,电子游戏正在借助人工智能创造出越来越逼真的场景和交互体验。GPU不再仅仅局限于图形渲染,如今已广泛应用于多种AI任务,包括生成更真实的非玩家角色(NPC)、动态世界、个
    的头像 发表于 08-20 11:22 986次阅读
    AI开启更<b class='flag-5'>逼真的</b>游戏时代

    NVIDIA RTX PRO 4500 Blackwell产品特性

    AI 浪潮正席卷全球,驱动着各行各业的深刻变革。面对生成式 AI 的创意爆发、实时仿真的复杂需求以及逼真渲染的品质追求,企业亟需强大的工具来拥抱这股变革力量。
    的头像 发表于 08-05 16:39 1793次阅读
    NVIDIA RTX PRO 4500 Blackwell产品特性

    利用NVIDIA 3D引导生成式AI Blueprint控制图像生成

    AI 赋能的图像生成技术突飞猛进,从早期模型会生成手指过多的人类图像,到现在能创造出令人惊叹的逼真视觉
    的头像 发表于 06-05 09:24 726次阅读

    技术分享 | 高逼真合成数据助力智驾“看得更准、学得更快”

    自动驾驶研发如何高效获取海量训练数据?高逼真合成数据技术正在提供新解法。通过仿真平台可生成多场景、多传感器的精准标注数据。文章详解如何构建符合nuScenes标准的数据集,覆盖复杂交通场景,为感知模型训练提供高效、可控的数据支持。
    的头像 发表于 04-29 10:47 3293次阅读
    技术分享 | 高<b class='flag-5'>逼真</b>合成数据助力智驾“看得更准、学得更快”

    如何使用离线工具od SPSDK生成完整图像

    SDSDK)会生成一个缺少前 4KB 的文件。 这些将由 flashloader 直接在目标上填充,使用将要传达给它的参数,对吧? 我需要离线工作。我需要生成一个 “完整图像”,但无法访问目标。 我该怎么做?
    发表于 03-28 06:51

    ​Diffusion生成式动作引擎技术解析

    Diffusion生成式动作引擎 Diffusion生成式动作引擎是一种基于扩散模型(Diffusion Models)的生成式人工智能技术,专注于生成连续、
    的头像 发表于 03-17 15:14 2697次阅读

    硕博电子SPD-043-Ex系列显示屏介绍

    SPD-043-Ex系列显示屏采用4.3英寸24位彩屏,呈现鲜艳逼真的色彩效果,满足用户对高品质视觉体验的需求。
    的头像 发表于 03-03 15:05 924次阅读

    DeepSeek用户量超越谷歌Gemini

    在聊天AI领域的竞争中,中国AI产品DeepSeek展现出了强劲的增长势头。据最新数据显示,1月底,DeepSeek的用户量已经成功超越谷歌的Gemini。 具体来看,1月31日这一天
    的头像 发表于 02-07 14:59 781次阅读

    谷歌CEO:Gemini AI技术超越竞品,目标年底5亿用户

    近日,谷歌CEO皮查伊近期向员工传达了他对公司Gemini AI技术的信心。据悉,皮查伊认为Gemini的能力已经超越当前的竞争对手。 皮查伊表示,他期望到今年年底,全球能有5亿人
    的头像 发表于 01-17 10:37 1131次阅读

    阿里云通义万相2.1视频生成模型震撼发布

    。在复杂运动的表现上,该模型能够生成更加流畅、自然的视频内容,使得生成的视频在动态效果上更加逼真。同时,在物理规律的遵循方面,万相2.1也展现出了出色的能力,能够确保
    的头像 发表于 01-13 10:00 1122次阅读

    借助谷歌Gemini和Imagen模型生成高质量图像

    在快速发展的生成式 AI 领域,结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示,然后使用 Imagen 3 模型根据这些提示生成高质量的图像
    的头像 发表于 01-03 10:38 1332次阅读
    借助<b class='flag-5'>谷歌</b>Gemini和Imagen模型<b class='flag-5'>生成</b>高质量<b class='flag-5'>图像</b>

    坚米智能借助NVIDIA Isaac Lab加速四足机器人开发

    坚米智能(中坚科技)借助NVIDIA Isaac Lab平台,通过NVIDIA Isaac Sim的 3D 生成与建模技术构建高度逼真的虚拟场景,将现实世界的复杂场景抽象并转化为高质量的训练数据源,从而更有效地满足模型的多样化训练需求。
    的头像 发表于 12-29 14:01 2100次阅读

    谷歌与三星联合发布Android XR操作系统

    谷歌与三星近日携手宣布,共同推出了全新的操作系统——Android XR。这一系统专为头戴式装置和智能眼镜等下一代计算设备提供技术支持,旨在为用户带来更为丰富、沉浸式的体验。 Android XR
    的头像 发表于 12-16 10:08 811次阅读