0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当前生成图像最逼真的BigGAN被谷歌超越!造假效果更为逼真

传感器技术 来源:杨湘祁 作者:电子发烧友 2019-03-11 15:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当前生成图像最逼真的BigGAN被超越了!

出手的,是谷歌大脑和苏黎世联邦理工学院。他们提出了新一代GAN:S³GAN。

它们生成的照片,都是真假难辨。

下面这两只蝴蝶,哪只更生动?

两张风景照片,哪张更真实?

难以抉择也正常,反正都是假的。上面的照骗,都是左边出自S³GAN,右边的出自BigGAN之手。

它们还有更多作品:

至于哪些是S³GAN,答案文末揭晓。

肉眼难分高下,就用数据说话。跑个FID(Frechet Inception Distance)得分,分值越低,就表示这些照骗,越接近人类认识里的真实照片——

S³GAN是8.0分,而BigGAN是8.4分。新选手略微胜出。

你可还记得BigGAN问世之初,直接将图像生成的逼真度提高了一个Level,引来Twitter上花样赞赏?

如今它不止被超越,而且是被轻松超越。

“轻松”在哪呢?

S³GAN达到这么好的效果,只用了10%的人工标注数据。而老前辈BigGAN,训练所用的数据100%是人工标注过的。

如果用上20%的标注数据,S³GAN的效果又会更上一层楼。

标注数据的缺乏,已经是帮GAN提高生成能力,拓展使用场景的一大瓶颈。如今,这个瓶颈已经几乎被打破。

现在的S³GAN,只经过了ImageNet的实验,是实现用更少标注数据训练生成高保真图像的第一步。

接下来,作者们想要把这种技术应用到“更大”和“更多样化”的数据集中。

不用标注那么多

为什么训练GAN生成图像,需要大量数据标注呢?

GAN有生成器、判别器两大组件。

其中判别器要不停地识破假图像,激励生成器拿出更逼真的图像。

而图像的标注,就是给判别器做判断依据的。比如,这是真的猫,这是真的狗,这是真的汉堡……这是假图。

可是,没有那么多标注数据怎么办?

谷歌和ETH苏黎世的研究人员,决定训练AI自己标注图像,给判别器食用。

自监督 vs 半监督

要让判别器自己标注图像,有两种方法。

一是自监督方法,就是给判别器加一个特征提取器 (Feature Extractor) ,从没有标注的真实训练数据里面,学到它们的表征 (Feature Representation) 。

对这个表征做聚类 (Clustering) ,然后把聚类的分配结果,当成标注来用。

这里的训练,用的是自监督损失函数。

二是半监督方法,也要做特征提取器,但比上一种方法复杂一点点。

在训练集的一个子集已经标注过的情况下,根据这些已知信息来学习表征,同时训练一个线性分类器 (Linear Classifier) 。

这样,损失函数会在自监督的基础上,再加一项半监督的交叉熵损失 (Cross-Entropy Loss) 。

预训练了特征提取器,就可以拿去训练GAN了。这个用一小部分已知标注养成的GAN,叫做S²GAN。

不过,预训练也不是唯一的方法。

想要双管齐下,可以用协同训练 (Co-Training) :

直接在判别器的表征上面,训练一个半监督的线性分类器,用来预测没有标注的图像。这个过程,和GAN的训练一同进行。

这样就有了S²GAN的协同版,叫S²GAN-CO。

升级一波

然后,团队还想让S²GAN变得更强大,就在GAN训练的稳定性上面花了心思。

研究人员说,判别器自己就是一个分类器嘛,如果把这个分类器扩增 (Augmentation) 一下,可能疗效上佳。

于是,他们给了分类器一个额外的自监督任务,就是为旋转扩增过的训练集 (包括真图和假图) ,做个预测。

再把这个步骤,和前面的半监督模型结合起来,GAN的训练变得更加稳定,就有了升级版S³GAN:

架构脱胎于BigGAN

不管是S²GAN还是S³GAN,都借用了前辈BigGAN的网络架构,用的优化超参数也和前辈一样。

不同的是,这个研究中,没有使用正交正则化 (Orthogonal Regularization) ,也没有使用截断 (Truncation) 技巧。

△BigGAN的生成器和鉴别器架构图

训练的数据集,来自ImageNet,其中有130万训练图像和5万测试图像,图像中共有1000个类别。

图像尺寸被调整成了128×128×3,在每个类别中随机选择k%的样本,来获取半监督方法中的使用的部分标注数据集。

最后,在128核的Google TPU v3 Pod进行训练。

超越BigGAN

研究对比的基线,是DeepMind的BigGAN,当前记录的保持者,FID得分为7.4。

不过,他们在ImageNet上自己实现的BigGAN,FID为8.4,IS为75,并以此作为了标准。

在这个图表中,S²GAN是半监督的预训练方法。S²GAN-CO是半监督的协同训练方法。

S³GAN,是S²GAN加上一个自监督的线性分类器 (把数据集旋转扩增之后再拿给它分类) 。

其中,效果最好的是S³GAN,只使用10%由人工标注的数据,FID得分达到8.0,IS得分为78.7,表现均优于BigGAN。

如果你对这项研究感兴趣,请收好传送门:

论文:

High-Fidelity Image Generation With Fewer Labels

https://arxiv.org/abs/1903.02271

文章开头的这些照骗展示,就出自论文之中:

第一行是BigGAN作品,第二行是S³GAN新品,你猜对了吗?

另外,他们还在GitHub上开源了论文中实验所用全部代码:

https://github.com/google/compare_gan

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6259

    浏览量

    111979
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42438

原文标题:史上最强GAN被谷歌超越!标注数据少用90%,造假效果却更逼真

文章出处:【微信号:WW_CGQJS,微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    全面掌握ComfyUI系统教程|94节从入门到进阶实战清单

    码器)编码器的精准调用。原始图像通过编码器转化为潜空间张量,而之前生成的掩码同样编码为潜空间掩码。在潜空间维度,通过 Denoise(去噪强度)参数的控制,将背景区域的噪点强度设为最大,而主体区域设为
    发表于 03-29 16:17

    融合多场耦合效应:生成式人工智能技术演进及其在航空发动机复杂工程系统中的赋能机制研究

    人工智能技术正经历着从感知智能向生成智能、再向代理智能与物理智能演进的深刻变革。在这一进程中,生成式AI技术的突破性发展尤为引人瞩目,其不仅能够在自然语言处理和计算机视觉领域生成高度逼真的
    的头像 发表于 02-26 10:07 660次阅读
    融合多场耦合效应:<b class='flag-5'>生成</b>式人工智能技术演进及其在航空发动机复杂工程系统中的赋能机制研究

    谷歌评论卡,碰一碰即可完成谷歌评论 #谷歌评论卡 #NFC标签 #nfc卡

    谷歌
    深圳市融智兴科技有限公司
    发布于 :2026年01月15日 17:02:00

    量子、雷达、生物医学…复杂信号如何精准生成?答案在这台“信号引擎”

    在量子精密操控与复杂雷达仿真的前沿,任意波形发生器(AWG)正成为定义信号的核心引擎。本文将解析AWG在驱动量子比特操控、生成逼真假目标回波及生物医学信号仿真。
    的头像 发表于 12-24 12:29 262次阅读
    量子、雷达、生物医学…复杂信号如何精准<b class='flag-5'>生成</b>?答案在这台“信号引擎”

    借助NVIDIA Isaac Sim与World Labs Marble加速机器人仿真环境构建

    一直以来,为机器人仿真构建逼真的 3D 环境是一项非常耗费人力的工作,往往需要数周的手动建模与配置。如今,借助生成式世界模型,开发者只需输入文本提示,就能在极短时间内生成一个逼真、可直
    的头像 发表于 12-24 10:28 1699次阅读

    使用Firebase AI Logic生成图像模型的两种新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两种新功能: 其一是 Imagen 专属编辑功能预览版;其二
    的头像 发表于 11-30 09:28 554次阅读

    看点:谷歌Veo 3.1迎来重大更新硬刚Sora 2 12英寸硅片国产龙头西安奕材今日申购

    给大家带来一些业界资讯: 谷歌Veo 3.1迎来重大更新硬刚Sora 2 据外媒报道,在10月16日,谷歌发布了AI视频生成模型Veo 3.1,升级音频集成与叙事控制能力;以及更逼真的
    的头像 发表于 10-16 16:00 1164次阅读

    使用OpenUSD和SimReady资产构建AI工厂

    设计。工程团队现在可以在逼真的虚拟世界中设计和测试整个 AI 工厂,帮助他们及早发现问题,从而构建更智能、更可靠的设施。
    的头像 发表于 09-06 15:23 1659次阅读
    使用OpenUSD和SimReady资产构建AI工厂

    HarmonyOSAI编程编辑区代码生成

    Accept ALL或使用快捷键Alt+Enter,接受当前生成的全部内容。或使用快捷键Shift+Ctrl+Y或点击界面中Shift+Ctrl+Y区域,分段逐一接受并保留生成内容;使用快捷键
    发表于 08-20 15:24

    AI开启更逼真的游戏时代

    ,电子游戏正在借助人工智能创造出越来越逼真的场景和交互体验。GPU不再仅仅局限于图形渲染,如今已广泛应用于多种AI任务,包括生成更真实的非玩家角色(NPC)、动态世界、个
    的头像 发表于 08-20 11:22 1486次阅读
    AI开启更<b class='flag-5'>逼真的</b>游戏时代

    NVIDIA RTX PRO 4500 Blackwell产品特性

    AI 浪潮正席卷全球,驱动着各行各业的深刻变革。面对生成式 AI 的创意爆发、实时仿真的复杂需求以及逼真渲染的品质追求,企业亟需强大的工具来拥抱这股变革力量。
    的头像 发表于 08-05 16:39 2416次阅读
    NVIDIA RTX PRO 4500 Blackwell产品特性

    利用NVIDIA 3D引导生成式AI Blueprint控制图像生成

    AI 赋能的图像生成技术突飞猛进,从早期模型会生成手指过多的人类图像,到现在能创造出令人惊叹的逼真视觉
    的头像 发表于 06-05 09:24 1010次阅读

    生成式人工智能认证:重构AI时代的人才培养与职业跃迁路径

    当人类站在生成式人工智能(Generative AI)的技术奇点上回望,会发现这场革命早已超越了工具迭代的范畴——它正在重新定义人类与技术的协作模式,重塑职业世界的运行逻辑。生成式人工智能认证的诞生
    的头像 发表于 05-23 09:29 1002次阅读

    Gemini API集成Google图像生成模型Imagen 3

    开发者现在可以通过 Gemini API 访问 Google 最先进的图像生成模型 Imagen 3。该模型最初仅对付费用户开放,不久后也将面向免费用户推出。
    的头像 发表于 05-14 16:53 1459次阅读

    技术分享 | 高逼真合成数据助力智驾“看得更准、学得更快”

    自动驾驶研发如何高效获取海量训练数据?高逼真合成数据技术正在提供新解法。通过仿真平台可生成多场景、多传感器的精准标注数据。文章详解如何构建符合nuScenes标准的数据集,覆盖复杂交通场景,为感知模型训练提供高效、可控的数据支持。
    的头像 发表于 04-29 10:47 3651次阅读
    技术分享 | 高<b class='flag-5'>逼真</b>合成数据助力智驾“看得更准、学得更快”