0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达推出基于风格的生成器新结构,GAN 2.0横空出世

DPVg_AI_era 来源:lq 2018-12-16 10:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

英伟达推出基于风格的生成器新结构,由此得到的升级版GAN图像生成效果逼真到可怕!将面部细节分离出来,由模型进行单独调整,从而大幅度超越其他模型,GAN 2.0横空出世?

GAN 2.0来了?!

我们知道GAN能够生成逼真的图片,但没有想到字面意义上的“逼真”会如此快到来。

下面是一组完全由计算机生成的图片,重复一遍:全部是计算机生成的图片!

这组效果惊艳到可怕的成果,出自英伟达的研究人员最近提出的一种新的生成器架构,基于风格迁移,将面部细节分离出来,由模型进行单独调整,从而大幅度超越传统GAN等模型,生成的面部图像结果简直逼真到可怕,可以说是GAN 2.0。

这种生成器架构提取的图像风格,不是笔划或颜色空间,而是图像的组成(居中,向左或向右看等)和脸部的物理特征(肤色,雀斑,头发)。

该研究的论文已经发表在Arxiv上:

https://arxiv.org/pdf/1812.04948.pdf

连Ian Goodfellow也服气!

图像逼真到可怕,能生成世界万物

有CV研究人员看过上图效果以后表示,机器学习模型非常擅长生成逼真的人脸,但这个新架构生成的人脸图像已经真实到让我再也不敢相信机器。

英伟达研究人员在论文中写道,他们提出的新架构可以完成自动学习,无监督地分离高级属性(例如在人脸上训练时的姿势和身份)以及生成图像中的随机变化,并且可以对合成进行更直观且特定于比例的控制。

换句话说,这种新的GAN在生成和混合图像,特别是人脸图像时,可以更好地感知图像之间有意义的变化,并且在各种尺度上针对这些变化做出引导。

例如,研究人员使用的旧系统可能产生两个“不同”的面部,这两个面部其实大致相同,只是一个人的耳朵被抹去了,两人的衬衫是不同的颜色。而这些并不是真正的面部特异性特征,不过系统并不知道这些是无需重点关注的变化,而当成了两个人来处理。

在上面的动图中,其实面部已经完全变了,但“源”和“样式”的明显标记显然都得到了保留,例如最底下一排图片的蓝色衬衫。为什么会这样?请注意,所有这些都是完全可变的,这里说的变量不仅仅是A + B = C,而且A和B的所有方面都可以存在/不存在,具体取决于设置的调整方式。

下面这些由计算机生成的图像都不是真人。但如果我告诉你这些图像是真人的照片,你可能也不会怀疑:

这个模型并不完美,但确实有效,而且不仅仅可用于人类,还能用于汽车、猫、风景图像的生成。

所有这些类型的图像都或多或少可以单独隔离出来,再现小型、中型和大型特征的相同范例。

基于风格的生成器架构:生成图像效果质的飞跃

英伟达研究人员介绍,新的生成器在传统的分布质量指标方面改进了最先进的技术,使得插值特性明显变好,并且更好地解决了变量隐因子问题。

传统生成器架构和基于风格的生成器架构对比

传统方式中,隐码(latent code)是通过输入层提供给生成器的,即前馈网络的第一层(图1a)。而英伟达团队完全省略了输入层,从一个学习的常量(learned constant)开始,从而脱离了传统的设计(图1b,右)。在输入隐空间Z中,给定一个隐码z,一个非线性网络 f:Z→W首先生成w∈W(图1b,左)。

英伟达团队的发生器架构可以通过对样式进行特定尺度的修改来控制图像合成。可以将映射网络和仿射变换看作是一种从学习分布(learned distribution)中为每种样式绘制样本的方法,而将合成网络看作是一种基于样式集合生成新图像的方法。修改样式的特定子集可能只会影响图像的某些方面。

样式混合

英伟达团队采用混合正则化,其中给定比例的图像是使用两个随机隐码生成的,而不是一个在训练期间生成给定百分比的图像。

在生成这样的图像时,只需在合成网络中随机选择的一个点上,从一个隐码切换到另一个——称之为样式混合的操作。

表2显示了在训练过程中启用混合正则化是如何产生显著改进的,在测试时混合了多个延迟的场景中,改进的FID表明了这一点。

表2

图3给出了在不同尺度上混合两个潜码合成图像的例子。可以看到,样式的每个子集控制图像的高级属性。

图3

随机变化

人类肖像中有许多方面可以被视为随机的,例如毛发,雀斑或皮肤毛孔的确切位置。只要它们遵循正确的分布,任何这些属性都可以随机化而不影响对图像的感知。

图4显示了相同底层图像的随机实现,这些图像是使用具有不同噪声实现的生成器生成的。

图4

可以看到,噪声只影响随机属性,使整体组成和身份等高级属性保持不变。

图5进一步说明了将随机变化应用于不同子层的效果。

图5

整体效应与随机性的分离

在基于样式的生成器中,样式会影响整个图像,因为完整的特征图像会被缩放并带有相同的值。

因此,可以相干地控制姿态、灯光或背景风格等全局效果。同时,噪声被独立地添加到每个像素上,因此非常适合于控制随机变化。

如果网络试图控制例如使用噪声的摆姿,这将导致空间不一致的决定,然后将受到鉴别器的“惩罚”。因此,网络学会了在没有明确指导的情况下,适当地使用全局和本地通道(channel)。

两种自动化方法,任何生成器都能升级

为了量化插值质量和分离,英伟达提出了两种新的自动化方法,适用于任何生成器体系架构。

研究人员还发布了一个新的面部图像数据集:数据收集自Flickr上的7万张面部图像,数据已经对齐和裁剪。研究人员使用亚马逊Mechanical Turk来清除雕像、绘画和其他异常图像。

鉴于目前此类项目所使用的标准数据集主要是名人走红毯的照片,本数据集应该能够提供变化更丰富的面部图像组合。

这些数据集不久后即将开放下载。

GAN 2.0已经如此,GAN 3.0将会如何?

使用基于风格的生成器的GAN,在各个方面都优于传统的GAN,可以说是 GAN 2.0。

英伟达团队相信,对高阶属性与随机效应分离的研究,以及中间隐空间(intermediate latent space)的线性,将会对提高GAN合成的理解和可控性有很大的帮助。

可以注意到,平均路径长度度量可以很容易地用作训练中的正则化器,也许线性可分度量的某些变体也可以作为一个正则化器。

除了人像,GAN 2.0还可以生成房间、汽车等各种场景。有了这个利器,以后何愁图像数据集?

看着这些计算机生成的“人”,是如此的真实但又虚拟。爱上一个不存在的人,似乎完全合情合理。

总的来说,在训练期间直接塑造中间隐空间(intermediate latent space)的方法将为未来的工作提供有趣的途径。

所以,期待一下全新的判别器架构,届时得到的GAN 3.0,会如何冲击我们的视觉和认知呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GaN
    GaN
    +关注

    关注

    21

    文章

    2392

    浏览量

    84947
  • 英伟达
    +关注

    关注

    23

    文章

    4129

    浏览量

    99785

原文标题:GAN 2.0!英伟达“风格迁移”面部生成器,世间万物逼真呈现

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索 SN54LS181、SN54S181、SN74LS181 和 SN74S181 算术逻辑单元/函数生成器

    探索 SN54LS181、SN54S181、SN74LS181 和 SN74S181 算术逻辑单元/函数生成器 在电子工程师的日常设计工作中,选择合适的芯片是实现高效、可靠电路的关键。今天,我们就来
    的头像 发表于 04-22 16:40 442次阅读

    ICS2008B:SMPTE时间码接收器/生成器的技术解析

    ICS2008B:SMPTE时间码接收器/生成器的技术解析 在多媒体技术飞速发展的今天,时间码的精确控制对于音视频同步至关重要。ICS2008B作为一款SMPTE时间码接收器/生成器芯片,为多媒体
    的头像 发表于 04-13 18:10 465次阅读

    探索ICS9FG104E:PCIe Gen1/2、USB3.0等设备的频率生成器解决方案

    探索ICS9FG104E:PCIe Gen1/2、USB3.0等设备的频率生成器解决方案 在电子设备的设计中,频率生成器扮演着至关重要的角色,它为各种高速接口提供稳定的时钟信号,确保设备的正常运行
    的头像 发表于 03-29 17:05 986次阅读

    2026年第一季度恩智浦新品大盘点

    新年伊始,马力全开!2026年开年,恩智浦推“芯”势头强劲,既有新锐产品的横空出世,也有成熟平台的稳步扩展,覆盖从机器人到软件定义汽车等前沿领域,助力开发者解锁智能边缘的无限可能!
    的头像 发表于 03-28 10:16 1432次阅读

    SBC案例生成器对VisionFive2的支持

    最近收到了我的 VisionFive2,并且是 SBC 模型框架和 SBC 案例生成器的开发人员,我为那些对标准和自定义案例感兴趣的人在这两个应用程序中添加了对 VisionFive2 SBC
    发表于 03-18 08:21

    探索Renesas 9FGV0431:低功耗PCIe时钟生成器的卓越之选

    探索Renesas 9FGV0431:低功耗PCIe时钟生成器的卓越之选 引言 在当今的电子设计领域,PCIe技术的广泛应用对时钟生成器提出了更高的要求。Renesas的9FGV0431作为一款专为
    的头像 发表于 03-15 17:25 1275次阅读

    苹果联姻博通,"Baltra"横空出世英伟霸主地位将变?

    通展开战略合作。   美国金融数据分析平台unusual whales在社交平台X上指出,苹果公司此举有意摆脱英伟的高额利润。这一动作标志着苹果正试图通过垂直整合构建自主可控的AI算力生态,未来或将对AI芯片生态带来深远影响。       联手博通研发“
    的头像 发表于 12-20 07:43 1.1w次阅读
    苹果联姻博通,&quot;Baltra&quot;<b class='flag-5'>横空出世</b>!<b class='flag-5'>英伟</b><b class='flag-5'>达</b>霸主地位将变?

    把CW32L010用FLASH模拟EEPROM

    CW32L010横空出世,定时器和ADC变化很大,FLASH基本和以前型号一样,但有一点改动,BUSY位从CR1寄存器改到ISR寄存器了。 把F003的程序改改就能用,太棒了,拿走不谢。 只有一个
    发表于 11-24 07:40

    冶金车间“迷雾”重重?耐讯自动化Profibus转光纤为HMI点亮“透视眼”!

    “隔山打牛”。难道智能控制只能被铜缆的“物理枷锁”拖累?答案当然是否定的!耐讯自动化Profibus转光纤技术横空出世,为HMI装上“透视眼”,让操作指令穿透车间“迷雾”,直达设备核心! 二、直击冶金痛点:破除“通信迷雾”,点亮透明生
    的头像 发表于 11-10 14:49 1303次阅读
    冶金车间“迷雾”重重?耐<b class='flag-5'>达</b>讯自动化Profibus转光纤为HMI点亮“透视眼”!

    NVIDIA新闻:英伟10亿美元入股诺基亚 英伟推出全新量子设备

    研发并推出相关产品。 英伟CEO黄仁勋出现在美国华盛顿的GTC DC大会上的演讲中表示;“今天我们宣布与诺基亚建立了合作关系,诺基亚是世界第二大电信制造商,这是一个价值3万亿美元的产业。”黄仁勋说,全世界有数百万个基站,双方合
    的头像 发表于 10-29 17:12 2579次阅读

    如何通过地址生成器实现神经网络特征图的padding?

    一些内存(BRAM),但是考虑到我们设计的网络为五层卷积池化结构,特征图BRAM在每层卷积结束之后都进行存储的复用,因此其大小取决于最大特征图大小,因此使用稀疏地址生成器并不能大量减少存储资源消耗
    发表于 10-22 08:15

    工程师怒赞:耐讯网关让Modbus设备‘挤进’Profinet圈,触摸屏效率翻倍!\"

    Profinet网关横空出世,这场“协议战争”终于有了终结者! 某光伏厂的工程师曾被一个问题折磨到抓狂:Modbus电流传感器的数据像“加密文件”,无法被Profinet PLC直接读取,导致产能分析
    发表于 07-29 15:02

    东芝24TB超大容量CMR硬盘评测

    大模型的横空出世不仅改变了计算行业,也深刻影响了存储行业。
    的头像 发表于 07-10 09:46 2929次阅读
    东芝24TB超大容量CMR硬盘评测

    华为Pura80 Ultra“一镜双目长焦”横空出世,手机影像格局要变天?

    的影像升级,Pura80 Ultra以1英寸超高动态主摄、一镜双目长焦、AI辅助构图等突破性创新,重新定义了“影像旗舰”的新内涵。 图:华为余承东展示Pura80 Ultra新机 “2024年4月推出的Pura70系列,上市一年来获得了千万用户的喜爱。今年3月份,华为推出
    的头像 发表于 06-12 09:12 1.2w次阅读
    华为Pura80 Ultra“一镜双目长焦”<b class='flag-5'>横空出世</b>,手机影像格局要变天?