0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达面目生成器升级至2.0 计算机视觉或许可以再突破

张康康 2019-07-29 18:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,由英伟达AI团队为GAN创造了一种新的生成器,连GAN之父Goodfellow也忍不住发出称赞。从下图我们可以看到很多的清晰的人像,但这些并不是照片,而是一组完全由计算机生成的图片。


这个结构不需要人类监督,可以自动分离图像中的各种属性。这样,在或粗糙或精细的不同尺度上,人类便能自如地控制GAN的生成。

英伟达研究人员在论文中写道,他们提出的新架构可以完成自动学习,无监督地分离搞基属性以及生成图像中的随机变化,并且可以合成进行更直观且特定于比例的控制。也就是说,这种新的生成器在生成和混合图像,特别是人脸图像时,可以更好地感知图像之间有意义的变化,并且在各种尺度上针对这些变化做出引导。

研究人员使用的旧系统可能产生两个“不同”的面部,这两个面部其实大致相同,只是一个人的耳朵被抹去了,两个人的衬衫是不同的颜色,而这些并不是真正的面部特异性特征,不过系统并不知道这些是无需重点关注的变化,而当成了两个人来处理。

e033db547ce1402596bf22191c576f97


1.Generation

什么是生成(generation)?就是模型通过学习一些数据,然后生成类似的数据。让机器看一些动物图片,然后自己来产生动物的图片,这就是生成。

以前就有很多可以用来生成的技术了,比如 auto-encoder(自编码器),结构如下图:

632121f7539f43419bb660feee4f64c3


你训练一个 encoder,把 input 转换成 code,然后训练一个 decoder,把 code 转换成一个 image,然后计算得到的 image 和 input 之间的 MSE(mean square error),训练完这个 model 之后,取出后半部分 NN Decoder,输入一个随机的 code,就能 generate 一个 image。

但是 auto-encoder 生成 image 的效果,当然看着很别扭啦,一眼就能看出真假。所以后来还提出了比如VAE这样的生成模型,我对此也不是很了解,在这就不细说。

上述的这些生成模型,其实有一个非常严重的弊端。比如 VAE,它生成的 image 是希望和 input 越相似越好,但是 model 是如何来衡量这个相似呢?model 会计算一个 loss,采用的大多是 MSE,即每一个像素上的均方差。

df6d3266c90749f6a6c018df889b5ec4


第一张,我们认为是好的生成图片,第二张是差的生成图片,但是对于上述的人来说,这两张图片计算出来的 loss 是一样大的,所以会认为是一样好的图片。

这就是上述生成模型的弊端,用来衡量生成图片好坏的标准并不能很好的完成想要实现的目的。于是就有了下面要讲的 GAN。

2.GAN

GAN 是如何生成图片的呢?首先大家都知道 GAN 有两个网络,一个是 generator,一个是 discriminator,从二人零和博弈中受启发,通过两个网络互相对抗来达到最好的生成效果。流程如下:

6c03437adbfe4e138c2defd290029f21


主要流程类似上面这个图。首先,有一个一代的 generator,它能生成一些很差的图片,然后有一个一代的 discriminator,它能准确的把生成的图片,和真实的图片分类,简而言之,这个 discriminator 就是一个二分类器,对生成的图片输出 0,对真实的图片输出 1。

接着,开始训练出二代的 generator,它能生成稍好一点的图片,能够让一代的 discriminator 认为这些生成的图片是真实的图片。然后会训练出一个二代的 discriminator,它能准确的识别出真实的图片,和二代 generator 生成的图片。以此类推,会有三代,四代。。。n 代的 generator 和 discriminator,最后 discriminator 无法分辨生成的图片和真实图片,这个网络就拟合了。

3.GAN2.0到GAN3.0

使用基于风格的生成器的GAN2.0,在各个方面都优于传统的GAN。英特尔团队相信,对高阶属性与随机效应分离的研究,以及中间隐空间(intermediate latent space)的线性,将会对提高GAN合成的理解和可控性有很大的帮助。平均路径长度度量可以很容易地用作训练中的正则化器,也许线性可分度量的某些变体也可以作为一个正则化器。

除了人像,GAN 2.0还可以生成房间、汽车等各种场景。有了这样的技术,未来再也不用发愁图像数据集。毕竟这些计算机生成的“人”,已经如此的真实。总的来说,在训练期间直接塑造中间隐空间(intermediate latent space)的方法将为未来的工作提供有趣的途径。而未来,GAN3.0将会突破瓶颈,达到更令人瞩目的视觉成就。

4.结语

目前国内做计算机视觉的以旷视科技Face++、商汤科技、极链科技Video++为代表的AI头部企业为代表,以算法为核心竞争力的AI初创企业,扎根于技术,都在计算机视觉上做出了卓越的成就。计算机视觉的研究和发展具有极其重要的意义,不但满足人工智能应用的需要,如在计算机实现人工的视觉系统的需要。其次这些成果可以安装在计算机和各种机器上,使计算机和机器人能够具有“看”和创作图像的能力。视觉计算模型的研究结果反过来对于我们进一步认识和研究人类视觉系统本身的机理,甚至人脑的机理,也同样具有相当大的参考意义。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1715

    浏览量

    47713
  • 英伟达
    +关注

    关注

    23

    文章

    4115

    浏览量

    99605
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索 SN54LS181、SN54S181、SN74LS181 和 SN74S181 算术逻辑单元/函数生成器

    探索 SN54LS181、SN54S181、SN74LS181 和 SN74S181 算术逻辑单元/函数生成器 在电子工程师的日常设计工作中,选择合适的芯片是实现高效、可靠电路的关键。今天,我们就来
    的头像 发表于 04-22 16:40 148次阅读

    ICS2008B:SMPTE时间码接收器/生成器的技术解析

    ICS2008B:SMPTE时间码接收器/生成器的技术解析 在多媒体技术飞速发展的今天,时间码的精确控制对于音视频同步至关重要。ICS2008B作为一款SMPTE时间码接收器/生成器芯片,为多媒体
    的头像 发表于 04-13 18:10 360次阅读

    探索ICS9FG104E:PCIe Gen1/2、USB3.0等设备的频率生成器解决方案

    探索ICS9FG104E:PCIe Gen1/2、USB3.0等设备的频率生成器解决方案 在电子设备的设计中,频率生成器扮演着至关重要的角色,它为各种高速接口提供稳定的时钟信号,确保设备的正常运行
    的头像 发表于 03-29 17:05 904次阅读

    探索Renesas 9FGV0431:低功耗PCIe时钟生成器的卓越之选

    探索Renesas 9FGV0431:低功耗PCIe时钟生成器的卓越之选 引言 在当今的电子设计领域,PCIe技术的广泛应用对时钟生成器提出了更高的要求。Renesas的9FGV0431作为一款专为
    的头像 发表于 03-15 17:25 1101次阅读

    英伟重磅出手!AI 推理存储全面觉醒

    许可合作,将采用Groq的推理技术。   随后,Groq公司宣布已与英伟就其推理技术达成非独家许可协议。根据协议条款,Groq创始人乔纳森·罗斯(Jonathan Ross)、总裁桑
    的头像 发表于 12-26 08:44 1.2w次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>重磅出手!AI 推理存储全面觉醒

    上海计算机视觉企业行学术沙龙走进西井科技

    12月5日,由中国图象图形学学会青年工作委员会(下简称“青工委”)、上海市计算机学会计算机视觉专委会(下简称“专委会”)联合主办,上海西井科技股份有限公司、江苏路街道商会承办的“上海计算机
    的头像 发表于 12-16 15:39 732次阅读

    使用代理式AI激活传统计算机视觉系统的三种方法

    当前的计算机视觉系统擅长于识别物理空间与流程中的事件,却难以诠释场景细节及其意义,也无法推理后续可能发生的情况。
    的头像 发表于 12-01 09:44 774次阅读

    黄仁勋:英伟AI芯片订单排到2026年 英伟上季营收加速增长62%超预期

    AI芯片总龙头英伟的财报终于带来了惊喜;英伟公司发布财报数据显示,上季营收加速增长62%;超华尔街预期。业界都比较振奋,
    的头像 发表于 11-20 11:36 1452次阅读

    英伟发布 NVQLink 开放系统架构;国内首个汽车芯片标准验证平台投入使用

    计算机相连接。   英伟首席执行官黄仁勋在主题演讲中表示,该系统有望奠定混合量子-经典计算系统的技术基础,并将其比作“量子时代的罗塞塔石碑”(Rosetta Stone)。   “在
    发表于 10-29 10:33 1330次阅读

    如何通过地址生成器实现神经网络特征图的padding?

    涉及到相应地址的时候,直接输入零数据,第二种则是在对应padding地址存入零数据,正常读取数据。 两种实现方式的主要区别在于:稀疏地址生成器的控制逻辑更为复杂,但其相比于直接输入零数据的方式可以节省
    发表于 10-22 08:15

    易控智驾荣获计算机视觉顶会CVPR 2025认可

    近日,2025年国际计算机视觉与模式识别顶级会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美国田纳西州纳什维尔召开。
    的头像 发表于 07-29 16:54 1370次阅读

    自动化计算机经过加固后有什么好处?

    让我们讨论一下部署坚固的自动化计算机的一些好处。1.温度范围宽自动化计算机经过工程设计,配备了支持宽温度范围的组件,使自动化计算解决方案能够在各种不同的极端环境中运行。自动化计算机能够
    的头像 发表于 07-21 16:44 748次阅读
    自动化<b class='flag-5'>计算机</b>经过加固后有什么好处?

    自动化计算机的功能与用途

    工业自动化是指利用自动化计算机来控制工业环境中的流程、机器人和机械,以制造产品或其部件。工业自动化的目的是提高生产率、增加灵活性,并提升制造过程的质量。工业自动化在汽车制造中体现得最为明显,其中许多
    的头像 发表于 07-15 16:32 891次阅读
    自动化<b class='flag-5'>计算机</b>的功能与用途

    工业计算机与商用计算机的区别有哪些

    工业计算机是一种专为工厂和工业环境设计的计算系统,具有高可靠性和稳定性,能够应对恶劣环境下的自动化、制造和机器人操作。其特点包括无风扇散热技术、无电缆连接和防尘防水设计,使其在各种工业自动化场景中
    的头像 发表于 07-10 16:36 908次阅读
    工业<b class='flag-5'>计算机</b>与商用<b class='flag-5'>计算机</b>的区别有哪些

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    现代高性能计算不仅使得更快的计算成为可能,它正驱动着 AI 系统解锁更多领域的科学突破。 高性能计算经历了多次迭代,每一次都源于对技术的创造性再利用。例如,早期的超级
    的头像 发表于 06-26 19:39 1421次阅读
    NVIDIA驱动的现代超级<b class='flag-5'>计算机</b>如何<b class='flag-5'>突破</b>速度极限并推动科学发展