0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GAN技术再到新高度 利用pytorch技术生成72种图像

DPVg_AI_era 来源:未知 作者:工程师飞燕 2018-07-30 10:39 次阅读

随着GAN的发展,单凭一张图像就能自动将面部表情生成动画已不是难事。但近期在Reddit和GitHub热议的新款GANimation,却将此技术提到新的高度。GANimation构建了一种人脸解剖结构(anatomically)上连续的面部表情合成方法,能够在连续区域中呈现图像,并能处理复杂背景和光照条件下的图像。

若是能单凭一张图像就能自动地将面部表情生成动画,那么将会为其它领域中的新应用打开大门,包括电影行业、摄影技术、时尚和电子商务等等。随着生成网络和对抗网络的流行,这项任务取得了重大进展。像StarGAN这样的结构不仅能够合成新表情,还能改变面部的其他属性,如年龄、发色或性别。虽然StarGAN具有通用性,但它只能在离散的属性中改变面部的一个特定方面,例如在面部表情合成任务中,对RaFD数据集进行训练,该数据集只有8个面部表情的二元标签(binary label),分别是悲伤、中立、愤怒、轻蔑、厌恶、惊讶、恐惧和快乐。

GANimation的目的是建立一种具有FACS表现水平的合成面部动画模型,并能在连续领域中无需获取任何人脸标志(facial landmark)而生成具有结构性(anatomically-aware)的表情。为达到这个目的,我们使用EmotioNet数据集,它包含100万张面部表情(使用其中的20万张)图像。并且构建了一个GAN体系结构,其条件是一个一维向量:表示存在/缺失以及每个动作单元的大小。我们以一种无监督的方式训练这个结构,仅需使用激活的AUs图像。为了避免在不同表情下,对同一个人的图像进行训练时出现冗余现象,将该任务分为两个阶段。首先,给定一张训练照片,考虑一个基于AU条件的双向对抗结构,并在期望的表情下呈现一张新图像。然后将合成的图像还原到原始的样子,这样可以直接与输入图像进行比较,并结合损失来评估生成图像的照片级真实感。此外,该系统还超越了最先进的技术,因为它可以在不断变化的背景和照明条件下处理图像。

最终,构建了一种结构上连续的面部表情合成方法,能够在连续区域中呈现图像,并能处理复杂背景和光照条件下的图像。它与其他已有的GAN方法相比,无论是在结果的视觉质量还是生成的可行性上,都是具有优势的。

图1:根据一张图像生成的面部动画

无监督学习+注意力机制

让我们将一个输入RGB图像定义为,这是在任意面部表情下捕获的。通过一组N个动作单元对每个手势表达式进行编码,其中每个表示0到1之间的归一化值,表示第n个动作单元的大小。值得指出的是,由于这种连续的表示,可以在不同表情之间进行自然插值,从而可以渲染各种逼真、流畅的面部表情。

我们的目标是学习一个映射,将转换成一个基于动作单元目标的输出图像,即:我们希望估计映射:

GAN技术再到新高度 利用pytorch技术生成72种图像

图2. 生成照片级真实条件图像方法的概述

所提出的架构由两个主要模块组成:用于回归注意力和color mask的生成器G; 用于评估所生成图像的真实度和表情调节实现评论家(critic) D

我们的系统不需要监督,也就是说,不需要同一个人不同表情的图像对,也不假设目标图像

生成器G

生成器器被训练来逼真地将图像

我们系统的一个关键要素是使G只聚焦于图像的那些负责合成新表情的区域,并保持图像的其余元素如头发、眼镜、帽子、珠宝等不受影响。为此,我们在生成器中嵌入了一个注意力机制。

GAN技术再到新高度 利用pytorch技术生成72种图像

图3:Attention-based的生成器

给定一个输入图像和目标表情,生成器在整个图像上回归并注意mask A和RGB颜色变换C。attention mask 定义每个像素强度,指定原始图像的每个像素在最终渲染图像中添加的范围。

具体地说,生成器器不是回归整个图像,而是输出两个mask,一个color mask C和一个attention mask A。最终图像可表示为:

实验评估

首先测试主要组件,即单个和多个AU编辑。然后将我们的模型与离散化情绪编辑任务中的当前技术进行比较,并展示我们的模型处理野外图像的能力,可以生成大量的解剖学面部变换的能力。最后讨论模型的局限性和失败案例。

值得注意的是,在某些实验中,输入的面部图像是未被裁剪的。在这种情况下,我们首先使用检测器2来对面部进行定位和裁剪,利用(1)式进行表达式的转换,以应用于相关区域。 最后,将生成的面部图像放回原图像中的原始位置。注意力机制(attention mechanism)可以确保经过变换处理的裁剪面部图像和原始图像之间的平滑过渡。

稍后图中可见,与以前的模型相比,经过这三个步骤的处理可以得到分辨率更高的图像(链接见文末)。

图4:单个动作单元的编辑

随着强度(0.33-1)的增加,一些特定的动作单元被激活。图中第一行对应的是动作单元应用强度为零的情况,可以在所有情况下正确生成了原始图片。

图5: 注意力模型

中间注意力掩模A(第一行)和颜色掩模C(第二行)的细节。 最底下一行图像是经合成后的表达结果。注意掩模A的较暗区域表示图像的这些区域与每个特定的动作单元的相关度更高。 较亮的区域保留自原始图像。

图6: 与当前最先进技术的定性比较

图为面部表情图像合成结果,分别应用DIAT、CycleGAN、IcGAN、StarGAN和我们的方法。可以看出,我们的解决方案在视觉准确度和空间分辨率之间达到了最佳平衡。 使用StarGAN的一些结果则出现了一定程度的模糊。

图7:采样面部表情分布空间

通过yg向量对活动单元进行参数化,可以从相同的源图像合成各种各样的照片的真实图像。

图8:自然图像的定性评估

上图:分别给出了取自电影《加勒比海盗》中的一幅原图像(左)及其用我们的方法生成的图像(右)。 下图:用类似的方式,使用图像框(最左绿框)从《权力的游戏》电视剧中合成了五个不同表情的新图像。

图9:成功和失败案例

图中分别表示了源图像Iyr,目标Iyg,以及颜色掩膜C和注意力掩模A. 上图是在极端情况下的一些成功案例。 下图是一些失败案例


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1728

    浏览量

    67098
  • pytorch
    +关注

    关注

    2

    文章

    756

    浏览量

    12785

原文标题:GAN如此简单的PyTorch实现,一张脸生成72种表情(附代码)

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ZIF架构有哪些优势?如何使无线电设计性能达到的新高度

    取得了性能上的突破,能够实现ZIF技术以前望尘莫及的新型应用。本文将探讨ZIF架构的诸多优势,介绍这些优势如何使无线电设计性能达到的新高度
    发表于 03-11 07:43

    图像生成对抗生成网络gan_GAN生成汽车图像 精选资料推荐

    , with PyTorch. 你好! 这是我用PyTorch制作可生成汽车图像GAN的故事。 First of all, let me
    发表于 08-31 06:48

    Maxim全新高度集成的数字脉冲发生器

    Maxim全新高度集成的数字脉冲发生器 2009年11月20日15:35:03 采用有源箝位提高超声成像质量
    发表于 11-20 15:36 405次阅读

    网友自拍教程泄露天机 “自拍神器”打造御宅族颜值新高度

    你对前置2000万加后置双摄的华为nova2系列是不是有更进一步的了解呢?华为nova2系列在刷颜值这件事上从不止步,让你的颜值宅出新高度
    发表于 07-18 16:53 1198次阅读

    5G助力MBB走向新高度

    2018年世界移动大会·上海(简称“MWC上海”)于6月27日在上海新国际博览中心(SNIEC)召开。华为公司轮值董事长徐直军应邀出席,并发表了《让5G把MBB推向新高度》的主题演讲。
    的头像 发表于 06-28 10:51 7968次阅读

    TCL推出免污式洗衣机 将免污技术推向了一个新高度

    解决的问题,在TCL 免污式洗衣机推出后,都变得十分简单。今年年初TCL X10免污式洗衣机的推出更是将免污技术推向了一个新高度,成为了洗衣机市场的宠儿。
    发表于 05-15 16:52 965次阅读

    重磅新品 | 解锁空间受限的消费和工业应用,ams微型摄像头引领摄像新高度

    重磅新品 | 解锁空间受限的消费和工业应用,ams微型摄像头引领摄像新高度
    的头像 发表于 07-03 18:25 2492次阅读

    华为手机或将凭借麒麟990达到新高度

    麒麟990将推动华为手机达到新高度
    的头像 发表于 08-26 09:15 3067次阅读

    谷歌发明的由2D图像生成3D图像技术解析

    谷歌发明的由2D图像生成3D图像技术利用3D估计神经网络图像信息的补全以及预测,融合了拍摄角
    的头像 发表于 12-24 12:55 4293次阅读
    谷歌发明的由2D<b class='flag-5'>图像</b><b class='flag-5'>生成</b>3D<b class='flag-5'>图像</b><b class='flag-5'>技术</b>解析

    音圈马达加持的vivoX70再创手机影像新高度

    一款非常适合的手机。近日, vivo X70系列正式发布,秉承对手机影像不断的人文思考和技术探索,将专业影像和旗舰性能和美学设计融会贯通,带来一款全面的影像旗舰,让手机摄影更加人性化,旗舰体验应有尽有。 据小编音圈马达获悉,作为vivo X系列影像旗舰的新高度
    发表于 09-16 15:18 817次阅读

    工业智能新高度,昂视领跑机器视觉赛道正当时

    工业智能新高度的坚实步伐!下面,让我们聚焦昂视新品,从新产品探究行业发展风向,从新技术纵览昂视未来发展布局! 有目共睹,近年来工业智能化转型加速铺开,视觉检测应用范围日益广泛,市场不断膨胀,新需求层出不穷,对软硬件的
    发表于 09-28 14:24 399次阅读
    工业智能<b class='flag-5'>新高度</b>,昂视领跑机器视觉赛道正当时

    零中频架构如何使无线电设计性能达到的新高度

    取得了性能上的突破,能够实现ZIF技术以前望尘莫及的新型应用。本文将探讨ZIF架构的诸多优势,介绍这些优势如何使无线电设计性能达到的新高度
    的头像 发表于 11-17 09:53 516次阅读

    高技传动科技登陆央视,国家平台助力打造品牌新高度

    高技传动科技登陆央视,国家平台助力打造品牌新高度
    的头像 发表于 12-30 15:33 361次阅读
    高技传动科技登陆央视,国家平台助力打造品牌<b class='flag-5'>新高度</b>

    光纤矩阵,提升视觉体验新高度

    随着科技的不断进步,视觉体验成为了人们追求的重要方向之一。讯维光纤矩阵技术作为现代科技的前沿代表,为提升视觉体验新高度提供了强有力的支持。 作为一种先进的信息传输技术,讯维光纤矩阵利用
    的头像 发表于 09-01 15:08 325次阅读
    光纤矩阵,提升视觉体验<b class='flag-5'>新高度</b>

    利用GAN技术扶持5G

    利用GAN技术扶持5G5G:确定成功表
    的头像 发表于 09-27 14:37 234次阅读
    <b class='flag-5'>利用</b><b class='flag-5'>GAN</b><b class='flag-5'>技术</b>扶持5G