以人为主体目标的图像理解与编辑任务-电子发烧友网

通过对视野内景物位置关系的描写，一幅登高远眺的秋色美景图宛在眼前。而在计算机视觉领域，这几句诗其实体现了场景内物体之间的关系，对于场景理解的重要性。

今天，来自中科院信息工程研究所的刘偲副研究员，将从生成对抗网络（GAN）讲起，讲述如何通过对场景内物体及物体之间关系的梳理，让机器“析毫剖厘”，以实现对场景的理解以及对图像的编辑。

图像理解与编辑涉及两方面的内容：首先获取图像中蕴含的丰富信息，然后按照需求对图像进行编辑。下图展示了图像理解问题的具体示例，对于某个场景，我们提取图像中的背景，如墙壁、桌椅等物体的信息，也可以解析图像中的重要元素——人，即对人的身体、服饰等部件进行分类、分割，进一步的还可对人脸进行解析，定位头发、五官等部位。图像理解与编辑具有广泛的应用场景，比如自动驾驶、娱乐产品、视频监控和增强现实等方面。

本文将主要介绍以人为主体目标的图像理解与编辑任务。首先介绍人脸编辑。在图像编辑方面，生成对抗网络(GAN)发挥着重要的作用，所以这里首先介绍一下GAN的基本原理以及当前的主要发展方向。GAN由Ian Goodfellow在2014年提出，采用了两个网络相互对抗的训练模式，已成为生成模型中里程碑式的工作。GAN包含生成网络G和判别网络D，G生成数据，D判断数据是否来自真实的数据。在训练时，G尽可能生成的数据迷惑D，而D尽可能区分出数据是否来自真实的分布，通过这种对抗式学习，模型最终能够生成非常真实的图片。这一工作也得到了Yann Lecun的高度评价，被其称为近十年来机器学习领域中最有趣的想法之一。

从2014年GAN的提出，实现了从噪声生成图片功能后，生成对抗网络的研究方向越来越多。原始的GAN只是从随机噪声生成图像，缺少对生成图片的控制，所以紧随其后就有研究者提出了Conditional Generative Adversarial Nets。其通过改变输入条件，可以控制图片的生成结果。同时，以DCGAN为代表的一系列工作探索了适用于GAN的网络结构。也有研究者为了解决模式坍塌等问题，提出了更多的网络形式进行对抗学习的研究，如GMAN。修正GAN的对抗损失函数的工作也在一直进行中，WGAN是其中非常引人瞩目的工作。此外，要拟合真实数据背后的分布度量，常常需要对D网络进行正则化， SN-GAN提出的谱归一化是其中的代表性工作，其可在IMAGENET数据库上训练成功，生成1000类的图像。最后，提高大图像的生成质量也是GAN的一个重点的研究方向。英伟达提出的PG-GAN即是这样的工作，可以生成1024x1024的高清真实图像。

总而言之，GAN由最开始的随机噪声生成图片，逐渐在众多领域得到发展。有研究者使用GAN研究半监督学习问题，也有研究者进行图像到图像的生成探索，如给定轮廓图生成正常的图片，另外还有文本到图像的生成以及域自适应任务。域自适应任务旨在提升模型对跨域数据的泛化能力，如在一个数据集上训练好图像分析的模型，通过域适应的方法，在其他不同的数据集上仍然能够表现出较强的能力。此外还有人用GAN来做对抗样本的攻防，旨在解决生成模型的正确性和安全性的问题。

基于GAN，在人脸图像编辑方面，我们课题组主要进行了智能美妆方面的研究，属于图像到图像的生成领域的探索。首先我们构建了一个较大的美妆数据库，包括东方风格和西方风格的子数据库。东方风格包括复古妆、韩妆、日妆、素颜和烟熏妆，西方风格包括彩妆、素颜和烟熏妆。如图所示，每种妆容都有明确的定义。

除数据库外，我们基于生成对抗网络对智能美妆模型做了一定的改进，这项工作目前还在进行中。具体包括两方面改进，第一基于大规模的人脸数据库辅助生成更高质量的美妆图像，目前是基于20万张的celebA人脸图像数据，选取包括是否为浓妆在内的总共三个人脸相关的属性，利用粗标注数据库完成智能美妆任务的辅助训练，从而使美妆属性的编辑更加细致。此外我们提出了新的网络结构。因为人脸编辑任务更多是人脸的微调，希望化完妆人的身份信息保持不变，我们的网络强调保持妆前妆后基本一致，更好的保持了图像的主体信息，更专注地编辑妆容条件。

观察实验结果，各种妆容的编辑结果比较真实、自然，没有明显的网格。各种妆容的特点也比较明显，如亚洲风格妆容中复古妆的腮红、韩妆渐变的咬唇妆，比较淡的日妆以及特征明显的素颜和烟熏妆，同样欧美风格的妆容也有较好的编辑效果。值得一提的是，由于素颜类别的存在，我们的方法也可以实现卸妆的功能。

针对人脸编辑的另一个应用是人脸老化。下图中间是当前给定图片，通过人脸老化算法可以生成7个不同年龄段的人脸图像，即可以变年轻如10岁以下，也可以变老如一直到60岁以上。它的应用很广泛，比如可以辅助跨年龄段的人脸识别。身份证照片常常是很多年前拍摄的，长时间没有更新导致人证对比存在一定的难度，那么此时人脸老化的就可以辅助身份证的人证识别。另外比较有用的应用是寻找丢失的儿童，比如小孩走丢了，只有他很小的照片，人脸老化可以辅助生成长大后的样子，我们希望可以通过这样的算法，能够实现跨年龄的身份识别。此外人脸老化编辑还可以应用到互动娱乐应用中。

我们提出的方法也是基于GAN的。在传统的conditional GAN的基础上，我们综合考虑了不同年龄段人脸的形状和纹理变化。具体实现细节可参考我们的相关论文。下图是我们的结果，第一列是原始图片，右边七列分别是不同年龄条件下的生成结果。可以看到年龄较小时，脸型都相对较小，皮肤也很光滑，而从30岁到60岁，胡子越来越白，同时会出现鱼尾纹或者皱纹。例如第四行输入是一个老太太，模型能够生成她比较小的样子，皮肤非常光滑，同时很像这个人。

接下来介绍整个框架第二部分，就是人的部分。人体解析定义是这样的，给定一张图，去解析人的头发、人脸、胳膊（手）等部位，以及上衣、裤子、鞋等衣着。人体解析的相关工作非常多，由于篇幅限制不再详细说明。而数据集方面主要是中山大学发表在CVPR2017上的Look into person，它应该是目前最大的人体解析数据库。

我们在人体解析方面的最新研究是有关跨域人体解析。因为比如想在多个城市建立图像分析系统，不可能在每个场景都标注很多数据，但是不同应用场景很多条件确实不一样。所以我们希望一旦建立了较好的模型，通过跨域的方法，该模型放在其他的特定场景中也可以使用。比如数据库标了很细致像素级的分类，这些库姿态多变，光照很多，数据量大。我们在实际应用的时候，比如想应用在室内餐厅，或者室外街道，这种情况下重新标注数据的代价是非常大的，而直接使用预先训好的模型效果又不是特别好。我们想研究的就是已经训练好的模型怎么使用。

跨域学习是近年来的一个研究热点，相关论文很多。比如，Ganin等人提出了一种新的基于深度网络结构的方法来做域变换，该方法促进网络学习一种深度特征：既能对主要的学习任务上得到区分，又能在不同域之间达到一致。MY Liu等人提出了一个耦合生成对抗网络(coupled generative adversarial network, CoGAN)来学习关于多个域图片的联合分布。Long等人提出的一种新的深度变换网络框架，通过MK-MMD将适应于特定任务的深度特征进行变换，而Chen等人提出了对抗姿态网络，潜在地考虑到了人物的结构。

当前已经存在的域变换方法，都是单一考虑特征变换或者简单地考虑结构性的标签变换，而我们同时考虑了特征变换和结构性的标注变换。首先一方面，每个域的特征空间是不同的。例如餐厅中的图片光照比室外中的光照要暗很多，监控图片的视角和手持相机拍摄也是不同。因此我们通过对抗特征变换最小化这种差异。然后另一方面源域和目标域中的人物都有着固有的相同点，例如人体部件的关系大概是相同的，左右胳膊、腿分布在身体的两侧等。因此我们通过对抗式结构标签变换来最大化这种共性。

最后一个任务是综合考虑到人和场景。今年ECCV的一项竞赛就是我们和奇虎360公司以及新加坡国立大学（NUS）一起举办的。比赛的主要任务还是集中于人这一目标，希望能够获取图像中最重要的元素——人的信息。

Person In Context (PIC) 2018 （http://www.picdataset.com/）将于2018年9月9日在德国慕尼黑的ECCV 2018的workshop "1st Person in Context (PIC) Workshop and Challenge" 上举办。我们从真实场景收集了约1.5万张图像，平均每张图包含4个人。这些图像包含复杂的人的姿态、丰富的拍摄视角、不同程度的遮挡和图像分辨率。每一张图片都包含了人和物体像素级别的语义分割、场景分割以及人和人/物体的关系标注。在客观世界不计其数的类别中，人是最特殊的一类。因此本竞赛在任务设定过程中，着重考量了以人为中心的关系分割 (relation segmentation)。传统的关系预测，比如Visual Genome，以及Google 的Open Image Challenge 的关系都是定义在矩形框(bounding box)上的。PIC竞赛的特别之处是，其关系是定义在分割区域(segmentation)上的。

以人为中心的关系分割包括该人的和周围物体的动作关系、位置关系等。以左图为例，人A在人B的旁边。再比如右图，人A在人C的后面。关系分割的形式是<主语，关系，宾语> 形式的三元组。值得一提的是，关系都是建立在人和物体的场景像素级别分割之上的。

以下为数据库的标注展示，可以看到该数据库涵盖了丰富的全景分割和关系分割。

上图是PIC跟现有数据库的区别。Visual Genome是知名的关系数据库。其关系是定义在bounding-box上，PIC库的关系是定义在像素级别的分割之上。这种更细粒度的标注，使得定义的关系更为精确，也更符合实际应用的要求。

我们竞赛时间安排及竞赛信息如下，同时我们还提供了众多显卡作为竞赛奖品。冠军队伍可以获得2块TitanV 显卡。

总结一下，我们的工作由小及大，包含了人脸，人以及人-物关系三个层面的内容。我们会在这些领域继续进行探索。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1063

浏览量
40041
GaN

GaN

+关注

关注
19

文章
1765

浏览量
67958

原文标题：让机器“析毫剖厘”：图像理解与编辑|VALSE2018之三

文章出处：【微信号：deeplearningclass，微信公众号：深度学习大讲堂】欢迎添加关注！文章转载请注明出处。

基于多智能主体系统的工程机械机群智能化研究

,综合现场的各种信息,为高层领导提供决策支持,并负责对高层领导的决策进行解释和任务分配。道路成型智能主体负责道路的摊铺工作,并指挥压路机组辅助摊铺工作。混合料拌和智能主体负责混合料的拌和,并指挥装载机

发表于 09-19 09:20

基于FPGA的实时移动目标的追踪

运动目标的检测算法：1）帧间差分法是采用视频序列中的相邻两帧图像做差的方法，来检测视频序列中的移动目标。但是受运动目标和背景变化的影响，检测过程中有可能出现伪

发表于 08-10 09:15

计算机视觉必读：区分目标跟踪、网络压缩、图像分类、人脸识别

深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一。本文以计算机视觉的重要概念为线索，介绍深度学习在计算机视觉任务中的应用，包括网络压缩、细粒度图像分类、看图说话、视觉问答、图像

发表于 06-08 08:00

红外图像小目标检测系统该怎么设计？

近年来，红外探测系统因其具有隐蔽性，抗干扰性，全天候工作等特点，在现代战争中具有重要的作用，而红外图像中小目标的检测将直接影响制导系统的有效作用距离及设备的复杂程度，在红外成像制导和预警系统中发挥着举足轻重的作用。

发表于 10-15 07:26

基于YOLOX目标检测算法的改进

。2、本文方法2.1、解耦 IoU 损失目标检测任务可分为目标分类和目标定位两个任务。目标分类

发表于 03-06 13:55

CW 11.1、DSC 2.7.3和MC56F83789-EVK报未安装目标的原因？

使用 CW 11.1、DSC 2.7.3 和 MC56F83789-EVK。目标 MC56F83789 未列在“调试设置”-> 目标-> 编辑-目标类型中的

发表于 03-22 07:10

红外运动弱小目标的动态规划检测

红外运动弱小目标的动态规划检测:针对动态规划方法在对红外序列图像运动弱小目标进行检测时的能量扩散问题，提出了一种新的检测方法。该方法以目标的运动特性为基础，构造

发表于 10-21 08:04 •16次下载

基于视频图像的运动目标检测与识别

运动目标检测是场景监控的核心技术，而目标的阴影在很大程度上影响了目标的形状，干扰了真实目标的检测。本文提出以混合高斯模型为基础，利用背景差分法获得目

发表于 12-22 11:44 •49次下载

基于目标检测的SAR图像匹配算法

该文提出一种基于目标检测的SAR 图像匹配算法。针对SAR 图像的特点，该算法先检测SAR 图像的强散射目标，接着计算各强散射

发表于 04-24 08:49 •23次下载

低信噪比运动红外点目标的检测

低信噪比运动红外点目标的检测为解决高空背景条件下红外低信噪比运动点目标的检测问题，本文提出了一种基于膨胀累加的检测方法.运用形态膨

发表于 10-21 18:38 •760次阅读

基于Opencv的运动目标的检测和跟踪

检测运动物体需要无运动物体的背景图像，所以，首先应用多帧像素平均值法提取了运动视频序列的背景图，从背景图像中分离目标像素，获取目标的质心坐标，并应用质心跟踪法以灰

发表于 07-16 16:05 •166次下载

像在word里一样便捷地编辑图像中的文字

近日来自印度的研究人员们近日提出了一种基于自编码模型的字符替换方法，通过字符生成、颜色调节和重置完成对图像中目标文字的修改，并且能生成十分自然的图像，图像中被

发表于 03-08 09:38 •2858次阅读

解析在目标检测中怎么解决小目标的问题？

导读本文介绍了一些小目标物体检测的方法和思路。在深度学习目标检测中，特别是人脸检测中，由于分辨率低、图像模糊、信息少、噪声多，小目标和小人脸的检测一直是一个实用和常见的难点问题。然

发表于 04-26 14:13 •5974次阅读

光场图像基线编辑方法综述

：首先对光场图像进行标定得到相机参数，并估计光场图像毎个子视点图像的视差图;然后根据基线编辑的要求对光场图像进行重定向处理，即将毎个子视点

发表于 06-03 15:42 •0次下载

图像分类任务的各种tricks

计算机视觉主要问题有图像分类、目标检测和图像分割等。针对图像分类任务，提升准确率的方法路线有两条，一个是模型的修改，另一个是各种数据处理和训

发表于 09-14 16:42 •924次阅读

搜索历史

以人为主体目标的图像理解与编辑任务

评论

基于多智能主体系统的工程机械机群智能化研究

基于FPGA的实时移动目标的追踪

计算机视觉必读：区分目标跟踪、网络压缩、图像分类、人脸识别

红外图像小目标检测系统该怎么设计？

基于YOLOX目标检测算法的改进

CW 11.1、DSC 2.7.3和MC56F83789-EVK报未安装目标的原因？

红外运动弱小目标的动态规划检测

基于视频图像的运动目标检测与识别

基于目标检测的SAR图像匹配算法

低信噪比运动红外点目标的检测

基于Opencv的运动目标的检测和跟踪

像在word里一样便捷地编辑图像中的文字

解析在目标检测中怎么解决小目标的问题？

光场图像基线编辑方法综述

图像分类任务的各种tricks