东京大学团队开源了一款名为「neural collage」的图像编辑工具-电子发烧友网

教新手画画？字体风格迁移？换明星“假脸”？毫无疑问，在图像生成中 GAN 以其生成以假乱真的图像“发挥”出了巨大的潜力。

日前，来自日本东京大学和 Preferred Networks 公司的团队开源了一款名为「neural collage」的图像编辑工具，允许用户在图像的制定位置更改图像的语义信息，以达到图像拼贴的效果。

例如，将一只面露凶光的哈士奇的图片换脸成为可爱的博美。

而更值得一提的是，整个过程的中间操作非常简单。

如何使用和安装？

首先保证 Python 3.6 以上的语言环境，并安装所需的 Python 库：pip install -r requirements.txt

如果想要使用预训练模型生成图像，项目作者该提供了链接以下载模型。需要注意的是，将 snapshot 参数设置为下载的预训练模型文件（.npz）的路径。

相关链接：

https://drive.google.com/drive/u/0/folders/1SFmq9LjEkIXXAKo6p-Wdlfu0BUFSyLJi

https://drive.google.com/drive/folders/1qPP2RxMNnPSbacotnG7_H5dZrQpOmI3D

作者表示，基于 GAN 模型采用了两种新策略：sCBN 和特征混合，并在“Spatially Controllable Image Synthesis with Internal Representation Collaging”论文中详述了该方法原理及实现效果。

链接：

https://arxiv.org/abs/1811.10153

以下为论文解读：

摘要

本文提出了一种基于卷积神经网络（CNN）模型的图像编辑策略，这种新颖的方法通过对 GAN模型生成的图像进行特征空间表征，从而改变图像任意区域的语义信息。

该策略能够与任何带条件正则化层 (conditional normalization layers) 的 GAN模型相结合，用于图像对人工图像和真实图像的编辑任务，它有如下两种变体：

(1) sCBN (spatial conditional batch normalization)，这是一种基于用户指定空间权重映射的条件批正则化方法；

(2) 特征混合（feature-blending)，即一种直接修改中间特征图的方法。此外，通过在不同数据集上、与不同 GAN 模型结合实验，进一步验证了本文所提出方法的有效性及强大性能。

简介

深度生成模型，如生成对抗网络（GANs）和变分自编码器（VAE）是很有潜力的无监督学习技术，具有强大的语义信息表征能力。

其中以 GAN 在图像任务方面尤为成功，如图像着色、图像修复、领域转换、风格迁移、目标形变等应用。

随着稳定 GAN 模型训练的方法的相继提出，这类模型在图像生成方面也得到广泛的应用。

然而，如何根据用户的意愿正则化 GAN 模型，得到想要的输出，这仍是当前相关领域的一大问题。

先前的研究，诸如条件生成对抗网络（CGAN）、InfoGAN、风格生成对抗网络（StyleGAN）等都在探索如何让生成对抗网络有指向性地生成所需要的图像。

而最近提出的 GAN dissection 研究深入探索了模型输出与中间特征语义信息之间的关系，并通过推理关系 (relation) 成功实现逼真图像的生成。

受此启发，本文提出一种新颖的图像变换方法，即 sCBN 和特征混合策略，通过处理生成网络图像的中间特征来编辑图像，并允许用户对图像语义信息进行复制、粘贴等编辑操作。

其中， sCBN 基于用户所指定的混合系数 (标签拼贴（label collaging）) 的空间映射图，允许用户融合多标签的语义信息。

如此，不仅可以从一个标签映射图中生成图像，还能够通过局部的图像语义改变图像。

如下图1a，该方法能够将一只哈士奇的眼睛变为博美犬的眼睛。

特征混合能够在中间特征空间直接融合多张图像，还能将复杂特征进行局部混合；图 1b 中，通过特征混合将一只动物的姿态变为模型所定义的姿势。

图1 通过 sCBN 方法 (a) 和特征混合方法 (b) 得到的特征拼贴样本。

总的来说，该方法的一大优势在于只需要训练 Ad aIN 或 CBN 结构的 GAN 模型就能实现，无需额外训练其他模型。

它能够用于 GAN 模型所生成的任意图像，适用于广泛的图像语义操作。此外，通过与流形投射 (Manifold projection) 结合，该方法能够对真实图像的局部语义信息进行编辑处理，并大量实验中展现了强大的性能。

方法

sCBN

sCBN 是一种特殊形式的条件批正则化方法 (CBN)，作为批正则化方法 (BN) 的变体，它能够对 BN 中的参数按类语义信息进行编码。对于图像的局部类标签，它通过空间变换来改变条件批正则化参数，如下图2所示。

图2 CBN 方法和 sCBN 方法中层结构对比图。左边是 CBN 方法，它通过空间一致长度，逐层向生成的图像添加类别特征。

右图是 sCBN 方法，该方法的每一层将用户指定的混合密度与类特征混合到生成的图像中。

基于单一类别的图像样本，CBN 方法通过特定类的放缩比例 (class-specific scale) 和偏差参数 (bias parameters) 来正则化中间特征集合。

而 sCBN 则是将 CBN 方法中的放缩比例项替换为一种加权和的形式，该权重系数是由混合系数的非负张量映射组成，这是由用户所决定的。

如此，用户可以通过所选取的权重系数来决定某个类别 c 在任意区域的特征密度，达到控制生成输出的目的。

此外，通过所选用的权重值控制图像不同区域不同类别的特征密度，用户可以将图像多个不相交部分进行分类。

空间特征混合

空间特征混合 (spatial feature blending)是一种可以提取图像特定区域特征并将其与其他特征混合的方法。

与 sCBN 方法中的权重系数类似，用户同样可以通过选择特征混合参数 M 来控制所混合的效果。

此外，通过流形投射变换，该方法还能用于真实图像的编辑处理，如下图3所示，通过特征混合处理，将图像 G(z2) 和 G(z1) 的嘴巴特征混合。用户只需要通过选择选择嘴巴特定区域的混合系数 M，就能够实现这种效果。

图3 空间特征混合方法，通过不断地迭代过程，在生成网络的特征空间，将不同隐变量生成的图像混合到目标图像中去。

真实图像应用

通过寻找一个流形投射方法，使得隐变量 z 满足 G(z) 与 x 大致相等，实现真实图像的语义信息进行编辑。

在获得 x 的倒数后，可以通过应用相同的流程来更改 x 的部分标签信息或将其他图像特征混合到 x 中。

实际的图像编辑流程如下图4所示，在图像变换的最后一步，这里采用一个泊松混合（Poisson blending）的后处理步骤。

这主要是因为 GAN 模型没有解耦图像背景信息的能力，而通过泊松混合操作能够去除感兴趣区域的一些伪像。

图4 将特征空间拼贴算法应用于真实图像的流程：用户需要指定混合映射图，选择特征空间拼贴方法，并在后处理时将掩码用于泊松混合过程。

下图5展示的是不同类别条件的图像重构例子。

图5 通过流形投射对多种类别标签进行图像重构的例子。其中红色帧图像是通过原始类别标签进行重构的图像。

下图6展示两种方法在真实图像上的应用例子。左侧是 sCBN 方法在真实图像上的结果，而右图是特征混合方法所得到的结果。

图6 sCBN 和特征混合方法在图像上的应用。

实验

结果分析

这里，将所提出的方法与 DCGAN 模型相结合，并在多个不同图像数据集来验证方法的有效性。

此外，为了验证流形投射和 DCGAN 模型的表征能力，这里还进行一系列的非空间变换的消融实验 (ablation experiments)。

下图7展示的是使用 sCBN 方法所得到的标签拼贴示例。可以看到，该方法能够调整图像的全局信息 (如面部、形状) 和局部信息 (如颜色、纹理)，而不会破坏图像的语义一致性。

图7 sCBN 方法的标签拼贴结果。其中，红线包围的区域被翻译为目标标签。

图8显示的是使用特征混合所得到的标签拼贴结果。可以看到，该方法成功地修改了图像的语义分割，而不会破坏原始图像的质量。

这种方法对于转换区域的语义排列信息有很强的鲁棒性。

图8 特征混合方法的标签拼贴结果。其中，红色帧区域内的特征被混合到基础图像中。

每层的拼贴效果

通过一系列的消融研究来探究模型中每层修改的影响。下图9是 sCBN 方法分别应用于 (1) 所有层，(2) 最靠近输入层，(3) 除了第一层的所有层，所得到的结果。

可以看到，越靠近 z 层，该方法对于全局特征的影响越明显；而越靠近 x 层，sCBN 方法对就局部特征的影响越显著。

图9 在不同层的拼贴效果。从上到下分别是 sCBN 方法作用于不同层所得到的结果。

同样，下图10展示的特征混合方法，则是以不同的混合权重，应用于不同层 (l=1,2,3,4) 所得到的结果。

可以看到，当用于第一层时，全局特征将受到影响，而局部特征将会被保留。而当该方法应用于靠近 x 层时，所得到的结果则相反。

因此，用户可以根据需要，更精细地选取混合权重系数来控制局部特征转换及其密度。

图10 特征混合方法作用于不同层所得到的结果

真实图像的转换

为了通过分类精度和人类感知测试来定量评估方法在真实图像转换方面的表现，将 sCBN 方法应用于 ImageNet 数据集中的图像，并进行 (1) cat→big cat，(2) cat→dog 以及 (3) dog→dog 的变换。

随后，以 UNIT 和 MUNIT 为基准，将本文所提出的方法与其进行对比分析，结果如下图11。

可以看到，在 top-5 错误率方面，该方法的表现更优于其他两种基准，这也验证了它在真实图像变换方面的有效性。

图11 top-5 分类错误率结果

结论

本文提出一种新颖有效的图像编辑策略，通过 sCBN 和特征混合方法，对图像中间特征表征进行处理，从而达到修改语义信息、编辑图像的目的。

其中条件正则化方法不仅能够处理类别条件，还能处理其他的信息，在未来的研究中可以将该方法应用于更广泛的非图像数据集。

然而，在研究中仍发现一些不足之处：表达能力受限的生成网络，尤其是在与流形投射结合用于处理真实图像变换，未来的研究中相关问题仍值得深入探究。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1063

浏览量
40037
GaN

GaN

+关注

关注
19

文章
1762

浏览量
67913
python

python

+关注

关注
51

文章
4674

浏览量
83459

原文标题：恶犬秒变萌汪：东京大学开源“治愈系” GAN 图片拼贴工具 | 技术头条

文章出处：【微信号：mcuworld，微信公众号：嵌入式资讯精选】欢迎添加关注！文章转载请注明出处。

编辑图象如此简单，只需一步！

编辑图象如此简单，只需一步！咔咔艺术大师”是一款图像编辑软件，可以对图像进行旋转、裁剪、调色、透明度、特效等多个方面进行设置，且操作简单，容

发表于 06-11 18:07

一款完全开源的小四轴

RoboFly是小马哥团队在2018年8月推出的一款完全开源的小四轴。这款四轴面向的人群是电子相关专业（包括自动化、电气自动化、电子信息工程、计算机、测控等专业）的大学生，通过

发表于 09-13 08:40

祝贺 | 鹏城实验室开源 EDA 团队勇夺 ICCAD 竞赛第一名

的 iEDA 3Dplacer 团队获得了该项赛事三大赛道之一的第一名。本届 CAD Contest@ICCAD 算法竞赛共有来自国内外知名高校与研究机构的166 支队伍参与，如东京大学

发表于 12-13 18:29

日本东京大学研发出了智能皮肤，可实时显示健康数据

日本东京大学研发出了智能皮肤（smart skin），可以直接贴在皮肤上，实时显示健康数据。

发表于 05-01 14:23 •1722次阅读

IBM和东京大学合作共同推进量子计算应用

据helpnetsecurity报道，IBM和东京大学宣布达成一项合作协议，共同推进量子计算，使其为工业、科学和社会发展作出贡献。

发表于 12-23 16:30 •3571次阅读

东京大学AI新创推出一款学习型的搬运机器人

由日本东京大学(University of Tokyo)设立的人工智能(AI)新创企业，Trust Smith，在开发无人机(UAV)的自动控制与影像检测、工业设备自动监测、与行人自动计测系统后，又对外宣布新的产品。

发表于 01-09 16:43 •2719次阅读

东京大学研究员通过新TFEP电解液来提高锂电安全性

东京大学研究人员首次探索了电能存储的物理和化学特性，并发现了改进锂离子电池的新方法。

发表于 03-31 15:06 •2534次阅读

东京大学研究出一种人工智能技术,快速筛查癌变

据《日本经济新闻》1月18日报道，日本东京大学的研究团队开发出一种人工智能技术，能根据胶囊内窥镜拍摄的图像，迅速找到结肠癌或息肉等病变，其分辨准确率达到96%。

发表于 01-20 09:22 •1349次阅读

看东京大学教授如何用蓝牙技术来监测房间使用情况

复工复学。我最近有幸采访了东京大学教授——Yoshihiro Kawahara（川原圭博）博士。他负责开发了一种智能手机接触者追踪解决方案——MOCHA。在新冠疫情迫使许多其他大学关闭时，这款名为MOCHA的应用程序却让

发表于 05-24 11:08 •1531次阅读

Neural Photo Editor生成网络感知图像编辑器

./oschina_soft/Neural-Photo-Editor.zip

发表于 05-31 14:25 •0次下载

日本东京大学：研制纳米级量子传感器实现高清成像

传感新品【日本东京大学：研制纳米级量子传感器实现高清成像】科技日报北京6月15日电 (记者张佳欣)日本东京大学科学家利用六方氮化硼二维层中的硼空位，首次完成了在纳米级排列量子传感器的精细任务

发表于 06-19 10:02 •509次阅读

AI图像编辑技术DragGAN开源，拖动鼠标即可改变人物笑容

DragGAN是一个直观的图像编辑工具PM系统(www.multiable.com.cn)，用户只需要控制图像中的像素点和方向，就可以快速调整照片主体的位置、姿态、表情、大小和角度等。

发表于 06-29 10:34 •619次阅读

伯克利AI实验室开源图像编辑模型InstructPix2Pix，简化生成图像编辑并提供一致结果

之前的 AI 图像编辑能力通常是进行风格转换，流行的文本到图像生成模型（如 DALL-E 和 Stable Diffusion）也支持图像到图像风格转换操作。然而，使用这些模型进行有针

发表于 08-28 15:45 •474次阅读

搜索历史

东京大学团队开源了一款名为「neural collage」的图像编辑工具

评论

编辑图象如此简单，只需一步！

东京大学——C进阶教程

日本东京大学的两篇关于无线充电的文章，需要的拿去，...

一款完全开源的小四轴

祝贺 | 鹏城实验室开源 EDA 团队勇夺 ICCAD 竞赛第一名

日本东京大学研发出了智能皮肤，可实时显示健康数据

IBM和东京大学合作共同推进量子计算应用

东京大学AI新创推出一款学习型的搬运机器人

东京大学研究员通过新TFEP电解液来提高锂电安全性

东京大学研究出一种人工智能技术,快速筛查癌变

看东京大学教授如何用蓝牙技术来监测房间使用情况

Neural Photo Editor生成网络感知图像编辑器

日本东京大学：研制纳米级量子传感器实现高清成像

AI图像编辑技术DragGAN开源，拖动鼠标即可改变人物笑容

伯克利AI实验室开源图像编辑模型InstructPix2Pix，简化生成图像编辑并提供一致结果