基于语义布局的图像合成更逼真、效果更好-电子发烧友网

编者按：去年，英特尔实验室视觉组主管Vladlen Koltun和斯坦福大学博士陈启峰发表论文Photographic Image Synthesis with Cascaded Refinement Networks，用级联优化网络生成照片。这种合成的图片是神经网络“凭空”生成的，也就是说，世界上根本找不到这样的场景。他们的算法可以看做一个渲染引擎，输入一张语义布局，告诉算法哪里有道路、哪里有车、交通灯、行人、树木，算法就能按照图中的布局输出一张逼真的图像，“好比机器想象出来的画面”。

在这篇论文中，英特尔实验室和香港中文大学的研究人员共同创造了一种半参数的图像合成方法，让基于语义布局的图像合成更逼真、效果更好。以下是论智对原论文的编译。

在古罗马作家普林尼的作品《自然史》中记述了这样一则故事：“公元前五世纪，古希腊画家宙克西斯（Zeuxis）以日常绘画和对光影的利用而闻名。他画了一个小男孩举起葡萄的作品，葡萄非常自然、逼真，竟吸引鸟儿前来啄食。然而宙克西斯并不满意，因为画上的男孩举起葡萄的动作还不够逼真，没有吓跑鸟儿。”技术高超的画家想做出以假乱真的画已经很困难了，机器可以实现这个任务吗？

用深度神经网络进行现实图像合成为模拟现实图像开辟了新方法。在现代数字艺术中，能合成非常逼真的图像的深层网络成为一种新工具。通过赋予它们一种视觉想象的形式，证明了它们在AI创造中的有用性。

最近的图像合成发展大多得益于基于参数的模型驱动，即能代表所有图像外观权重所有数据的深层网络。这与人类写实画家的做法完全不同，他们并不是依靠记忆作画，而是用外部参考当做材料来源，再现目标物体的外观细节。这也和之前图像合成的方法不同，传统的图像合成方法基于非参数技术，可以在测试时使用大规模数据集。从非参数方法转变为参数方法，研究人员发现，端到端的训练有着高度表达的模型。但它在测试时放弃了非参数技术优势。

在这篇论文中，我们提出了一种半参数的方法（semi-parametric approach），从语义布局中合成近乎真实的图像，这种方法被称作“半参数图像合成（semi-parametric image synthesis，SIMS）”。半参数合成方法结合了参数和非参数技术各自的优势，在所提出的方法中，非参数部分是指一组与照片相对的语义布局训练集中绘制的分段数据库。这些片段用于图像合成的原始材料，它们通过深度网络应用在画布上，之后，画布会输出一张图像。

Chen和Koltun的研究成果与我们的SIMS方法的成果对比。第一行是输入的语义布局

实验概览

我们的目标是基于语义布局L∈{0, 1}h×w×c合成一张逼真的图像，其中h×w是图片尺寸，c是语义类别的数量。下图是图像合成第一阶段的大致过程：

我们的模型在一对对图片和其对应的语义布局上进行训练，图片集是用于生成不同语义类别的图像片段存储库M，其中的每个片段Pi都来源于训练图像，并且属于一个语义类别。图中的a和b两部分就是一些片段。

在测试时，我们会得到在训练时从未见过的语义标签映射L，这个标签映射会分解成互相连接的组成部分{Li}，对于每个连接部分，我们都会根据形状、位置和语境，从M中检索兼容的片段，即上图b的步骤。而检索步骤与Li被一个经过训练的空间变压器网络相连接，即图上的c和d。经过转换的片段在画布上进行合成，C∈Rw×h×3，即上图中的f。由于片段无法与{Li}完美重合，也许会出现重叠的情况。最后e部分用来进行前后排序。

之后，画布C和输入的语义布局L一同被输入合成网络f中，网络生成最终的图像被输出，过程如下图所示：

这一过程补全了缺失的区域、调整检索到的片段、混合边界、合成阴影，并且基于画布和目标布局调整图像外观。具体架构和训练过程可查看原论文。

为了将我们的方法应用到较为粗略的语义布局中，我们训练了一个级联的精炼网络，用于将粗糙的布局输入转化成密集的像素级输出。

实验过程

数据集

本次实验在三个数据集上进行：Cityscapes、NYU和ADE20K。Cityscapes数据集包含的是城市道路景观照，其中有3000张带有精细标记的图像，20000张粗略标记的、用于训练的图像。我们让模型在这两种图像上分别训练，最终在含有500张图像的验证数据集上进行测试。

对于NYU数据集，我们在前1200张图像上进行训练，剩下的249张图像用于测试。而ADE20K数据集是室外图片，我们中其中1万张图像进行训练，1000张图像进行测试。

感知测试

我们将提出的方法和pix2pix以及CRN进行了对比，下图是结果，表中的每一项都显示，我们的方法（SIMS）都比由pix2pix和CRN合成的图像更真实：

语义分割准确度

接下来，我们分析了合成图像的真实性。给定一个语义布局L，我们用一种可评估的方法合成一张图像I，该图像之后会被输入到一个预训练过的语义分割网络（这里我们用PSPNet）。这个网络会生成一个语义布局Lˆ，然后我们将Lˆ和L相比较。理论上来说，二者越接近，图像的真实程度就越高。比较L和Lˆ有两种方法：intersection over union（IoU）和总体像素精度。

最终的结果如下：

我们的SIMS方法比pix2pix和CRN生成的图像更合理、更真实。

图像数据

接着，我们从低级图像数据方面分析图像的真实性。我们比较了合成图像的平均经典谱（power spectrum）以及对应的数据集中的真实图像。下图显示了三种方法合成图像的平均经典谱：

可以看出，我们的方法生成的平均经典谱与真实图像的平均经典谱非常接近，而其他两种方法则与真实图像有差别。

质量结果

从以下两张图中可以看出这三种方法的差别。

结语

我们所提出的半参数图像合成方法（SIMS）可以从语义布局中生成图像，实验证明这种方法比完全参数化的技术生成的图像更真实。但是在这之后仍有一些尚未解决的问题。首先，我们的方法在部署时比完全基于参数的方法慢很多。另外还要开发更高效的数据机构和算法。其次，其他形式的输入也应该可用，例如语义实例分割或者文本描述。第三，我们所提出的方法并不是端到端训练的。最后，我们希望这项半参数技术能应用到视频合成上。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4570

浏览量
98714
图像

图像

+关注

关注
2

文章
1063

浏览量
40037
数据集

数据集

+关注

关注
4

文章
1178

浏览量
24347

原文标题：英特尔实验室推出半参数图像合成方法，AI造图“以假乱真”

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

一种基于超像素的户外建筑图像布局标定方法

识别方法.最后,定义规则整合各项标记,实现了对图像内容的划分,提取其布局信息.实验结果表明,该方法应用于常见几种布局的户外建筑目标图像都能收到较好的

发表于 04-24 09:47

搜狗与新华社联合发布全球首个站立式AI合成主播

，新版的AI合成主播采用了“搜狗分身”领先的wavernn波形建模技术，可以实现逼真的语音合成效果，让AI的声音更具有真实情感和表现力。　　而在图像生成方面，新版的AI

发表于 02-25 09:28

3D效果逼真的元件封装库网盘下载

`3D效果逼真的元件封装库网盘下载网盘下载地址：链接: https://pan.baidu.com/s/1iprCUYmzmlH7zIvwWQfwWw 提取码: n7k4 复制这段内容后打开百度网盘手机App，操作更方便哦`

发表于 03-07 15:23

目标检测和图像语义分割领域性能评价指标

目标检测和图像语义分割领域的性能评价指标

发表于 05-13 09:57

基于语义报文的干扰效果评估系统设计

分析了干扰效果评估试验中存在的若干问题，提出了改进的试验方法，在此基础上设计了基于语义报文的干扰效果评估系统，并阐述了系统各个模块的功能，重点分析了合成模块和辅助

发表于 08-08 14:42 •0次下载

人工智能系统VON，生成最逼真3D图像

研究团队写道：“我们的关键思想是将图像生成过程分解为三个要素：形状、视角和纹理，这种分离的3D表示方式使我们能够在对抗学习框架下从3D和2D视觉数据收集中学习模型。与现有的2D生成模型相比，我们的模型合成的图像更加

发表于 12-07 09:28 •7523次阅读

当前生成图像最逼真的BigGAN被谷歌超越!造假效果更为逼真

当前生成图像最逼真的BigGAN被超越了!

发表于 03-11 15:28 •3776次阅读

语义分割算法系统介绍

图像语义分割是图像处理和是机器视觉技术中关于图像理解的重要任务。语义分割即是对图像中每一个像素点

发表于 11-05 10:34 •4723次阅读

人体图像合成制作可信和逼真的人类图像

技术和算法的开发和精进让AI换脸、AI克隆都成了可实现的事情。近日，上海科技大学团队的一项新研究，再一扩展了这一领域，其开发建立了人体图像合成——人体图像合成的目的是制作可信和

发表于 12-14 11:17 •3218次阅读

分析总结基于深度神经网络的图像语义分割方法

随着深度学习技术的快速发展及其在语义分割领域的广泛应用，语义分割效果得到显著提升。对基于深度神经网络的图像语义分割方法进行分析与总结，根据网

发表于 03-19 14:14 •21次下载

结合双目图像的深度信息跨层次特征的语义分割模型

为改善单目图像语义分割网络对图像深度变化区域的分割效果，提出一种结合双目图像的深度信息和跨层次特征进行互补应用的

发表于 03-19 14:35 •20次下载

一种具有语义区域风格约束的图像生成框架

生成对抗网络近年来发展迅速，其中语义区域分割与生成模型的结合为图像生成技术研究提供了新方向。在当前的研究中，语义信息作为指导生成的条件，可以通过编辑和控制输入的语义分割掩码来生成理想的

发表于 04-13 15:47 •5次下载

基于SEGNET模型的图像语义分割方法

使用原始 SEGNET模型对图像进行语义分割时，未对图像中相邻像素点间的关系进行考虑，导致同一目标中像素点类别预测结果不一致。通过在 SEGNET结构中加入一条自上而下的通道，使得 SEGNET包含

发表于 05-27 14:54 •15次下载

语义分割标注：从认知到实践

随着人工智能技术的不断发展，语义分割标注已经成为计算机视觉领域的一个热门话题。语义分割是指将图像中的每个像素分配给一个预定义的语义类别，以便在计算机视觉应用中进行分类和分析。标注

发表于 04-30 21:20 •767次阅读

深度学习图像语义分割指标介绍

深度学习在图像语义分割上已经取得了重大进展与明显的效果，产生了很多专注于图像语义分割的模型与基准数据集，这些基准数据集提供了一套统一的批判模

发表于 10-09 15:26 •164次阅读