深入研究文献中关于图像修复的第一个生成模型-电子发烧友网

导读

本文给出了图像恢复的一般性框架，编解码器 + GAN，后面的图像复原基本都是这个框架。

本文会介绍图像修复的目的，它的应用，等等。然后，我们将深入研究文献中关于图像修复的第一个生成模型(即第一个基于GAN的修复算法，上下文编码器)。

目标

很简单的！我们想要填补图像中缺失的部分。如图1所示。

图1，中心缺失的图像（左），复原后的图像（右）。

应用

移除图像中不需要的部分(即目标移除)

修复损坏的图像(可以扩展到修复电影)

很多其他应用！

术语

给出一个有一些缺失区域的图像，我们定义

缺失像素/生成像素/空洞像素：待填充区域的像素。

有效像素/ground truth像素：和缺失像素含义相反。需要保留这些像素，这些像素可以帮助我们填补缺失的区域。

传统方法

给出一个有一些缺失区域的图像，最典型的传统方法填充缺失区域是复制粘贴。

主要思想是从图像本身或一个包含数百万张图像的大数据集中寻找最相似的图像补丁，然后将它们粘贴到缺失的区域。

然而，搜索算法可能是耗时的，它涉及到手工设计距离的度量方法。在通用化和效率方面仍有改进的空间。

数据驱动的基于深度学习的方法

由于卷积神经网络(Convolutional Neural Networks, CNNs)在图像处理方面的成功，很多人开始将CNNs应用到自己的任务中。基于数据驱动的深度学习方法的强大之处在于，如果我们有足够的训练数据，我们就可以解决我们的问题。

如上所述，图像修复就是将图像中缺失的部分补上。这意味着我们想要生成一些不存在或没有答案的东西。因此，所有基于深度学习的修复算法都使用生成对抗网络(GANs)来产生视觉上吸引人的结果。为什么视觉上吸引人呢？由于没有模型来回答生成的问题，人们更喜欢有良好视觉质量的结果，这是相当主观的！

对于那些可能不知道GANs的读者，我推荐你先去了解一下。这里以图像修复为例，简单地说，典型的GAN由一个生成器和一个鉴别器组成。生成器负责填补图像中缺失的部分，鉴别器负责区分已填充图像和真实图像。请注意，真实的图像是处于良好状态的图像(即没有缺失的部分)。我们将随机地将填充的图像或真实的图像输入识别器来欺骗它。最终，如果鉴别器不能判断图像是被生成器填充的还是真实的图像，生成器就能以良好的视觉质量填充缺失的部分!

第一个基于GAN的修复方法：上下文编码器

在对image inpainting做了简单的介绍之后，我希望你至少知道什么是image inpainting, GANs(一种生成模型)是inpainting领域常用的一种。现在，我们将深入研究本系列的第一篇论文。

Intention

作者想训练一个CNN来预测图像中缺失的像素。众所周知，典型的CNNs(例如LeNet手写数字识别和AlexNet图像分类)包含许多的卷积层来提取特征，从简单的结构特征到高级的语义特征(即早期层简单的特征，比如边缘，角点，到后面的层的更复杂的特征模式)。对于更复杂的功能模式，作者想利用学到的高层语义特征(也称为隐藏特征)来帮助填充缺失的区域。

此外，为修复而学习的特征需要对图像进行更深层次的语义理解。因此，学习到的特征对于其他任务也很有用，比如分类、检测和语义分割。

背景

在此，我想为读者提供一些背景信息，

Autoencoders：这是一种通常用于重建任务的CNN结构。由于其形状，也有人称之为沙漏结构模型。对于这个结构，输出大小与输入大小相同，我们实际上有两个部分，一个是编码器，另一个是解码器，如下图2所示。编码器部分用于特征编码，针对输入得到紧凑潜在的特征表示，而解码器部分则对潜在特征表示进行解码。我们通常把中间层称为低维的“瓶颈”层，或者简单地称之为“瓶颈”，因此整个结构看起来就像一个沙漏。让我们想象一下，我们将一幅完好无损的图像输入到这个自动编码器中。在这种情况下，我们期望输出应该与输入完全相同。这意味着一个完美的重建。如果可能的话，“瓶颈”是输入的一个完美的紧凑潜在特征表示。更具体地说，我们可以使用更少的数字来表示输入(即更有效，它与降维技术有关)。因此，这个“瓶颈”包含了几乎所有的输入信息(可能包括高级语义特征)，我们可以使用它来重构输入。

图2，自编码器的结构图解

上下文编码器进行图像生成

图3，提出的上下文编码器

图3显示了提出的上下文编码器的概要。首先，输入的是mask图像(即有中心缺失的图像)。输入编码器以获得编码后的特征。然后，本文的主要贡献是在编码特征和解码特征之间放置通道全连接层，以获得更好的语义特征(即“瓶颈”)。最后，解码器利用“瓶颈”特征重建缺失的部分。让我们来看看他们的网络内部。

图4，提出的网络的结构细节

编码器

编码器使用AlexNet结构，他们用随机初始化权值从头开始训练他们的网络。

与原始的AlexNet架构和图2所示的自动编码器相比，主要的区别是中间的通道全连接层。如果网络中只有卷积层，则无法利用特征图上距离很远的空间位置的特征。为了解决这个问题，我们可以使用全连接层，即当前层的每个神经元的值依赖于上一层的所有神经元的值。然而，全连接层会引入许多参数，8192x8192=67.1M，这甚至在GPU上也很难训练，作者提出了通道全连接层来解决这个问题。

通道全连接层

实际上，通道全连接层非常简单。我们只是完全独立地连接每个通道而不是所有的通道。例如，我们有m个大小为nxn的特征映射。如果使用标准的全连接层，我们会有m²n⁴个参数，对于通道级的全连接层，我们只有mn⁴个参数。因此，我们可以在距离很远的空间位置上捕获特征，而不需要添加那么多额外的参数。

解码器

对于解码器来说，这只是编码过程的反向。我们可以使用一系列的转置卷积来获得期望大小的重建图像。

损失函数

本文使用的损失函数由两项组成。第一项是重建损失(L2损失)，它侧重于像素级的重建精度(即PSNR方向的损失)，但总是会导致图像模糊。第二个是对抗损失，它通常用于GANs。它鼓励真实图像和填充图像之间数据分布更接近。

对于那些对损失函数感兴趣的读者，我强烈推荐你们阅读这篇论文中的方程。在这里，我只是口头描述每个损失项。

重建损失(L2损失)，M表示缺失的区域（1表示缺失区域，0表示有效像素），F是生成器

L2损失：计算生成的像素与对应ground truth像素之间的L2距离(欧几里得距离)。只考虑图4中所示的缺失区域。

对抗损失，D是鉴别器。我们希望训练出一种能够区分填充图像和真实图像的鉴别器

对抗损失：对抗鉴别器的结构如图4所示。鉴别器的输出是一个二进制值0或1。如果输入是真实图像，则为1，如果输入是填充图像，则为0。

联合损失，Lambda_rec为0.999，Lambda_adv为0.001

使用随机梯度下降(SGD)，Adam优化器交替训练生成器和鉴别器。

实验结果

评估使用了两个数据集，即Paris Street View和ImageNet。

作者首先展示了修复结果，然后他们还表明，作为预训练步骤，学习到的特征可以迁移到其他任务中。

语义修复

图5，修复结果，前3行是ImageNet数据集的结果，下面2行是来自Paris StreetView数据集的结果

图5显示了使用建议的上下文编码器的修复结果。

表1，Paris StreetView数据集的像素重建损失

作者与传统的最近邻修复算法进行了比较。显然，该方法优于最近邻修复方法。

图6，使用不同方法的修复结果

图6显示了使用各种方法的修复结果。我们可以看到L2损失倾向于给出模糊的图像(第二列)。L2 +对抗性的损失给更清晰的填充图像。对于NN-Inpainting，他们只是复制和粘贴最相似的图像补丁到缺失的区域。

特征学习

图7，最近邻的上下文

为了显示他们学习到的特征的有用性，作者尝试编码不同的图像patch，并根据编码的特征得到最相似的patch。在图7中。作者将其与传统的HOG和典型的AlexNet进行了比较。它们实现了与AlexNet类似的表现，但AlexNet是在一百万张标有数据集的图像上预训练的。

表2，分类、检测和语义分割的定量比较。

如表2所示，在ImageNet上预训练过的模型具有最好的性能，但需要昂贵的标签。在该方法中，上下文是用于训练模型的监督。这就是他们所谓的通过修复图像来学习特征。很明显，它们学习到的特征表示与其他借助辅助监督训练的模型相当，甚至更好。

总结

所提出的上下文编码器训练可以在上下文的条件下生成图像。在语义修复方面达到了最先进的性能。

学习到的特征表示也有助于其他任务，如分类，检测和语义分割。

要点

我想在这里强调一些要点。

对于图像修复，我们必须使用来自有效像素的“提示”来帮助填充缺失的像素。“上下文”一词是指对整个图像本身的理解。

本文的主要贡献是通道全连接层。其实，理解这一层并不难。对我来说，它是Non-Local Neural Networks或Self-Attention的早期版本/简化版本。主要的一点是，前一层的所有特征位置对当前层的每个特征位置都有贡献。从这个角度来看，我们对整个图像的语义理解会更加深入。这个概念在后面的文章中被广泛采用！

所有后来的修复论文都遵循了GAN-based结构(即编码器-解码器结构)。人们的目标是具有良好视觉质量的充满图像。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
41

文章
3361

浏览量
131556
图像

图像

+关注

关注
2

文章
1063

浏览量
40042
模型

模型

+关注

关注
1

文章
2704

浏览量
47697

原文标题：用生成模型来做图像恢复的介绍和回顾：上下文编码器

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

基于TOF深度相机的图像处理专利获授权

该专利主要涉及图像处理技术领域，特别是针对基于TOF深度相机的图像处理方法和存储媒介进行了深入研究。其核心内容包括：首先，采集每个像素的初始实部数据与初始虚部数据；其次，通过将这些数据与当前数据相结合，

发表于 04-15 10:04 •93次阅读

基于TOF深度相机的<b class='flag-5'>图像</b>处理专利获授权

联想携手京东，紧扣大模型和生成式AI技术

联想与京东携手，紧扣大模型和生成式AI技术带来的产业机遇，在多个领域展开深入合作。

发表于 04-12 10:27 •340次阅读

STM32L031断电重启后，数据只能收到第一个字节是哪里出了问题？

开通DMA，利用空闲中断接收数据。奇怪的现象是：在调试器调试时，数据收发都正常，但是断电重启后，数据只能收到第一个字节。不知道问题出在什么地方，

发表于 03-28 06:14

求助，用CubeMX配置占空比30%的PWM输出第一个波形不准确是为什么？

我用的是G0的芯片配置，通过抓波发现第一个波形永远与我配置的占空比不准确，但是除了第一个周期不准确外，后面的都没问题。

发表于 03-18 07:55

KOALA人工智能图像生成模型问世

近日，韩国科学团队宣布研发出名为 KOALA 的新型人工智能图像生成模型，该模型在速度和质量上均实现了显著突破。KOALA 能够在短短 2 秒内生成

发表于 03-05 10:46 •335次阅读

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大，而Stable Diffusion是许多其他文本到图像

发表于 02-19 16:03 •433次阅读

《深入理解FFmpeg阅读体验》+ 书收到了，崭新的开篇

今天收到了《深入理解FFmpeg》崭新的书，一个在2022年较近距离接触过却尚未深入研究的领域图像处理。最近刚好在作这方面的

发表于 01-07 18:57

【爱芯派 Pro 开发板试用体验】+ 图像分割和填充的Demo测试

的深度学习模型。它专门设计用于处理大尺寸遮挡区域的图像修复任务。LaMa模型提供了一个解决这类问

发表于 12-26 11:22

LabVIEW进行癌症预测模型研究

LabVIEW进行癌症预测模型研究癌症是一种细胞异常增生的疾病。随着年龄的增长，细胞分裂速度放缓，但癌细胞会失去控制地不断分裂，形成可能良性或恶性的肿瘤。 2012年的国际癌症数据显示，新发癌症

发表于 12-13 19:04

基于大语言模型的共情回复生成：实证研究和改进

对以ChatGPT为代表的LLMs在共情回复生成上的表现进行了全面的实证研究，LLMs在现有的基准数据集上，对比以往的SOTA模型，表现极其优越。

发表于 11-21 09:25 •553次阅读

使用MobilenetV2、ARM NN和TensorFlow Lite Delegate预建二进制文件进行图像分类教程

的设备上，并深入研究了代码。本指南既适合初学者，也适合有经验的开发人员。我们可以使用指南的前面部分在几分钟内启动并运行一个应用程序。对于更有经验的开发人员，我们还将在后面的代码深入

发表于 08-28 06:12

cnn卷积神经网络模型卷积神经网络预测模型生成卷积神经网络模型

视觉领域，随着人们对该模型的深入研究，它也逐渐被应用于自然语言处理、语音识别等领域。本文将着重介绍CNN的模型原理、训练方法以及在实际应用中的效果。一、模型原理 CNN的核心思想是通

发表于 08-21 17:11 •812次阅读

求助，用CubeMX配置占空比30%的PWM输出第一个波形不准确是为什么

我用的是G0的芯片配置，通过抓波发现第一个波形永远与我配置的占空比不准确，但是除了第一个周期不准确外，后面的都没问题。

发表于 08-07 07:26

基于扩散模型的图像生成过程

近年来，扩散模型在文本到图像生成方面取得了巨大的成功，实现了更高图像生成质量，提高了推理性能，也可以激发扩展创作灵感。不过仅凭文本来控制

发表于 07-17 11:00 •2110次阅读

基于文本到图像模型的可控文本到视频生成

的文本到视频模型需要大量高质量的视频和计算资源，这限制了相关社区进一步的研究和应用。为了减少过度的训练要求，我们研究了一种新的高效形式：基于文本到图像

发表于 06-14 10:39 •587次阅读