Nirkin提出单编码器 - 多解码器网络架构和算法对换脸质量的影响-电子发烧友网

迪士尼新研究实现百万像素图像和视频换脸，说不定未来大荧幕电影也会使用换脸技术了。

deepfakes 技术可以用于图像和视频换脸，但它能否用于大制作电影和电视节目中呢？迪士尼最新放出的一则视频 demo 展示了这种可能性。

近日迪士尼在欧洲图形学会透视研讨会（EGSR）上发表研究，展示了首个百万像素逼真换脸技术。

效果是不是还不错。这样的效果虽然并不足以用于漫威电影，但它是换脸技术迈出的新一步。

来自迪士尼的研究者表示，这项技术的创新点在于能够达到百万像素质量。百万像素或许不再是高质量图像的代名词，毕竟手机自带摄像头就能达到千万像素。但是截至目前，换脸技术一直注重平滑的面部转换，不注重提高像素。

你可能在手机上看到过效果好到爆炸的换脸视频，但是如果把它们放在更大的屏幕上呈现，就会出现很多瑕疵。研究者表示，他们用开源 deepfake 模型 DeepFakeLab 创建的视频分辨率最高也只有 256*256 像素。相比之下，迪士尼新模型能够让视频的分辨率提升到 1024*1024 像素。

那么，百万像素换脸是如何实现的呢？

首个百万像素换脸方法

迪士尼的这项研究发表在欧洲图形学会透视研讨会（EGSR）上，提出了一种在图像和视频中实现全自动换脸的算法。据研究者称，这是首个渲染百万像素逼真结果的方法，且输出结果具备时序一致性。

具体来说，该研究提出了一个渐进式训练的多路 comb 网络，以及一种保持亮度和对比度的混合方法。

具体而言，虽然渐进式训练能够生成高分辨率图像，但将架构和训练数据扩展至两人以上可以使生成的表情具备更高的保真度。

此外，在将生成的表情合成到目标人脸时，研究者调整混合策略，以保持对比度和低频光照。

最后，研究者在人脸关键点稳定算法中融入了一种细化策略，以实现时序稳定性，这对于处理高分辨率视频来说至关重要。

在实验部分，研究者通过控制变量研究来验证该方法对换脸质量的影响，并与流行的 SOTA 方法进行了比较。

百万像素分辨率下执行逼真换脸的整体流程：

该流程包括如下四个步骤：

对于图像 x_t，检测人脸并定位人脸关键点；

将人脸分辨率归一化为 1024×1024，保存归一化参数；

将归一化人脸馈入网络，并保存第 s 个解码器的输出 x？_s；

使用步骤 2 保存的归一化参数，在图像 x？_s 上反转图像归一化结果。最后，借助该研究提出的合成方法，将生成的图像与图像 x_t 混合。

而该流程中，最核心的组件无疑是模型本身了。该研究使用的单编码器 - 多解码器网络架构：

此外，研究者还介绍了实现人脸关键点对齐和稳定的方法，以确保换脸图像的时序一致性，以及保持光照和对比度的图像合成流程。此处不再赘述，详情参见原论文。

与当前 SOTA 方法的对比

该方法与 DeepFakes、DeepFaceLab 和 Nirkin 等人提出方法的换脸效果对比。从左到右依次为：目标图像、源图像、该方法在 1024×1024 和 256×256 分辨率下的成像效果，以及其他三种方法的成像效果。

控制变量研究

研究者执行以下四种实验，来查看该研究提出的单编码器 - 多解码器网络架构和算法对换脸质量的影响：

渐进式训练 VS 一次性训练整个网络；

使用多路 comb 模型 VS 单独的双路模型；

该研究提出的保持对比度的多频段合成方法 VS 泊松融合方法；

该研究中人脸关键点稳定方法的影响。

为渐进式训练与非渐进式训练的成像效果对比，可以看出，渐进式训练的成像效果优于非渐进式训练。

为使用多路 comb 模型与双路模型的成像效果对比：

方法与泊松融合方法的成像效果对比。从图中可以看出，该方法可以更好地保留目标人脸的全局光照特征，而泊松融合方法导致人脸出现了某种「漂白」效果。

人脸关键点稳定结果：

缺陷

尽管能够以高分辨率进行逼真的人脸转换，但是迪士尼提出的这一方法仍然存在缺陷。例如，无法基于数据恰当捕获的表情和姿势，可能会导致不完善的生成结果，比如模糊和其它伪影。
责任编辑:pj

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1073

浏览量
40156
编码器

编码器

+关注

关注
41

文章
3360

浏览量
131481
数据

数据

+关注

关注
8

文章
6511

浏览量
87590

编码器好坏怎么判断,编码器原理

（Autoencoder），它是一种无监督学习的神经网络模型。自动编码器由两部分组成：编码器和解码器。编码器负责将输入数据转换为低维表示，

发表于 01-23 10:58 •627次阅读

LDPC编码器解码器产品简介（v2.0）

电子发烧友网站提供《LDPC编码器解码器产品简介（v2.0）.pdf》资料免费下载

发表于 09-13 15:21 •2次下载

LDPC<b class='flag-5'>编码器</b><b class='flag-5'>解码器</b>产品简介（v2.0）

视频编码器与解码器的应用方案

视频解码器和视频编码器是数字信号处理中常用的设备，它们在数据的传输和转换中发挥着重要作用。

发表于 08-28 11:31 •351次阅读

视频<b class='flag-5'>编码器</b>与<b class='flag-5'>解码器</b>的应用方案

YXC丨视频编码器与解码器的应用方案

视频解码器和视频编码器是数字信号处理中常用的设备，它们在数据的传输和转换中发挥着重要作用。

发表于 08-23 09:40 •401次阅读

YXC丨视频<b class='flag-5'>编码器</b>与<b class='flag-5'>解码器</b>的应用方案

编码器技术应用

视频的编码压缩及网络传输。在系统的节点及控制中心，设置网络录像机设备(NVR)或流媒体设备，实现视频数据的存储及分发。在系统控制中心，设置一定数量的工作站、解码器及监视器，实现视频的显

发表于 08-17 10:22 •328次阅读

视频编码器与解码器的应用方案

视频解码器和视频编码器在数字通讯、音视频压缩领域有着广泛的应用。视频编码器作为视频源的发送端，若接收端如果是 PC 机或显示设备就需要通过解码器进行

发表于 08-14 14:38 •896次阅读

详解编码器和解码器电路

编码器和解码器是组合逻辑电路，在其中，主要借助布尔代数实现组合逻辑。今天就大家了解一下编码器和解码器电路，分别从定义，工作原理，应用，真值表几个方面讲述一下。

发表于 07-14 09:07 •1775次阅读

神经编码器-解码器模型的历史

基于 transformer 的编码器-解码器模型是表征学习和模型架构这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-解码器

发表于 06-20 15:42 •470次阅读

基于 Transformers 的编码器-解码器模型

基于 transformer 的编码器-解码器模型是表征学习和模型架构这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-解码器

发表于 06-16 16:53 •497次阅读

基于 RNN 的解码器架构如何建模

T5、Bart、Pegasus、ProphetNet、Marge 等，但它们所使用的网络结构并没有改变。本文的目的是详细解释如何用基于 transformer 的编码器-解码器架构

发表于 06-12 17:08 •463次阅读

基于transformer的编码器-解码器模型的工作原理

与基于 RNN 的编码器-解码器模型类似，基于 transformer 的编码器-解码器模型由一个编码器和一个

发表于 06-11 14:17 •1304次阅读

PyTorch教程10.7之用于机器翻译的编码器-解码器Seq2Seq

电子发烧友网站提供《PyTorch教程10.7之用于机器翻译的编码器-解码器Seq2Seq.pdf》资料免费下载

发表于 06-05 18:14 •0次下载

PyTorch教程10.6之编码器-解码器架构

电子发烧友网站提供《PyTorch教程10.6之编码器-解码器架构.pdf》资料免费下载

发表于 06-05 18:12 •0次下载

PyTorch教程-10.7. 用于机器翻译的编码器-解码器 Seq2Seq

序列组成，我们通常依赖编码器-解码器架构（第10.6 节）。在本节中，我们将演示编码器-解码器架构

发表于 06-05 15:44 •567次阅读

PyTorch教程-10.6. 编码器-解码器架构

10.6. 编码器-解码器架构¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax

发表于 06-05 15:44 •574次阅读