DeepMind发布VQ-VAE-2算法,将AI换脸的技术提升到了真假难辩的高度-电子发烧友网

近日DeepMind发布VQ-VAE-2算法，也就是之前VQ-VAE算法2代，这个算法从感观效果上来看比生成对抗神经网络（GAN)的来得更加真实，堪称AI换脸界的大杀器，如果我不说，相信读者也很难想象到上面几幅人脸图像都是AI自动生成出来的。

不过如此重要的论文，笔者还没看到专业性很强的解读，那么笔者就将VQ-VAE-2算法分为VQ,VAE,VQVAE2三部分来介绍原理，权当抛砖引玉。

什么是VQ

VQ是vector quantisationk（一般译作矢量量化）的缩写，他的主要思想是通过k-means算法进行聚类，将相近的点全部近似点簇的重心，从而在不损失太多信息的情况下对输入进行压缩。

k-means聚类算法：我在之前博客《终于把软微BING搜索-SPTAG算法的原理搞清了（https://blog.csdn.net/BEYONDMA/article/details/90578111）

也曾经介绍过k-means算法。算法先随机指定选取K个点做为初始聚集的簇心,分别计算每个样本点到 K个簇核心的余弦距离，找到距离最近的核心点，将它归属到对应的簇，所有点都归属到簇之后， M个点就分为了 K个簇。之后重新计算每个簇的重心，将其定为新的“核心”，重复上述步骤直到新核心不再改变为止或者改变距离达到一定值后中止。那么最终的K个簇就是最终的聚类结果。

k-means算法试图最小化失真，其定义为每个观测向量与其主质心之间距离的平方之和。通过迭代地将观测结果重新分类为星系团，并重新计算中心体，直到得到一个中心体稳定的构型，从而达到最小值。

那么VQ实际就是先把输入的图像进行-means聚类，完成后只保留最终留下的K个簇质心，簇上的其它点全部近似化为质心来进行存储，用这样的方式来进行压缩。

什么是VAE

VAE是variational auto encoding（一般译作变分自动编码），不过笔者感觉译为隐变更自动编码可能更贴切。VAE的主要思想是他认为图像、声音等信息是由多个隐变量（latent arrtibute)，比如对于人的面部图像来说就由笑容，肤色、发色、发型等变量决定，那么VAE网络就先把图像中的笑容，肤色、发色、发型等变量识别出来，然后将这些变量传递给解码器生成图像。具体工作原理图如下：

VQ-VAE1代算法整体的工作方式

简单来讲VQ-VAE1代算法，在Encoder层计算latent arrtibute(隐向量）的向量族z,然后传递给隐层，在隐层按照刚刚所述的VQ算法进行压缩，然后输出给Decoder进行生成，其具体原理见下图。

如果要进行换脸，那么只要将人脸A的Encoder进行编码计算latent arrtibute(隐向量），然后输出给FaceB的Decoder进行生成即可完成。

VQ-VAE2代算法的更新

VQ-VAE2代其实总体和1代差别不大，主要将latent arrtibute(隐向量）分为top和bottom两层，其中top层记录整体细节主要是明亮度、色调等信息，而bottom层主要记录细节信息，从实际效果上看甚至包括了发丝、瞳孔等超级细微的层面。具体原理图如下：

VQ-VAE-2将AI换脸的技术提升到了真假难辩的高度

我在之前的博客《终于把AI换脸的原理搞清了》（https://blog.csdn.net/BEYONDMA/article/details/88365203）曾经介绍过deepfakes等项目的原理，不过之前那些换脸算法对于细节的把握程度远远达不到VQ-VAE-2的程度，从DeepMind的论文中可以看到，其生成效果之好、分辨率之高已经到达了刷新了笔者的认知极限。所以笔者最后也再次呼吁，不要将AI换脸技术用在歪路上。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26413

浏览量
264021
DeepMind

DeepMind

+关注

关注
0

文章
126

浏览量
10709

原文标题：AI换脸技术再创新高度，DeepMind发布的VQ-VAE二代算法有多厉害？

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

将测试提升到一个新的水平

的自动测试设备专业知识，重点介绍了技术创新以及公司的未来增长计划。 SPEA于1976年在意大利北部成立。创始人曾在著名的意大利公司Olivetti工作，后来在通用电气工作，然后创立了SPEA。最初

发表于 04-09 17:13 •113次阅读

NVIDIA发布专为大规模AI量身订制的全新网络交换机-X800系列

NVIDIA Quantum-X800 InfiniBand 网络和 NVIDIA Spectrum™-X800 以太网络是全球首批高达 800Gb/s 端到端吞吐量的网络平台，将计算和 AI 工作负载的网络性能提升到了一个新的水平

发表于 03-20 09:54 •222次阅读

NanoEdge AI的技术原理、应用场景及优势

NanoEdge AI 是一种基于边缘计算的人工智能技术，旨在将人工智能算法应用于物联网（IoT）设备和传感器。这种技术的核心思想是

发表于 03-12 08:09

谷歌DeepMind资深AI研究员创办AI Agent创企

近日，刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦，此前曾担任谷歌

发表于 02-04 10:02 •367次阅读

生成式AI正在如何改变医疗保健和生命科学？

由于疫情的肆虐，近年来人们对医疗保健和生命科学领域的关注，也提升到了一个前所未有的高度。

发表于 12-09 10:52 •906次阅读

5V脉冲信号怎么可以提升到28V脉冲？

PCF8591，5V脉冲信号怎么可以提升到28V脉冲？

发表于 10-25 08:29

请问单片机如何控制5V脉冲信号提升到28V脉冲？

单片机如何控制5V脉冲信号提升到28V脉冲？

发表于 10-20 06:23

阿里平头哥发布首个 RISC-V AI 软硬全栈平台

HHB 实现了在典型网络性能比第三方工具平均提升 88%，并增加支持运行 Transformer、TensorFlow、PyTorch 等 170 余个主流框架 AI 模型。基于此，平头哥发布了首个

发表于 08-26 14:14

HarmonyOS 4发布，盘古大模型接入手机，鸿蒙生态“已过万重山”

电子发烧友网报道（文/黄晶晶）在2023年华为开发者大会（HDC.Together）上，华为HarmonyOS 4正式发布，以更好玩、更流畅、更安全等特点再一次将HarmonyOS提升到一个新的高度。

发表于 08-05 00:21 •4577次阅读

如何将电池储能系统的性能提升到更高水平？

。本文还建议使用安森美(onsemi)的碳化硅(SiC)方案，将BESS性能提升到全新水平。图1：BESS实施概览采用BESS的优势使用带有储能电池的并网/离网太阳

发表于 08-01 00:23 •484次阅读

如何将电池储能系统的性能提升到更高水平？

拓扑。本文还建议使用安森美 (onsemi) 的碳化硅 (SiC) 方案，将 BESS 性能提升到全新水平。图 1：BESS 实施概览采用 BESS 的优势使用带有储能电池的并网/离网太阳能逆变器系统，为住宅和商业用户带来诸多好处，包括：价格：储存能量，可作为公用

发表于 07-25 19:05 •475次阅读

详解DeepMind排序算法

DeepMind 的这一发现确实居功至伟，但不幸的是，他们未能解释清楚算法。下面，我们来详细看看他们发布的一段汇编代码，这是一个包含三个元素的数组的排序，我们将伪汇编转换为汇编：

发表于 06-21 15:38 •258次阅读

谷歌DeepMind用AI改进数据排序

　　人工智能研究所谷歌Google DeepMind推出了三种ai工具AlphaZero、MuZero、AlphaDev，这些工具提高数据中心的资源利用率，提高视频压缩效率，更快的算法发现，整个计算优化生态系统。

发表于 06-09 10:30 •677次阅读

当工业物联网遇到AI，会发生什么

或许这就是为什么在没有IIoT提供关键帮助的情况下，企业很难在工业4.0带来的大规模数字转型中能够生存下来的重要原因。而人工智能（AI）和IIoT这两种技术的结合，能有效管理并充分利用数字化生产过程中产生的海量数据，把工业过程控制提升到

发表于 05-18 09:30 •529次阅读

使用OpenVINO™在算力魔方上加速stable diffusion模型

Stable Diffusion 是 stability.ai 开源的 AI 图像生成模型，实现输入文字，生成图像的功能。Stable Diffusion 将 AI 图像生成提升到了全

发表于 05-12 09:10 •941次阅读