3个神经网络，让蒙娜丽莎活起来-电子发烧友网

还记得哈利・波特第一次来到霍格沃茨看到墙上那些既会动又会说话的挂画是多么惊讶吗？如果我们可以将挂画 “复活”，和 500 多年前的蒙娜丽莎来场穿越时空的对话会怎样呢？感谢 AI 技术，把画 “复活” 不再是梦！

名画《蒙娜丽莎的微笑》，会动了！

梦娜丽莎转过头，嘴里说着话，微微眨了眨眼，脸上带着温婉的微笑。

是的，《哈利·波特》世界中”会动的画“魔法实现了！来自三星AI中心(Samsung AI Center)和莫斯科斯的Skolkovo 科学技术研究所的一组研究人员，开发了一个能将让JPEG变GIF的AI系统。

《哈利·波特》中守卫格兰芬多学院休息室的胖夫人画像

更牛逼的是，该技术完全无需3D建模，仅需一张图片就能训练出惟妙惟肖的动画。研究人员称这种学习方式为“few-shot learning"。

当然，如果有多几张照片——8张或32张——创造出来动图效果就更逼真了。比如：

爱因斯坦给你讲物理：

玛丽莲梦露和你 flirt：

本周，三星AI实验室的研究人员发表了一篇题为 “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models” 的论文，概述了这种技术。该技术基于卷积神经网络，其目标是获得一个输入源图像，模拟目标输出视频中某个人的运动，从而将初始图像转换为人物正在说话的短视频。

论文一发表马上引起轰动，毕竟这项技术创造了巨大的想象空间！

类似这样的项目有很多，所以这个想法并不特别新颖。但在这篇论文中，最有趣的是，该系统不需要大量的训练示例，而且系统只需要看一次图片就可以运行。这就是为什么它让《蒙娜丽莎》活起来。

3个神经网络，让蒙娜丽莎活起来

这项技术采用“元学习”架构，如下图所示：

图2：“让照片动起来”元学习架构

具体来说，涉及三个神经网络：

首先，嵌入式网络映射输入图像中的眼睛、鼻子、嘴巴大小等信息，并将其转换为向量；

其次，生成式网络通过绘制人像的面部地标(face landmarks)来复制人在视频中的面部表情；

第三，鉴别器网络将来自输入图像的嵌入向量粘贴到目标视频的landmark上，使输入图像能够模拟视频中的运动。

最后，计算“真实性得分”。该分数用于检查源图像与目标视频中的姿态的匹配程度。

元学习过程：只需1张输入图像

研究人员使用VoxCeleb2数据集对这个模型进行了预训练，这是一个包含许多名人头像的数据库。在这个过程中，前面描述的过程是一样的，但是这里的源图像和目标图像只是同一视频的不同帧。

因此，这个系统不是让一幅画去模仿视频中的另一个人，而是有一个可以与之比较的ground truth。通过持续训练，直到生成的帧与训练视频中的真实帧十分相似为止。

预训练阶段允许模型在只有很少示例的输入上工作。哪怕只有一张图片可用时，结果也不会太糟，但当有更多图片可用时，结果会更加真实。

实验和结果

研究人员使用2个数据集分别进行定量和定性评估：VoxCeleb1数据集用于与基准模型进行比较，VoxCeleb2用于展示他们所提出方法的效果。

研究人员在三种不同的设置中将他们的模型与基准模型进行了比较，使用fine-tuning集中的1帧、8帧和32帧。

表1：few-shot learning设置下不同方法的定量比较

结果如表1上半部分所示，基线模型在两个相似性度量上始终优于我们的方法。

不过，这些指标不能完全代表人类的感知，因为这两种方法都会产生恐怖谷伪影，从图3的定性比较和用户研究结果可以看出。

另一方面，余弦相似度与视觉质量有更好的相关性，但仍然倾向于模糊、不太真实的图像，这也可以通过表1-Top与图3中的比较结果看出。

图3：使用1张、8张和32张训练图像时的三个示例。系统采用一个源图像(第1列)，并尝试将该图像映射到ground truth帧中的相同位置(第2列)。研究人员将他们的结果与X2Face、PixtopixHD模型进行了比较。

大规模的结果。

随后，我们扩展可用的数据，并在更大的VoxCeleb2数据集中训练我们的方法。

下面是2个变体模型的结果：

图4：在VoxCeleb2数据集中的最佳模型的结果。

同样，训练帧的数量是T(左边的数字)，第1列是示例训练帧。第2列是ground truth图像，后3列分别是我们的FF feed-forward 模型及微调前后的结果。虽然 feed-forward变体的学习更快速，但fine-tuning 最终提供了更好的真实感和保真度。

最后，我们展示了的照片和绘画的结果。

图5：让静态照片“活”起来

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4562

浏览量
98628
图像

图像

+关注

关注
2

文章
1063

浏览量
40028
ai技术

ai技术

+关注

关注
1

文章
1106

浏览量
23699

原文标题：蒙娜丽莎一键“复活”！三星AI Lab：只需一张图片就能合成动画

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

搜索历史

3个神经网络，让蒙娜丽莎活起来

评论

人工神经网络原理及下载

神经网络教程（李亚非）

神经网络简介

神经网络解决方案让自动驾驶成为现实

【PYNQ-Z2试用体验】神经网络基础知识

全连接神经网络和卷积神经网络有什么区别

卷积神经网络如何使用

【案例分享】基于BP算法的前馈神经网络

【案例分享】ART神经网络与SOM神经网络

如何构建神经网络？

matlab实现神经网络精选资料分享

基于BP神经网络的PID控制

神经网络移植到STM32的方法

神经网络运用领域

用一张图像合成动图,让蒙娜丽莎开口说话