0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用一张图像合成动图,让蒙娜丽莎开口说话

电子工程师 来源:YXQ 2019-05-27 13:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

蒙娜丽莎开口说话你见过吗?这位神秘的画中人也能做出各种 gif 表情?来自三星莫斯科 AI 中心和 Skolkovo 科学技术研究所的研究人员创建了一个模型,利用这个模型可以从一张图像中生成人物头像的动图,而且是开口说话的动图。而且,这一模型没有采用 3D 建模等传统方法。

开口说话的蒙娜丽莎好像看着没那么高冷。

除了蒙娜丽莎,研究人员还生成了风情万种的玛丽莲·梦露。

他们生成的名人头部动画包括玛丽莲·梦露、爱因斯坦、蒙娜丽莎以及 Wu Tang Clan 的 RZA 等。

近年来出现了很多利用 AI 模拟人脸的研究。2018 年,华盛顿大学的研究人员分享了他们创建的 ObamaNet,它是一种基于 Pix2Pix 的唇语口型模型,以美国前总统奥巴马的视频进行训练。去年秋天,加州大学伯克利分校的研究人员开发出一个模型,使用 YouTube 视频来训练 AI 数据集,生成的人物可以做跳舞或后空翻等杂技动作。

为了创建个性化模型,上面这些研究需要在大量个人数据上进行训练。但是,在许多实际场景中,我们需要从个人的少量甚至是一张图像中学习。因此在这项研究中,三星和 Skolkovo 研究所的研究人员只用少量甚至一张图像或画作就合成了人物开口说话状态的头部动画。

研究人员利用了 Few-shot learning 等技术,主要合成头部图像和面部 landmark,可应用于电子游戏、视频会议或者三星 Galaxy S10 上现在可用的数字替身(digital avatar)。这种虚拟现实项目的数字替身技术可用于创建 deepfake 图像和视频。

Few-shot 学习意味着该模型在仅使用几幅甚至一幅图像的情况下模拟人脸。研究人员使用 VoxCeleb2 视频数据集进行元训练(meta trainning)。在元学习过程中,系统创建了三种神经网络:将帧映射到向量的嵌入器网络、在合成视频中映射面部特征点的生成器网络以及评估生成图像真实性和姿态的判别器网络。

联合三种网络,该系统能在大型视频数据集上执行长时间的元学习过程。待元学习收敛后,就能构建 few-shot 或 one-shot 的神经头像特写模型。该模型将未见过的目标任务视为对抗学习问题,这样就能利用已学习的高质量生成器与判别器。

论文作者表示:「至关重要的一点是,尽管需要调整数千万参数,该系统能够因人而异地初始化生成器和判别器参数,因此训练可以在仅借助几幅图像的情况下快速完成。这种方法能够快速学习新面孔甚至是人物肖像画和个性化的头像特写模型。」

该论文已被 2019 CVPR 会议接收,本届会议将于六月份在加利福尼亚州的长滩举行。

新颖的对抗学习架构

在这项研究中,研究者提出了一种新系统,可以只使用少量图像(即Few shot learning)和有限的训练时间,构建「头像特写」模型。实际上,研究者的模型可以基于单张图像(one-shot learning)生成合理的结果,而且在添加少量新样本后,模型能生成保真度更高的个性化图像。

与很多同类工作相同,研究者的模型使用卷积神经网络构建头像特性,它通过一个序列的卷积运算直接合成视频帧,而不是通过变形(warping)。研究者模型创建的头像特写可以实现大量不同的姿态,其性能显著高于基于变形(warping-based)的系统。

通过在头像特写语料库上的大量预训练(meta-learning),模型能获得 few-shot 学习的能力。当然这需要语料库足够大,且头部特写视频对应不同的说话者与面孔。在元学习过程中,研究者的系统模拟了 few-shot 学习任务,并学习将面部 landmark 位置转换到逼真的个性化照片。在 few-shot 学习中,他们只需要提供转换目标的少量训练图像就可以。

随后,转换目标的少量图像可视为一个新的对抗学习问题,其高复杂度的生成器与判别器都通过元学习完成了预训练。新的对抗问题最终会完成收敛,即在少量训练迭代后能生成真实和个性化的图像。

元学习架构

下图 2 展示了研究者方法中的元学习阶段,简单而言它需要训练三个子网络。注意,若我们有 M 个视频序列,那么 x_i(t) 表示第 i 个视频的第 t 帧。

第一个子网络 embedder E:它会输入视频帧 x_i(s) 以及对应的 landmark 图像 y_i(s),该网络会将输入映射到 N 维向量 e hat_i(s) 中。

第二个子网络 generator G:它会输入新的 landmark 图像 y_i(t),且 embedder 看不到其对应的视频帧;该网络还会输入 embedder 输出的 e hat_i,并希望能输出合成的新视频帧 x hat_i(t)。

第三个子网络 discriminator D:它会输入视频帧 x_i(t)、对应的 landmark 图像 y_i(t),以及训练序列的索引 i。该网络希望判断视频帧 x_i(t) 到底是不是第 i 个视频中的内容,以及它到底匹不匹配对应的 landmark 图像 y_i(t)。

图 2:元学习架构的整体结构,主要包含嵌入器(embedder)、生成器和判别器三大模块。

嵌入器网络希望将头像特写图像与对应的人脸 landmark 映射到嵌入向量,该向量包含独立于人脸姿态的信息。生成器网络通过一系列卷积层将输入的人脸 landmark 映射到输出帧中,其生成结果会通过嵌入向量以及自适应实例归一化进行调整。在元学习中,研究者将相同视频一组视频帧传递到嵌入器,并对嵌入向量求均值以便预测生成器的自适应参数。

随后,研究者将不同帧的 landmark 输入到生成器中,并对比标注图像和生成图像之间的差别。模型的整体优化目标包括感知和对抗两种损失函数,后者通过条件映射判别器实现。

此外,元学习的三大子网络在原论文中都有具体的表达式,读者可具体查阅原论文 3.2 章。

Few-shot 学习过程

一旦元学习完成收敛,那么系统就能学习到如何合成新目标的头像特写序列,即使元学习中不曾见过这个人。当然,除了要提供新目标的一些图像样本,我们还需要提供新目标的 landmark,合成过程是以这些目标 landmark 为条件的。

很自然地,我们可以使用元学习收敛后的嵌入器(embedder),用来估计新头像特写序列的嵌入向量:

一种比较直观的想法是使用上面的嵌入向量,以及预训练的生成器生成新的视频帧与对应 landmark 图像。理论上这样也能生成真实的图像,但真实性并不是太强。为此,研究者还需要一个精调过程以生成更完美的图像,即 few-shot 学习过程。

精调过程可视为前面元学习过程的简化版,它只在单个视频序列和较少的帧上完成训练。精调过程主要包含判别器与生成器两个模块,这里嵌入器是不需要调整的。

其中生成器还是根据 landmark 合成视频帧,只不过对应具体人物的生成器参数 ψ'会和原来一般人物参数ψ共同优化,以学习生成目标人物的某些特征。判别器和元学习阶段也差不多,只不过会增加一个新参数以学习更好地预测真实度分数。

实验

研究者在定性和定量评估实验中用到了两个数据集:VoxCeleb1 和 VoxCeleb2。后者的视频数量大约是前者的 10 倍。VoxCeleb1 用于与基线和控制变量研究作对比,VoxCeleb2 用于展示本文中所提方法的全部潜力。实验结果如下表所示:

如表 1 所示,基线模型在两个相似度度量标准上始终优于三星的方法。三星研究人员认为,这是方法本身所固有的:X2Face 在优化期间使用 L_2 损失函数,因此 SSIM 得分较高。另一方面,Pix2pixHD 只最大化了感知度量,没有 identity preservation 损失,导致 FID 最小化,但从 CSIM 一栏中可以看出,Pix2pixHD 的 identity 不匹配更大。

此外,这些度量标准和人类的感知并没有特别紧密的关联,因为这些方法都会产生恐怖谷伪影(uncanny valley artifact),这从图 3 和用户研究结果中可以看出。另一方面,余弦相似度与视觉质量有更好的相关性,但仍然倾向于模糊、不太真实的图像,这也可以通过表 1 与图 3 中的结果对比来看出。

图 3:在 VoxCeleb1 数据集上的结果。对于每一种对比方法,研究者在一个元训练或预训练期间未见过的人物视频上执行 one-shot 和 few-shot 学习。他们将训练的帧数设为 T(最左边的数字)。Source 列显示了训练帧之一。

接下来,研究者扩展了可用的数据,开始在视频数目更多的 VoxCeleb2 上训练模型。他们训练了两种模型:FF(前馈)和 FT。前者训练 150 个 epoch,没有嵌入匹配损失 LMCH,因此用的时候不进行微调。后者训练 75 个 epoch,但有 LMCH,支持微调。

他们对这两种模型都进行了评估,因为它们可以在 few-shot 学习速度和结果质量之间进行权衡。与在 VoxCeleb1 上训练的小型模型相比,二者都得到了很高的分数。值得注意的是,FT 模型在 T=32 的设定下达到了用户研究准确率的下界,即 0.33,这是一个完美的分数。两种模型的结果如图 4 所示:

图 4:三星最好的模型在 VoxCeleb2 数据集上的结果。

最后,研究者展示了模型在照片或画像上的结果。为此,研究者评估了在 one-shot 设定下训练的模型,任务姿态来自 VoxCeleb2 数据集的测试视频。他们使用 CSIM 度量给这些视频排序,并在原始图像和生成图像之间进行计算。这使得研究者可以发现拥有相似标志几何特征的人脸,并将它们由静态变为动态。结果见图 5 和图 1.

图 5:使静止的照片栩栩如生。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 三星电子
    +关注

    关注

    34

    文章

    15891

    浏览量

    182876
  • 人工智能
    +关注

    关注

    1813

    文章

    49739

    浏览量

    261549

原文标题:[机器人频道|大V说]蒙娜丽莎开口说话了:三星新研究用一张图像合成动图,无需3D建模

文章出处:【微信号:robovideo,微信公众号:机器人频道】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音播报芯片:产品“开口说话”的秘密

    个语音播报,收款24元等等。不知道大家发现没有会“说话”的产品越来越多了,不仅仅是声音播放,还可以进行语音交互也就是大家说的AI对话芯片,下面小编将会带大家起了解语音播报背后的那些芯片。   机器发出固定声音
    的头像 发表于 09-28 09:28 382次阅读
    语音播报芯片:<b class='flag-5'>让</b>产品“<b class='flag-5'>开口说话</b>”的秘密

    一张搞懂LDO的硬件设计和应用

    存在误解,这些误解往往会导致设计失败。  ” 我们先通过一张来概括 LDO 的应用: 线性稳压电源与 LDO 先澄清个基础的概念 : LDO 是线性稳压电源的种 ,但不是所有线性
    的头像 发表于 09-23 17:22 7947次阅读
    <b class='flag-5'>一张</b><b class='flag-5'>图</b>搞懂LDO的硬件设计和应用

    无 MES 也能提产!老旧 PLC/CNC/ 注塑机靠数采破局,深控技术物联网方案实战案例

    对于没上 MES 的工厂,老旧设备不是 “包袱”,而是 “待激活的产能富矿”。深控技术的 “不需要点表的工业网关”+“IOT 物联网平台”,不用依赖 MES,就能让台达 PLC、发那科 CNC、海天注塑机等老旧设备 “开口说话”,数据找到提产突破口。
    的头像 发表于 09-08 14:22 395次阅读
    无 MES 也能提产!老旧 PLC/CNC/ 注塑机靠数采破局,深控技术物联网方案实战案例

    当土壤“开口说话”:RS232传感器如何搭上Profinet快车?

    工业以太网的自动化控制系统格格不入,形成令人头疼的“数据孤岛”。如何这些宝贵的“土壤侦察兵”顺利搭上Profinet的高速列车? RS232以其简单可靠著称,但传输距离短、速率低、组网能力弱是其硬伤。Profinet作为工业主流协议,凭借高速、实时
    的头像 发表于 08-13 14:42 340次阅读

    二次元玩具 “开口说话”!N9400 芯片为你的周边注入灵魂

    还在为二次元周边玩具缺乏互动感发愁?想手办、盲盒、扭蛋自带角色原声却被成本卡住?广州九芯电子——深耕电子芯片15年的源头工厂,带着爆款语音播放芯片N9400来了!专为二次元玩具厂家量身定制,硬核
    的头像 发表于 08-13 14:03 526次阅读
    <b class='flag-5'>让</b>二次元玩具 “<b class='flag-5'>开口说话</b>”!N9400 芯片为你的周边注入灵魂

    协议转换魔法师”:Modbus转Profinet网关如何变频器“开口说话

    登场!它就像位精通多种语言的翻译官,能够把Modbus协议的“方言”准确地翻译成Profinet协议的“官方语言”,变频器和控制系统能够愉快地交流起来。 想象下,变频器就像个只
    发表于 07-25 15:31

    WT2801:颗蓝牙语音芯片的血糖守护之旅

    地辨认测量结果。这个时候有些同学就要举手了:为什么不能让血糖仪"开口说话"呢?在中国,糖尿病患者已经超过1.4亿人,位居全球首位,其中60岁以上人群的患病率高达20.
    的头像 发表于 06-06 16:37 587次阅读
    WT2801:<b class='flag-5'>一</b>颗蓝牙语音芯片的血糖守护之旅

    桥梁结构健康安全如何做到“未病先治”智能监测系统给出答案

    在现代城市中,桥梁如同人体的血管,承载着经济与社会的生命线。然而,随着时间的推移,风雨侵蚀、重载交通、材料老化等问题不断威胁着这些庞然大物的安全。如何提前发现隐患,避免灾难发生?桥梁结构健康监测正是答案所在——它如同给桥梁装上“智慧之眼”,沉默的钢铁混凝土“开口说话”,
    的头像 发表于 05-26 15:56 354次阅读
    桥梁结构健康安全如何做到“未病先治”智能监测系统给出答案

    大模型“开口说话”,启英泰伦重塑AI玩具交互新体验!

    2025年,AI玩具已成为全球消费科技领域最炙手可热的赛道之。DeepSeek的崛起,显著降低了大模型的部署成本和门槛,成功点燃了整个行业以及资本市场对端侧AI落地的热情,进步推动了AI玩具
    的头像 发表于 04-11 18:31 923次阅读
    <b class='flag-5'>让</b>大模型“<b class='flag-5'>开口说话</b>”,启英泰伦重塑AI玩具交互新体验!

    工业数据采集网关:工厂 &quot;开口说话&quot; 的超级翻译官

    、工业界的 "超级间谍":为什么它比老板更懂工厂? 在智能制造的江湖里, 工业数据采集网关 堪称 "最会偷听的扫地僧"。它潜伏在车间角落,默默收集机器的 "心跳"、流水线的 "呼吸",甚至能
    的头像 发表于 04-07 09:35 426次阅读
    工业数据采集网关:<b class='flag-5'>让</b>工厂 &quot;<b class='flag-5'>开口说话</b>&quot; 的超级翻译官

    数传终端:数据飞起来的 “空中快递员”

    就像位隐形的 “空中快递员”,在看不见的电波中穿梭,把海量数据安全、快速地送到目的地。 它的核心使命 :将传感器、设备、系统产生的数据,通过无线或有线网络传输到云端或控制中心。简单来说,就是 “哑巴” 设备开口说话
    的头像 发表于 04-02 23:59 632次阅读
    数传终端:<b class='flag-5'>让</b>数据飞起来的 “空中快递员”

    电饭煲“开口说话”了!NV128H语音芯片煮饭玩出科技感

    电饭煲,又叫电饭锅,是种设计用来煮米饭或蒸米饭的自动化厨房用具。它由个热源、个烹饪碗和个恒温器组成。恒温器测量烹饪碗的温度并控制热量。复杂的高科技电饭锅可能有更多的传感器和其他
    的头像 发表于 03-12 15:07 781次阅读
    电饭煲“<b class='flag-5'>开口说话</b>”了!NV128H语音芯片<b class='flag-5'>让</b>煮饭玩出科技感

    DMD启动后反射的图像左下角的那个像是怎么形成的?

    一张是在DMD未启动时,激光照射DMD芯片时反射的图像 第二是DMD启动后,
    发表于 03-03 06:13

    DLPLCR4500EVMGUI加载大量图片并按1bit图像播放如何设置?

    ,而非每一张都需要点击鼠标好几次。 4 说明文档当中提到vidio模式,也是按1bit的图像进行播放的,是否可以理解为,如果把24bit图像按照顺序做成vidio,最后播放出来,对
    发表于 02-25 07:30

    DLP4500烧录98bit位深度的相移,3合成一张24bit,结果每一张24bit都重复投射三次,这是为什么?

    你好,吴工,DLP4500烧录98bit位深度的相移,3合成一张24bit,结果每
    发表于 02-24 08:00