0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

蒙娜丽莎一键复活 三星AI一张图片就能合成动画

电子工程师 来源:fqj 2019-05-27 17:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

还记得哈利・波特第一次来到霍格沃茨看到墙上那些既会动又会说话的挂画是多么惊讶吗?如果我们可以将挂画 “复活”,和 500 多年前的蒙娜丽莎来场穿越时空的对话会怎样呢?感谢 AI 技术,把画 “复活” 不再是梦!

名画《蒙娜丽莎的微笑》,会动了!

梦娜丽莎转过头,嘴里说着话,微微眨了眨眼,脸上带着温婉的微笑。

是的,《哈利·波特》世界中”会动的画“魔法实现了!来自三星AI中心(Samsung AI Center)和莫斯科斯的Skolkovo 科学技术研究所的一组研究人员,开发了一个能将让JPEG变GIF的AI系统。

《哈利·波特》中守卫格兰芬多学院休息室的胖夫人画像

更牛逼的是,该技术完全无需3D建模,仅需一张图片就能训练出惟妙惟肖的动画。研究人员称这种学习方式为“few-shot learning"。当然,如果有多几张照片——8张或32张——创造出来动图效果就更逼真了。比如:

爱因斯坦给你讲物理:

玛丽莲梦露和你 flirt:

本周,三星AI实验室的研究人员发表了一篇题为 “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models” 的论文,概述了这种技术。该技术基于卷积神经网络,其目标是获得一个输入源图像,模拟目标输出视频中某个人的运动,从而将初始图像转换为人物正在说话的短视频。

论文一发表马上引起轰动,毕竟这项技术创造了巨大的想象空间!

类似这样的项目有很多,所以这个想法并不特别新颖。但在这篇论文中,最有趣的是,该系统不需要大量的训练示例,而且系统只需要看一次图片就可以运行。这就是为什么它让《蒙娜丽莎》活起来。

3个神经网络,让蒙娜丽莎活起来

这项技术采用“元学习”架构,如下图所示:

图2:“让照片动起来”元学习架构

具体来说,涉及三个神经网络:

首先,嵌入式网络映射输入图像中的眼睛、鼻子、嘴巴大小等信息,并将其转换为向量;

其次,生成式网络通过绘制人像的面部地标(face landmarks)来复制人在视频中的面部表情;

第三,鉴别器网络将来自输入图像的嵌入向量粘贴到目标视频的landmark上,使输入图像能够模拟视频中的运动。

最后,计算“真实性得分”。该分数用于检查源图像与目标视频中的姿态的匹配程度。

元学习过程:只需1张输入图像

研究人员使用VoxCeleb2数据集对这个模型进行了预训练,这是一个包含许多名人头像的数据库。在这个过程中,前面描述的过程是一样的,但是这里的源图像和目标图像只是同一视频的不同帧。

因此,这个系统不是让一幅画去模仿视频中的另一个人,而是有一个可以与之比较的ground truth。通过持续训练,直到生成的帧与训练视频中的真实帧十分相似为止。

预训练阶段允许模型在只有很少示例的输入上工作。哪怕只有一张图片可用时,结果也不会太糟,但当有更多图片可用时,结果会更加真实。

实验和结果

研究人员使用2个数据集分别进行定量和定性评估:VoxCeleb1数据集用于与基准模型进行比较,VoxCeleb2用于展示他们所提出方法的效果。

研究人员在三种不同的设置中将他们的模型与基准模型进行了比较,使用fine-tuning集中的1帧、8帧和32帧。

蒙娜丽莎一键复活 三星AI一张图片就能合成动画

表1:few-shot learning设置下不同方法的定量比较

结果如表1上半部分所示,基线模型在两个相似性度量上始终优于我们的方法。

不过,这些指标不能完全代表人类的感知,因为这两种方法都会产生恐怖谷伪影,从图3的定性比较和用户研究结果可以看出。

另一方面,余弦相似度与视觉质量有更好的相关性,但仍然倾向于模糊、不太真实的图像,这也可以通过表1-Top与图3中的比较结果看出。

图3:使用1张、8张和32张训练图像时的三个示例。系统采用一个源图像(第1列),并尝试将该图像映射到ground truth帧中的相同位置(第2列)。研究人员将他们的结果与X2Face、PixtopixHD模型进行了比较。

大规模的结果。

随后,我们扩展可用的数据,并在更大的VoxCeleb2数据集中训练我们的方法。

下面是2个变体模型的结果:

图4:在VoxCeleb2数据集中的最佳模型的结果。

同样,训练帧的数量是T(左边的数字),第1列是示例训练帧。第2列是ground truth图像,后3列分别是我们的FF feed-forward 模型及微调前后的结果。虽然 feed-forward变体的学习更快速,但fine-tuning 最终提供了更好的真实感和保真度。

最后,我们展示了的照片和绘画的结果。

图5:让静态照片“活”起来

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 三星电子
    +关注

    关注

    34

    文章

    15900

    浏览量

    183274
  • AI
    AI
    +关注

    关注

    91

    文章

    41972

    浏览量

    303061

原文标题:蒙娜丽莎一键“复活”!三星AI Lab:只需一张图片就能合成动画

文章出处:【微信号:aicapital,微信公众号:全球人工智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI 大数据赋能电商,选品上架一键通全

    被繁琐的上架流程消耗大量时间精力,最终陷入“费力不讨好”的运营僵局。而AI大数据模型的强势介入,彻底打破了这困境,真正实现“AI 大数据赋能电商,选品上架一键通全局”,让电商运营从“
    的头像 发表于 05-12 16:03 82次阅读

    【新品预告】做AI硬件,第步从哪开始?安信可给你一张完整的路线图

    模组量产→MCP协议验证→参考成品落地,每层都有经过验证的产品做支撑。不需要东拼西凑,不需要担心某个环节没人兜底。这不是个产品介绍,是一张完整的能力地图。典型
    的头像 发表于 04-28 18:20 187次阅读
    【新品预告】做<b class='flag-5'>AI</b>硬件,第<b class='flag-5'>一</b>步从哪开始?安信可给你<b class='flag-5'>一张</b>完整的路线图

    AIBOX + JishuShell:一键部署端侧 AI,把本地龙虾“装”进小盒子

    JishuShell:款能够将龙虾一键部署到本地的工具,让AIAgent更方便实现本地运行。目前,FireflyAIBOX-3576和AIBOX-3588已成功跑通Ji
    的头像 发表于 04-15 16:35 659次阅读
    AIBOX + JishuShell:<b class='flag-5'>一键</b>部署端侧 <b class='flag-5'>AI</b>,把本地龙虾“装”进小盒子

    一键影像测量仪和全自动影像测量仪有什么区别?

    影像测量仪、全尺寸飞拍测量仪等设备,具备精度高、效率高、性价比高大特点。一键影像测量仪和全自动影像测量仪的主要区别在于:全自动影像测量仪BamtoneV系列1,
    的头像 发表于 03-31 09:25 1060次阅读
    <b class='flag-5'>一键</b>影像测量仪和全自动影像测量仪有什么区别?

    三星电子在CES 2026发布AI生活伴侣愿景

    近日,三星电子在拉斯维加斯永利酒店 Latour Ballroom举办的 CES 2026“The First Look”活动上,正式发布了“AI 生活伴侣”(Your Companion to AI Living)愿景¹。本活
    的头像 发表于 01-12 17:07 1495次阅读

    谁有P660电路图给传一张,谢谢

    哪位师博有德生PL660电路图给传一张,谢谢各位师傅。
    发表于 12-08 18:47

    三星电子正式发布Galaxy Z TriFold

    2025年12月2日,三星电子正式发布Galaxy Z TriFold,进步巩固了三星在移动AI时代中针对形态创新的行业优势。
    的头像 发表于 12-03 17:46 1917次阅读

    三星携手NVIDIA 以全新AI工厂引领全球智能制造转型

    领域迈出关键步。通过部署超过50,000颗NVIDIA GPU,三星将在整个制造流程中全面导入AI技术,加速下代半导体、移动
    的头像 发表于 11-03 13:41 2080次阅读

    城市一张网,以数据之桥擎托未来

    以“城市一张网”为基石,打造可信数据空间,赋能全域数字化转型
    的头像 发表于 10-14 09:29 2243次阅读
    城市<b class='flag-5'>一张</b>网,以数据之桥擎托未来

    一张图搞懂LDO的硬件设计和应用

    存在误解,这些误解往往会导致设计失败。  ” 我们先通过一张图来概括 LDO 的应用: 线性稳压电源与 LDO 先澄清个基础的概念 : LDO 是线性稳压电源的种 ,但不是所有线性稳压电源都是 LDO。两者都是 通过 反馈控
    的头像 发表于 09-23 17:22 9019次阅读
    <b class='flag-5'>一张</b>图搞懂LDO的硬件设计和应用

    分享---储能UI界面能量流动动画实现方法

    工程,工程分辨率选中1024*600 设备型号选择 HMT070ETA-D 创建工程后,新建个页面PG0000 导入一张背景图,并此图片设置为PG0000页面的背景图 第2步:建立动画
    发表于 09-02 18:22

    告别多设备!揭秘QM系列闪测仪如何一键搞定多元检测

    QM 系列一键闪测仪作为方案核心,搭载双视野双远心镜头与 2000 万像素 CMOS 传感器,测量精度可达 ±1μm。其内置的 AI 深度学习系统经过海量工业样本训练,能一键识别 5000 个测量
    的头像 发表于 08-11 13:43 1259次阅读
    告别多设备!揭秘QM系列闪测仪如何<b class='flag-5'>一键</b>搞定多元检测

    突破堆叠瓶颈:三星电子拟于16层HBM导入混合合技术

    成为了全球存储芯片巨头们角逐的焦点。三星电子作为行业的领军企业,直致力于推动 HBM 技术的革新。近日有消息传出,三星电子准备从 16 层 HBM 开始引入混合合技术,这
    的头像 发表于 07-24 17:31 1250次阅读
    突破堆叠瓶颈:<b class='flag-5'>三星</b>电子拟于16层HBM导入混合<b class='flag-5'>键</b>合技术

    HarmonyOS应用一键置灰指南

    一键置灰通常应用于如下场景 1. 重大悼念活动: 在国家发生重大灾难、事故或举行悼念日等特殊时期,为了表达对逝者的尊重和哀悼,许多 APP 会将界面置灰。例如,在些地震、空难等灾难事件发生后,以及
    的头像 发表于 06-27 00:08 775次阅读