0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

蒙娜丽莎一键复活 三星AI一张图片就能合成动画

电子工程师 来源:fqj 2019-05-27 17:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

还记得哈利・波特第一次来到霍格沃茨看到墙上那些既会动又会说话的挂画是多么惊讶吗?如果我们可以将挂画 “复活”,和 500 多年前的蒙娜丽莎来场穿越时空的对话会怎样呢?感谢 AI 技术,把画 “复活” 不再是梦!

名画《蒙娜丽莎的微笑》,会动了!

梦娜丽莎转过头,嘴里说着话,微微眨了眨眼,脸上带着温婉的微笑。

是的,《哈利·波特》世界中”会动的画“魔法实现了!来自三星AI中心(Samsung AI Center)和莫斯科斯的Skolkovo 科学技术研究所的一组研究人员,开发了一个能将让JPEG变GIF的AI系统。

《哈利·波特》中守卫格兰芬多学院休息室的胖夫人画像

更牛逼的是,该技术完全无需3D建模,仅需一张图片就能训练出惟妙惟肖的动画。研究人员称这种学习方式为“few-shot learning"。当然,如果有多几张照片——8张或32张——创造出来动图效果就更逼真了。比如:

爱因斯坦给你讲物理:

玛丽莲梦露和你 flirt:

本周,三星AI实验室的研究人员发表了一篇题为 “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models” 的论文,概述了这种技术。该技术基于卷积神经网络,其目标是获得一个输入源图像,模拟目标输出视频中某个人的运动,从而将初始图像转换为人物正在说话的短视频。

论文一发表马上引起轰动,毕竟这项技术创造了巨大的想象空间!

类似这样的项目有很多,所以这个想法并不特别新颖。但在这篇论文中,最有趣的是,该系统不需要大量的训练示例,而且系统只需要看一次图片就可以运行。这就是为什么它让《蒙娜丽莎》活起来。

3个神经网络,让蒙娜丽莎活起来

这项技术采用“元学习”架构,如下图所示:

图2:“让照片动起来”元学习架构

具体来说,涉及三个神经网络:

首先,嵌入式网络映射输入图像中的眼睛、鼻子、嘴巴大小等信息,并将其转换为向量;

其次,生成式网络通过绘制人像的面部地标(face landmarks)来复制人在视频中的面部表情;

第三,鉴别器网络将来自输入图像的嵌入向量粘贴到目标视频的landmark上,使输入图像能够模拟视频中的运动。

最后,计算“真实性得分”。该分数用于检查源图像与目标视频中的姿态的匹配程度。

元学习过程:只需1张输入图像

研究人员使用VoxCeleb2数据集对这个模型进行了预训练,这是一个包含许多名人头像的数据库。在这个过程中,前面描述的过程是一样的,但是这里的源图像和目标图像只是同一视频的不同帧。

因此,这个系统不是让一幅画去模仿视频中的另一个人,而是有一个可以与之比较的ground truth。通过持续训练,直到生成的帧与训练视频中的真实帧十分相似为止。

预训练阶段允许模型在只有很少示例的输入上工作。哪怕只有一张图片可用时,结果也不会太糟,但当有更多图片可用时,结果会更加真实。

实验和结果

研究人员使用2个数据集分别进行定量和定性评估:VoxCeleb1数据集用于与基准模型进行比较,VoxCeleb2用于展示他们所提出方法的效果。

研究人员在三种不同的设置中将他们的模型与基准模型进行了比较,使用fine-tuning集中的1帧、8帧和32帧。

蒙娜丽莎一键复活 三星AI一张图片就能合成动画

表1:few-shot learning设置下不同方法的定量比较

结果如表1上半部分所示,基线模型在两个相似性度量上始终优于我们的方法。

不过,这些指标不能完全代表人类的感知,因为这两种方法都会产生恐怖谷伪影,从图3的定性比较和用户研究结果可以看出。

另一方面,余弦相似度与视觉质量有更好的相关性,但仍然倾向于模糊、不太真实的图像,这也可以通过表1-Top与图3中的比较结果看出。

图3:使用1张、8张和32张训练图像时的三个示例。系统采用一个源图像(第1列),并尝试将该图像映射到ground truth帧中的相同位置(第2列)。研究人员将他们的结果与X2Face、PixtopixHD模型进行了比较。

大规模的结果。

随后,我们扩展可用的数据,并在更大的VoxCeleb2数据集中训练我们的方法。

下面是2个变体模型的结果:

图4:在VoxCeleb2数据集中的最佳模型的结果。

同样,训练帧的数量是T(左边的数字),第1列是示例训练帧。第2列是ground truth图像,后3列分别是我们的FF feed-forward 模型及微调前后的结果。虽然 feed-forward变体的学习更快速,但fine-tuning 最终提供了更好的真实感和保真度。

最后,我们展示了的照片和绘画的结果。

图5:让静态照片“活”起来

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 三星电子
    +关注

    关注

    34

    文章

    15891

    浏览量

    182873
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296506

原文标题:蒙娜丽莎一键“复活”!三星AI Lab:只需一张图片就能合成动画

文章出处:【微信号:aicapital,微信公众号:全球人工智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    分享---储能UI界面能量流动动画实现方法

    工程,工程分辨率选中1024*600 设备型号选择 HMT070ETA-D 创建工程后,新建个页面PG0000 导入一张背景图,并此图片设置为PG0000页面的背景图 第2步:建立动画
    发表于 09-02 18:22

    回收三星S21指纹排线 适用于三星系列指纹模组

    深圳帝欧电子回收三星S21指纹排线,收购适用于三星S21指纹模组。回收三星指纹排线,收购三星指纹排线,全国高价回收三星指纹排线,专业求购指纹
    发表于 05-19 10:05

    全新上线IPC精彩时刻!配套On-App AI视频剪辑模板+全天候一键抓拍

    次走路、日出日落等),并一键生成带特效的专属Vlog。能够满足婴儿/宠物看护、生活娱乐、风景旅行等全场景需求,帮助用户轻松记录生活中的高光时刻!针对有视频处理需
    的头像 发表于 05-08 19:06 795次阅读
    全新上线IPC精彩时刻!配套On-App <b class='flag-5'>AI</b>视频剪辑模板+全天候<b class='flag-5'>一键</b>抓拍

    U盘一键制作

    在电脑维修中启动盘很重要,靠谱的u盘一键启动制作方法
    发表于 05-06 16:10 44次下载

    三星在4nm逻辑芯片上实现40%以上的测试良率

    三星电子在 HBM3 时期遭遇了重大挫折,将 70% 的 HBM 内存市场份额拱手送给主要竞争对手 SK 海力士,更是近年来首度让出了第大 DRAM 原厂的宝座。这迫使三星在 HBM4 上采用
    发表于 04-18 10:52

    LoRa无线一键报警安防建设方案

    SOS紧急呼叫按钮具有紧急情况下一键报警的功能,可与报警主机配合使用,支持标准LoRaWAN协议。lora紧急按钮具有紧急情况下一键报警功能,可与报警主机配合使用,支持标准LoRaWAN协议。如遇
    的头像 发表于 02-28 14:41 1017次阅读
    LoRa无线<b class='flag-5'>一键</b>报警安防建设方案

    白光直接照到dmd上,透射一张白色图片为什么会出现这么多颜色?

    白光直接照到dmd上 透射一张白色图片 为什么会出现这么多颜色 理论上不是只有向右反射出白方块吗
    发表于 02-28 07:36

    开关柜一键顺控在一键停电、一键送电中的作用

    蜀瑞创新为大家科普,开关柜一键顺控技术在一键停电和一键送电中发挥了快速响应、减少人为错误、提高安全性、简化操作流程、降低操作风险、提高送电成功率等综合优势,对于提升电力系统的运行效率、安全性以及自动化水平具有重要意义。
    的头像 发表于 02-27 09:13 1241次阅读

    DLP4500能否上传图片,然后给正向触发,每次触发就投影一张图片

    求教DLP 4500能否上传组912*1140分辨率的bmp图片,然后给正向触发,每次触发投影一张图片? 如果可以,如何操作,user‘s guide貌似没看到这种操作。附件为其中
    发表于 02-27 07:28

    用DLP4500烧录98bit位深度的相移图,3合成一张24bit,结果每一张24bit都重复投射次,这是为什么?

    你好,吴工,用DLP4500烧录98bit位深度的相移图,3合成一张24bit,结果每一张24bit都重复投射
    发表于 02-24 08:00

    DLP4710一张张加载图片显示这个速度是否能够更改?

    工程师您好,DMD一张张加载图片显示这个速度是否能够更改?在DMD上加载图片显示目前只能6帧/s。如果需要提高速度应该从哪里去考虑?谢谢回答。
    发表于 02-21 12:12

    DLP3010EVM-LC编辑固件时,选择上电投影的splash,实际上电时总会先投影一张棋盘格图片再投影设置的图片,为什么?

    在编辑dlp3010的固件时,更改了splash的四图片,并设置上电投影其中一张,实际烧录之后,evm上电总是先显示一张棋盘格图片(并不
    发表于 02-20 07:29

    UOS AI:一键解锁未来办公新姿势

    浏览新闻寻找素材,长篇大论眼花缭乱? 选中内容后 「AI随航」 图标自动显现 ,鼠标悬停图标后点击选择相应功能,几秒帮你总结内容,还能选中想要的内容一键续写润色和花式扩写! 老板夸你“效率堪比 AI
    的头像 发表于 02-19 10:54 1141次阅读
    UOS <b class='flag-5'>AI</b>:<b class='flag-5'>一键</b>解锁未来办公新姿势

    三星发布Vision AI,打造个性化AI屏幕体验

    近日,在2025年国际消费电子展(CES 2025)“First Look”活动上,三星震撼发布了其最新的科技成果——三星Vision AI。这创新技术旨在通过个性化的
    的头像 发表于 01-14 14:58 1124次阅读

    三星推出AI家电订阅俱乐部计划

    三星电子近期在韩国市场推出了项创新的AI订阅俱乐部计划,该计划旨在为消费者提供个全新的方式来体验和享受三星的高端家电及
    的头像 发表于 12-13 15:42 1063次阅读