0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

麻省大学研发MakeItTalk:如何让图片开口“说话”

如意 来源:新智元 作者:佚名 2020-10-20 16:21 次阅读

最近,麻省大学Amherst分校的Yang Zhou博士和他的团队提出了一种具有深度结构的新方法「MakeItTalk」。给定一个音频语音信号和一个人像图像作为输入,模型便会生成说话人感知的有声动画图。

富有表现力的动画谁都想要!

面部动画在很多领域都是一项关键技术,比如制作电影、视频流、电脑游戏、虚拟化身等等。

尽管在技术上取得了无数的成就,但是创造逼真的面部动画仍然是计算机图形学的挑战。

一是整个面部表情包含了完整面部各部分之间的相互关系,面部运动和语音之间的协同是一项艰巨的任务,因为面部动态在高维多重影像中占主导地位,其中头部姿势最为关键。

二是多个说话人会有不同的说话方式,控制嘴唇一致,不足以了解说话的人的性格,还要表达不同的个性。

针对上述问题,Yang Zhou博士和他的团队提出了一种具有深度结构的新方法「 MakeItTalk」。

这是一种具有深度架构的新方法,只需要一个音频和一个面部图像作为输入,程序就会输出一个逼真的「说话的头部动画」。

下面,我们就来看看,MakeItTalk的是如何让图片「说话」的。

都给我开口说话!神奇的 MakeItTalk 是什么?

MakeItTalk是一个新的深度学习为基础的架构,能够识别面部标志、下巴、头部姿势、眉毛、鼻子,并切能够通过声音的刺激使嘴唇发生变化。

模型以LSTM 和 CNN 为基础,可以根据说话人的音调和内容,让面部表情和头部产生随动。

本质上, MakeItTalk将输入音频信号中的内容和说话人分离出来,从产生的抽象表示中提取出对应的动画。

而嘴唇和相邻面部的协同也尤为重要。说话者的信息被用来获取其他面部表情和头部动作,而这些对于生成富有表现力的头部动画是必需的。

MakeItTalk模型既可以生成逼真的人脸说话图像,也可以生成非逼真的卡通说话图像。

声音+图像=「开口说话」?MakeItTalk是如何做到的?

下面的图表显示了生成逼真的说话头像的完整方法和途径:

(1)一个音频剪辑和一个单一的面部图像可以制作一个与音频协调的,能感知说话者的头部动画。

(2)在训练阶段,使用现成的人脸检测器对输入的视频进行预处理,提取标记,从输入的音频中训练基础模型,实现语音内容转动画和标记的精确提取。

(3)为了获得高精度的运动,通过对输入音频信号的分离内容和说话人嵌入来检测标记点的估计。为此,采用语音转换神经网络对语音内容进行提取,发现语音内容。

(4)内容与说话者无关,并且捕获了嘴唇和相邻部位的常见运动,其中说话内容调节了动作的特征和说话者头部动作的剩余部分。

(5)嘴唇的大小和形状随着眼睛、鼻子和头部的运动而扩大,这取决于谁说了这个词,也就是说话人身份。

(6)最后,为了生成转换后的图像,MakeItTalk采用了两种算法进行标记到图像的合成:

对于非真实感的图像,如画布艺术或矢量艺术,一个特定的畸变方法是在 Delaunay triangulation 的基础上部署;

对于真实感图像,构建一个图像到图像的转换网络(与 pix2pix 相同) ,直接转换自然人脸。

最后,混合所有的图像帧和音频共同生成头部动画。

作者简介

该项目的作者本科毕业于上海交通大学电子工程系,然后在乔治亚理工学院获得了硕士学位,现在是马萨诸塞大学阿默斯特分校计算机图形学科学研究小组的一名计算机科学博士生。

Yang Zhou在计算机图形学和机器学习领域工作。主要致力于用深度学习技术来帮助艺术家、造型师和动画师做出更好的设计。

如果也想给你的设计加点AI的基因,Yang Zhou的论文列表绝对是个不错的选择,有很多关于动画生成和多模态深度学习的研究。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    28

    文章

    2598

    浏览量

    79966
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47681
  • 图片
    +关注

    关注

    0

    文章

    203

    浏览量

    15789
收藏 人收藏

    评论

    相关推荐

    罗氏线圈与开口式互感器的区别与应用领域

    罗氏线圈和开口式互感器是电子领域中常见的传感器设备,用于测量电流和实现电能监测。本文将介绍罗氏线圈和开口式互感器的定义、工作原理、特点以及它们在不同应用领域中的异同点。 引言: 在电力系统、电子设备
    的头像 发表于 04-17 11:14 116次阅读
    罗氏线圈与<b class='flag-5'>开口</b>式互感器的区别与应用领域

    清华大学研发成功大规模干涉-衍射异构集成芯片——太极

    4月12日公布,清华大学研发出太极芯片,实现了每瓦160TOPS的高性能通用智能计算,这是该校电子工程系与自动化系共同攻克的难题。
    的头像 发表于 04-12 15:50 145次阅读

    鸿蒙开发教学-图片的引用

    该接口通过图片数据源获取图片,支持本地图片和网络图片的渲染展示。其中,src是图片的数据源。
    的头像 发表于 02-01 17:36 238次阅读
    鸿蒙开发教学-<b class='flag-5'>图片</b>的引用

    一文详解smt钢网开口要求

    一文详解smt钢网开口要求
    的头像 发表于 12-04 15:51 853次阅读

    基于GMM的实时说话人识别系统

    电子发烧友网站提供《基于GMM的实时说话人识别系统.pdf》资料免费下载
    发表于 10-08 10:19 0次下载
    基于GMM的实时<b class='flag-5'>说话</b>人识别系统

    挥起大屏可视化魔法棒,让数据开口说话

    大数据时代,我司加强了数据资源的管理和运用,更愿意以数据说话,在此背景下,大屏可视化应运而生,其可以将海量数据信息进行高效率分析与展示。 小U同学 据了解,大屏可视化是一种将数据以图形化展示
    的头像 发表于 09-29 08:15 248次阅读
    挥起大屏可视化魔法棒,让数据<b class='flag-5'>开口说话</b>

    电磁骚扰源为什么要尽量远离孔洞开口呢?

    电磁骚扰源为什么要尽量远离孔洞开口呢?  电磁骚扰源指的是任何能够生成电磁场或电磁波的设备或设施,这些电磁波可以干扰无线信号、危害人体健康或者破坏电子设备等。在现代社会中,电磁骚扰已经成为
    的头像 发表于 09-12 14:52 335次阅读

    脑机接口,帮人开口 人工智能再立新功

    据中国新闻周刊的报道消息,来自美国斯坦福大学团队和加州大学旧金山分校团队的两篇研究表明,两名无法说话的患者通过采用侵入式脑机接口(BCI),已经可以开口对话。 接入脑机接口的瘫痪患者平
    的头像 发表于 09-02 11:20 976次阅读

    龙芯“百芯计划”首款芯片发布 由河海大学研发

    近日,在2023中国软件产教融合生态发展研讨会暨中国教育数字化自主化发展论坛”期间,龙芯“百芯计划”首款芯片BX100E-HHU正式发布,该芯片是河海大学基于龙芯LoongArch指令集进行设计研发
    的头像 发表于 08-25 09:18 725次阅读
    龙芯“百芯计划”首款芯片发布 由河海<b class='flag-5'>大学</b><b class='flag-5'>研发</b>

    开口式电流互感器概述

    开口式电流互感器利用电磁感应原理进行工作。当通过开口处的导线中有交流电流流过时,产生的磁场会穿过互感器铁心,并感应到二次绕组上。根据法拉第电磁感应定律,二次绕组中会产生与一次绕组中电流相同的交流电流,但其电流值相对较小。
    的头像 发表于 07-03 16:50 2227次阅读

    AKH-0.66K开口式电流互感器

    AKH-0.66K开口式电流互感器农网改造项目,安装方便,无须拆一次母线,亦可带电AKH-0.66K系列开口式电流互感器主要应用于工业中城网、操作,不影响客户正常用电,为用户改造项目节省人力、物力
    的头像 发表于 07-03 16:43 377次阅读
    AKH-0.66K<b class='flag-5'>开口</b>式电流互感器

    WhatsApp万圣节主题RFID会说话的门铃

    电子发烧友网站提供《WhatsApp万圣节主题RFID会说话的门铃.zip》资料免费下载
    发表于 06-28 15:31 0次下载
    WhatsApp万圣节主题RFID会<b class='flag-5'>说话</b>的门铃

    创建会说话的植物开源项目

    电子发烧友网站提供《创建会说话的植物开源项目.zip》资料免费下载
    发表于 06-13 11:13 0次下载
    创建会<b class='flag-5'>说话</b>的植物开源项目

    扬杰科技与东南大学签署战略合作协议:共建宽禁带功率器件技术联合研发中心

    2023年6月6日,东南大学迎来了建校121周年纪念日。当天下午,东南大学集成电路学院揭牌仪式在南京举办。 揭牌仪式上,“ 东南大学—扬杰科技宽禁带功率器件技术联合研发中心”共建合作协
    的头像 发表于 06-08 20:05 1312次阅读
    扬杰科技与东南<b class='flag-5'>大学</b>签署战略合作协议:共建宽禁带功率器件技术联合<b class='flag-5'>研发</b>中心

    开口式和闭口式霍尔电流传感器的区别及优缺点

    相对于开口式的电流传感器,开口式只是方便了安装,但是性能会大打折扣的,除非大于300A以上的电流,对精度要求不高的场合,可以考虑开口式真有效值的电流变送器。   基本原理是,一般50A以下
    的头像 发表于 06-06 17:11 1863次阅读