0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

麻省大学研发MakeItTalk:如何让图片开口“说话”

如意 来源:新智元 作者:佚名 2020-10-20 16:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

最近,麻省大学Amherst分校的Yang Zhou博士和他的团队提出了一种具有深度结构的新方法「MakeItTalk」。给定一个音频语音信号和一个人像图像作为输入,模型便会生成说话人感知的有声动画图。

富有表现力的动画谁都想要!

面部动画在很多领域都是一项关键技术,比如制作电影、视频流、电脑游戏、虚拟化身等等。

尽管在技术上取得了无数的成就,但是创造逼真的面部动画仍然是计算机图形学的挑战。

一是整个面部表情包含了完整面部各部分之间的相互关系,面部运动和语音之间的协同是一项艰巨的任务,因为面部动态在高维多重影像中占主导地位,其中头部姿势最为关键。

二是多个说话人会有不同的说话方式,控制嘴唇一致,不足以了解说话的人的性格,还要表达不同的个性。

针对上述问题,Yang Zhou博士和他的团队提出了一种具有深度结构的新方法「 MakeItTalk」。

这是一种具有深度架构的新方法,只需要一个音频和一个面部图像作为输入,程序就会输出一个逼真的「说话的头部动画」。

下面,我们就来看看,MakeItTalk的是如何让图片「说话」的。

都给我开口说话!神奇的 MakeItTalk 是什么?

MakeItTalk是一个新的深度学习为基础的架构,能够识别面部标志、下巴、头部姿势、眉毛、鼻子,并切能够通过声音的刺激使嘴唇发生变化。

模型以LSTM 和 CNN 为基础,可以根据说话人的音调和内容,让面部表情和头部产生随动。

本质上, MakeItTalk将输入音频信号中的内容和说话人分离出来,从产生的抽象表示中提取出对应的动画。

而嘴唇和相邻面部的协同也尤为重要。说话者的信息被用来获取其他面部表情和头部动作,而这些对于生成富有表现力的头部动画是必需的。

MakeItTalk模型既可以生成逼真的人脸说话图像,也可以生成非逼真的卡通说话图像。

声音+图像=「开口说话」?MakeItTalk是如何做到的?

下面的图表显示了生成逼真的说话头像的完整方法和途径:

(1)一个音频剪辑和一个单一的面部图像可以制作一个与音频协调的,能感知说话者的头部动画。

(2)在训练阶段,使用现成的人脸检测器对输入的视频进行预处理,提取标记,从输入的音频中训练基础模型,实现语音内容转动画和标记的精确提取。

(3)为了获得高精度的运动,通过对输入音频信号的分离内容和说话人嵌入来检测标记点的估计。为此,采用语音转换神经网络对语音内容进行提取,发现语音内容。

(4)内容与说话者无关,并且捕获了嘴唇和相邻部位的常见运动,其中说话内容调节了动作的特征和说话者头部动作的剩余部分。

(5)嘴唇的大小和形状随着眼睛、鼻子和头部的运动而扩大,这取决于谁说了这个词,也就是说话人身份。

(6)最后,为了生成转换后的图像,MakeItTalk采用了两种算法进行标记到图像的合成:

对于非真实感的图像,如画布艺术或矢量艺术,一个特定的畸变方法是在 Delaunay triangulation 的基础上部署;

对于真实感图像,构建一个图像到图像的转换网络(与 pix2pix 相同) ,直接转换自然人脸。

最后,混合所有的图像帧和音频共同生成头部动画。

作者简介

该项目的作者本科毕业于上海交通大学电子工程系,然后在乔治亚理工学院获得了硕士学位,现在是马萨诸塞大学阿默斯特分校计算机图形学科学研究小组的一名计算机科学博士生。

Yang Zhou在计算机图形学和机器学习领域工作。主要致力于用深度学习技术来帮助艺术家、造型师和动画师做出更好的设计。

如果也想给你的设计加点AI的基因,Yang Zhou的论文列表绝对是个不错的选择,有很多关于动画生成和多模态深度学习的研究。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    31

    文章

    3228

    浏览量

    86332
  • 模型
    +关注

    关注

    1

    文章

    3818

    浏览量

    52269
  • 图片
    +关注

    关注

    0

    文章

    203

    浏览量

    16615
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ETHERNET IP转MODBUS RTU:罗克韦尔对台达“开口说话”的巴掌翻译官

    ETHERNET IP转MODBUS RTU:罗克韦尔对台达“开口说话”的巴掌翻译官 某化工厂的设备车间里,罗克韦尔PLC与台达变频器面面相觑——一个讲着EtherNet/IP,一个只认
    的头像 发表于 04-14 14:21 124次阅读
    ETHERNET IP转MODBUS RTU:<b class='flag-5'>让</b>罗克韦尔对台达“<b class='flag-5'>开口说话</b>”的巴掌翻译官

    语音芯片是如何机器“开口说话”的?一文读懂语音芯片工作原理及选型指南

    在智能家居设备应声而动、车载导航精准报出路口、电子玩具发出悦耳声音的每一个瞬间,你是否好奇:这些机器究竟是如何“开口说话”的?答案就藏在一枚枚看似不起眼却功能强大的语音芯片之中。今天,我们就从
    的头像 发表于 04-14 08:59 115次阅读
    语音芯片是如何<b class='flag-5'>让</b>机器“<b class='flag-5'>开口说话</b>”的?一文读懂语音芯片工作原理及选型指南

    WT2003B单芯片:如何刷牙这件小事,变得不一样!

    当电动牙刷学会"开口说话"——WT2003B单芯片如何刷牙这件小事,变得不一样小伙伴们,又到了我们的#唯创WT语音芯片小讲堂时间!今天我们要聊的,是一个每天都会发生在你浴室
    的头像 发表于 03-26 18:04 207次阅读
    WT2003B单芯片:如何<b class='flag-5'>让</b>刷牙这件小事,变得不一样!

    给设备装个 “麦克风”:沉默的机器开口说话,数据全采集

    工业数字化转型的核心,从来不是追求复杂技术,而是数据产生价值。给设备装“麦克风”,本质是打通设备与运维人员的沟通通道,沉默的机器主动传递运行信号,用精准数据替代经验判断。
    的头像 发表于 01-16 10:50 307次阅读
    给设备装个 “麦克风”:<b class='flag-5'>让</b>沉默的机器<b class='flag-5'>开口说话</b>,数据全采集

    设备运维管理平台工厂设备高效运转

    、停机损失大”的恶性循环。对此,数之能提供设备运维管理平台解决方案,推动工厂运维从“被动救火”向“主动防控”全面升级。 从被动抢修到主动预防:设备"开口说话" 传统运维依赖人工巡检与经验判断,故障响应往往滞后。设备
    的头像 发表于 01-06 14:02 286次阅读
    设备运维管理平台<b class='flag-5'>让</b>工厂设备高效运转

    钉钉正式开源HarmonyOS图片编辑组件

    近日,由钉钉团队自主研发的“HarmonyOS图片编辑组件”正式上线OpenHarmony三方库中心仓并开源。作为一款填补鸿蒙社区图像处理领域空白的重量级组件,该方案基于HarmonyOS
    的头像 发表于 01-05 09:58 675次阅读

    芯知识|语音芯片是如何机器“开口说话”的?

    在智能音箱回应你的询问、车载导航提示你转弯、甚至医疗设备发出清晰提醒的瞬间,你是否曾好奇,这些机器是如何“开口说话”的?其背后的核心功臣,正是一枚枚精巧的语音芯片。它如同一个高度集成的“声音翻译官
    的头像 发表于 12-29 09:05 448次阅读
    芯知识|语音芯片是如何<b class='flag-5'>让</b>机器“<b class='flag-5'>开口说话</b>”的?

    选择开口式互感器时要考虑哪些因素?

    选择开口式互感器需围绕测量准确性、安装适配性、环境耐受性三大核心,确保其既能精准采集数据,又能安全稳定运行。
    的头像 发表于 10-27 18:15 1476次阅读

    语音播报芯片:产品“开口说话”的秘密

    个语音播报,收款24元等等。不知道大家发现没有会“说话”的产品越来越多了,不仅仅是声音播放,还可以进行语音交互也就是大家说的AI对话芯片,下面小编将会带大家一起了解语音播报背后的那些芯片。   机器发出固定声音
    的头像 发表于 09-28 09:28 726次阅读
    语音播报芯片:<b class='flag-5'>让</b>产品“<b class='flag-5'>开口说话</b>”的秘密

    二次元玩具 “开口说话”!N9400 芯片为你的周边注入灵魂

    还在为二次元周边玩具缺乏互动感发愁?想手办、盲盒、扭蛋自带角色原声却被成本卡住?广州九芯电子——深耕电子芯片15年的源头工厂,带着爆款语音播放芯片N9400来了!专为二次元玩具厂家量身定制,用硬核
    的头像 发表于 08-13 14:03 883次阅读
    <b class='flag-5'>让</b>二次元玩具 “<b class='flag-5'>开口说话</b>”!N9400 芯片为你的周边注入灵魂

    智能家居 “声” 临其境:NRK3301 芯片如何家电 “会说话” 更 “懂人心”?

    打造的芯片,不仅家电“会说话”,更能让声音交互精准触达生活需求。一颗芯片藏着的交互智慧NRK3301虽采用8脚紧凑设计,却搭载了超出同类产品的硬核配置:支持MP
    的头像 发表于 08-08 09:05 990次阅读
    智能家居 “声” 临其境:NRK3301 芯片如何<b class='flag-5'>让</b>家电 “会<b class='flag-5'>说话</b>” 更 “懂人心”?

    协议转换魔法师”:Modbus转Profinet网关如何变频器“开口说话

    登场!它就像一位精通多种语言的翻译官,能够把Modbus协议的“方言”准确地翻译成Profinet协议的“官方语言”,变频器和控制系统能够愉快地交流起来。 想象一下,变频器就像一个只会说中文的“技术宅
    发表于 07-25 15:31

    ##DevEco Studio##如何模拟器里有图片?【图片下载法】

    ​ API9和API12在模拟器上,有一个巨大的区别,那就是API9(开发工具3的版本),他的模拟器里有一个拍照功能(再往前的版本里甚至还有浏览器,可以通过浏览器下载图片),可以通过拍照功能让相册里
    发表于 06-29 22:51

    南京工业大学:仿生触觉传感系统机器人拥有“人类指尖”般的细腻感知

    宏博士,联合南开大学、复旦大学、金陵科技学院等单位众多合作者,在《Advanced Materials》发表重磅研究成果,研发出一种仿生纺织触觉传感器及系统,首次在单一器件中实现静态力与动态振动的高精度同步感知,
    的头像 发表于 06-14 17:32 1049次阅读
    南京工业<b class='flag-5'>大学</b>:仿生触觉传感系统<b class='flag-5'>让</b>机器人拥有“人类指尖”般的细腻感知

    会“说话”的空气管家:NRK3301加湿器音箱秒变智能生活中枢

    告别繁琐操作,一句‘打开加湿器’就能享受舒适湿度,NRK3301语音模块加湿器音箱秒懂你的需求,智能生活从此开口即来。
    的头像 发表于 06-12 15:11 955次阅读
    会“<b class='flag-5'>说话</b>”的空气管家:NRK3301<b class='flag-5'>让</b>加湿器音箱秒变智能生活中枢