一种AI算法，可以根据说话声音来预测说话人将作出怎样的肢体动作-电子发烧友网

来自UC Berkeley和MIT的研究人员开发了一种AI 算法，可以根据说话声音来预测说话人将作出怎样的肢体动作。所预测的动作十分自然、流畅，本文带来技术解读。

人在说话的时候，常常伴随着身体动作，不管是像睁大眼睛这样细微的动作，还是像手舞足蹈这样夸张的动作。

最近，来自UC Berkeley和MIT的研究人员开发了一种AI算法，可以根据说话声音来预测说话人将作出怎样的肢体动作。

研究人员称，只需要音频语音输入，AI就能生成与声音一致的手势。具体来说，他们进行的是人的独白到手势和手臂动作的“跨模态转换”(cross-modal translation)。相关论文发表在CVPR 2019上。

研究人员收集了10个人144小时的演讲视频，其中包括一名修女、一名化学教师和5名电视节目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演讲视频数据集

他们使用现有的算法生成代表说话者手臂和手位置的骨架图形。然后他们用这些数据训练了自己的算法，这样AI就可以根据说话者的新音频来预测手势。

图1：从语音到手势的转换的示例结果。由下往上：输入音频、由我们的模型预测的手臂和手的姿态，以及由Caroline Chan等人在“Everybody Dance Now”论文中提出的方法合成的视频片段。

研究人员表示，在定量比较中，生成的手势比从同一说话者者随机选择的手势更接近现实，也比从一种不同类型的算法预测的手势更接近现实。

图2：特定于说话者的手势数据集

说话者的手势也是独特的，对一个人进行训练并预测另一个人的手势并不奏效。将预测到的手势输入到现有的图像生成算法中，可以生成半真实的视频。

研究团队表示，他们的下一步是不仅根据声音，还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人，或者识别假视频中人的动作。

为了支持对手势和语音之间关系的计算理解的研究，他们还发布了一个大型的个人特定手势视频数据集。

方法详解：两阶段从语音预测视频

给定原始语音，我们的目标是生成说话者相应的手臂和手势动作。

我们分两个阶段来完成这项任务——首先，由于我们用于训练的唯一信号是相应的音频和姿势检测序列，因此我们使用L1回归到2D关键点的序列堆栈来学习从语音到手势的映射。

其次，为了避免回归到所有可能的手势模式的平均值，我们使用了一个对抗性鉴别器，以确保产生的动作相对于说话者的典型动作是可信的。

任何逼真的手势动作都必须在时间上连贯流畅。我们通过学习表示整个话语的音频编码来实现流畅性，该编码考虑了输入语音的完整时间范围s，并一次性(而不是递归地)预测相应姿势的整个时间序列p。

我们的完全卷积网络由一个音频编码器和一个1D UNet转换架构组成的，如图3所示。

图3：语音到手势的翻译模型。

一个 convolutional audio encoder对2D谱图进行采样并将其转换为1D信号。然后，平移模型G预测相应的2D姿势序列堆栈。对真实数据姿势的L1回归提供了一个训练信号，而一个对抗性辨别器D则确保预测的动作既具有时间一致性，又符合说话者的风格。

我们使用UNet架构进行转换，因为它的bottleneck为网络提供了过去和未来的时间上下文，而skip connections允许高频时间信息通过，从而能够预测快速移动。

定量和定性结果

图4：我们训练过的模型是特定于人的。对于每个说话者的音频输入(行)，我们应用所有其他单独训练的说话者模型(列)。颜色饱和度对应于待测集上的L1损耗值(越低越好)。对于每一行，对角线上的项都是颜色最浅的，因为模型使用训练对象的输入语音效果最好。

表1：在测试集上使用L1损失的语音到手势转换任务的定量结果(越低越好)

图5：语音到手势转换的定性结果。我们展示了Dr. Kubinec(讲师)和Conan O’Brien(节目主持人)的输入音频频谱图和预测手势。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音

语音

+关注

关注
3

文章
361

浏览量
37626
鉴别器

鉴别器

+关注

关注
0

文章
8

浏览量
8733
AI算法

AI算法

+关注

关注
0

文章
214

浏览量
12098

原文标题：你说话时的肢体动作，AI仅凭声音就能预测 | CVPR 2019

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

NanoEdge AI的技术原理、应用场景及优势

NanoEdge AI 是一种基于边缘计算的人工智能技术，旨在将人工智能算法应用于物联网（IoT）设备和传感器。这种技术的核心思想是将数据处理和分析从云端转移到设备本身，从而减少数据传输延迟、降低

发表于 03-12 08:09

让“聋人”看到声音行空板 —“AI助听器”

世界上有各种各样的残障人士，这些人或不能说话，或听不见声音。聋人，是听力因先天遗传或后天人为因素而受损的残疾人，也叫听力障碍者，简称听障人。根据最近的全国人口普查统计，全中国大约有2700

发表于 01-12 13:12 •158次阅读

求助：需要一个特定物品发出的声音记录系统【某一种声音的计数器】，酬劳感谢

各位大神，小弟有一个需求，就是要记录某一种声音的发生次数，这个声音发生是频率在1秒钟左右，但是不是持续发生，是某一时间发生。就是当这个

发表于 12-24 11:58

基于GMM的实时说话人识别系统

电子发烧友网站提供《基于GMM的实时说话人识别系统.pdf》资料免费下载

发表于 10-08 10:19 •0次下载

挥起大屏可视化魔法棒，让数据开口说话

大数据时代，我司加强了数据资源的管理和运用，更愿意以数据说话，在此背景下，大屏可视化应运而生，其可以将海量数据信息进行高效率分析与展示。小U同学据了解，大屏可视化是一种将数据以图形化展示

发表于 09-29 08:15 •248次阅读

挥起大屏可视化魔法棒，让数据开口<b class='flag-5'>说话</b>

一种结构化道路环境中的视觉导航系统详解

根据结构化道路环境的特点提出了一种将边沿检测和道路环境知识相结合的机器视觉算法 , 并结合基于行为响应的路径规划方法和智能预瞄控制方法 , 实现了一套基本的机器

发表于 09-25 07:23

脑机接口设计用于检测患者试图说话时的大脑活动

近日发表在《自然》杂志上的两项独立研究表明，未来，脑机接口（BCI）可以帮助因严重瘫痪而无法说话的人恢复沟通。在这两项研究中，研究人员都使用了可以接收大脑信号的大脑植入物，然后使用算法

发表于 09-04 16:40 •393次阅读

AI可以根据声音进行信息解码

根据杜伦大学、萨里大学和伦敦大学的研究人员最近发表的一篇论文显示，输入的信息可以通过手指敲击按键的声音来进行解码。

发表于 09-04 16:33 •704次阅读

AI算法有哪些？

1. 朴素贝叶斯算法（Naive Bayes）朴素贝叶斯算法是一种基于贝叶斯定理，通过计算P(Y|X)来预测X对应的Y的概率的算法。其中

发表于 08-24 15:40 •1951次阅读

ai算法和模型的区别

非常重要。本文将详细探讨AI算法和模型的区别，并解释它们在AI应用中的作用。 AI算法人工智能算法

发表于 08-08 17:35 •2795次阅读

数字功放中的限幅压限电路分析

正常情况下，音频信号的幅度有高有低，也就是说话声音有大有小，但也可能出现较长时间处于比较高的幅值的情况，幅值越高，功放输出的功率越大。

发表于 07-31 09:59 •840次阅读

电话对讲电路原理图

一个非常有用的电路谈话，您可以在广播电台，俱乐部或任何您想通过音乐说话的地方使用，而无需移动任何电位计。只需在麦克风中说话，音乐电平就会根据您的声音

发表于 07-27 18:16 •567次阅读

WhatsApp万圣节主题RFID会说话的门铃

电子发烧友网站提供《WhatsApp万圣节主题RFID会说话的门铃.zip》资料免费下载

发表于 06-28 15:31 •0次下载

DIY会说话的人形机器人头

电子发烧友网站提供《DIY会说话的人形机器人头.zip》资料免费下载

发表于 06-16 14:54 •0次下载

创建会说话的植物开源项目

电子发烧友网站提供《创建会说话的植物开源项目.zip》资料免费下载

发表于 06-13 11:13 •0次下载

搜索历史

一种AI算法，可以根据说话声音来预测说话人将作出怎样的肢体动作

评论

NanoEdge AI的技术原理、应用场景及优势

让“聋人”看到声音行空板 —“AI助听器”

求助：需要一个特定物品发出的声音记录系统【某一种声音的计数器】，酬劳感谢

基于GMM的实时说话人识别系统

挥起大屏可视化魔法棒，让数据开口说话

一种结构化道路环境中的视觉导航系统详解

脑机接口设计用于检测患者试图说话时的大脑活动

AI可以根据声音进行信息解码

AI算法有哪些？

ai算法和模型的区别

数字功放中的限幅压限电路分析

电话对讲电路原理图

WhatsApp万圣节主题RFID会说话的门铃

DIY会说话的人形机器人头

创建会说话的植物开源项目