0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作

DPVg_AI_era 来源:lq 2019-06-23 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。所预测的动作十分自然、流畅,本文带来技术解读。

人在说话的时候,常常伴随着身体动作,不管是像睁大眼睛这样细微的动作,还是像手舞足蹈这样夸张的动作。

最近,来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。

研究人员称,只需要音频语音输入,AI就能生成与声音一致的手势。具体来说,他们进行的是人的独白到手势和手臂动作的“跨模态转换”(cross-modal translation)。相关论文发表在CVPR 2019上。

研究人员收集了10个人144小时的演讲视频,其中包括一名修女、一名化学教师和5名电视节目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演讲视频数据集

他们使用现有的算法生成代表说话者手臂和手位置的骨架图形。然后他们用这些数据训练了自己的算法,这样AI就可以根据说话者的新音频来预测手势。

图1:从语音到手势的转换的示例结果。由下往上:输入音频、由我们的模型预测的手臂和手的姿态,以及由Caroline Chan等人在“Everybody Dance Now”论文中提出的方法合成的视频片段。

研究人员表示,在定量比较中,生成的手势比从同一说话者者随机选择的手势更接近现实,也比从一种不同类型的算法预测的手势更接近现实。

图2:特定于说话者的手势数据集

说话者的手势也是独特的,对一个人进行训练并预测另一个人的手势并不奏效。将预测到的手势输入到现有的图像生成算法中,可以生成半真实的视频。

研究团队表示,他们的下一步是不仅根据声音,还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人,或者识别假视频中人的动作。

为了支持对手势和语音之间关系的计算理解的研究,他们还发布了一个大型的个人特定手势视频数据集。

方法详解:两阶段从语音预测视频

给定原始语音,我们的目标是生成说话者相应的手臂和手势动作。

我们分两个阶段来完成这项任务——首先,由于我们用于训练的唯一信号是相应的音频和姿势检测序列,因此我们使用L1回归到2D关键点的序列堆栈来学习从语音到手势的映射。

其次,为了避免回归到所有可能的手势模式的平均值,我们使用了一个对抗性鉴别器,以确保产生的动作相对于说话者的典型动作是可信的。

任何逼真的手势动作都必须在时间上连贯流畅。我们通过学习表示整个话语的音频编码来实现流畅性,该编码考虑了输入语音的完整时间范围s,并一次性(而不是递归地)预测相应姿势的整个时间序列p。

我们的完全卷积网络由一个音频编码器和一个1D UNet转换架构组成的,如图3所示。

图3:语音到手势的翻译模型。

一个 convolutional audio encoder对2D谱图进行采样并将其转换为1D信号。然后,平移模型G预测相应的2D姿势序列堆栈。对真实数据姿势的L1回归提供了一个训练信号,而一个对抗性辨别器D则确保预测的动作既具有时间一致性,又符合说话者的风格。

我们使用UNet架构进行转换,因为它的bottleneck为网络提供了过去和未来的时间上下文,而skip connections允许高频时间信息通过,从而能够预测快速移动。

定量和定性结果

图4:我们训练过的模型是特定于人的。对于每个说话者的音频输入(行),我们应用所有其他单独训练的说话者模型(列)。颜色饱和度对应于待测集上的L1损耗值(越低越好)。对于每一行,对角线上的项都是颜色最浅的,因为模型使用训练对象的输入语音效果最好。

表1:在测试集上使用L1损失的语音到手势转换任务的定量结果(越低越好)

图5:语音到手势转换的定性结果。我们展示了Dr. Kubinec(讲师)和Conan O’Brien(节目主持人)的输入音频频谱图和预测手势。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    403

    浏览量

    39485
  • 鉴别器
    +关注

    关注

    0

    文章

    8

    浏览量

    8856
  • AI算法
    +关注

    关注

    0

    文章

    270

    浏览量

    13055

原文标题:你说话时的肢体动作,AI仅凭声音就能预测 | CVPR 2019

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    理论到操作实现 让AI玩具机器等智能硬件在嘈杂环境中只听我说话

    如何让ai在嘈杂的环境中仅识别你的声音呢?我们的方案即是使用声纹进行分别
    的头像 发表于 10-17 17:34 491次阅读

    语音播报芯片:让产品“开口说话”的秘密

    个语音播报,收款24元等等。不知道大家发现没有会“说话”的产品越来越多了,不仅仅是声音播放,还可以进行语音交互也就是大家说的AI对话芯片,下面小编将会带大家
    的头像 发表于 09-28 09:28 381次阅读
    语音播报芯片:让产品“开口<b class='flag-5'>说话</b>”的秘密

    如何进行声音定位?

    文章主要介绍了如何利用一种简单的TDOA算法进行声音点位,并使用数据采集卡进行声音定位的实验。
    的头像 发表于 09-23 15:47 1044次阅读
    如何进行<b class='flag-5'>声音</b>定位?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    可以被称为第一人称视角。 第一人称视角:指个实体本身在观察或经历事物时,所能够看到或感知到的角度。 二、AI感知技术与芯片 具身智能3个层
    发表于 09-18 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    一种快速反应能力,是直接的感知;灵感是一种通过思考和探索获得的创造性想法,是一种创意。 AI怎么模拟直觉与灵感呢?四、AI代替人类的假说
    发表于 09-17 11:45

    瑞芯微RK3576语音识别算法

    字符序列。与说话识别及说话确认不同,后者尝试识别或确认发出语音的说话而非其中所包含的词汇内
    的头像 发表于 08-15 15:13 1853次阅读
    瑞芯微RK3576语音识别<b class='flag-5'>算法</b>

    智能家居 “声” 临其境:NRK3301 芯片如何让家电 “会说话” 更 “懂人心”?

    打造的芯片,不仅让家电“会说话”,更能让声音交互精准触达生活需求。颗芯片藏着的交互智慧NRK3301虽采用8脚紧凑设计,却搭载了超出同类产品的硬核配置:支持MP
    的头像 发表于 08-08 09:05 625次阅读
    智能家居 “声” 临其境:NRK3301 芯片如何让家电 “会<b class='flag-5'>说话</b>” 更 “懂人心”?

    从代码到声音,Air8000 TTS开源应用开启创作新纪元!

    转语音)——是一种将书面文本转换为人类可听语音的技术,通过算法和模型模拟人类发声,实现机器“说话”。其核心目标是生成自然、流畅且富有表现力的语音。   TTS可广泛应用于各个领域,通过将文字转化为自然语音提升交互效率与包容性:
    的头像 发表于 06-27 17:06 391次阅读
    从代码到<b class='flag-5'>声音</b>,Air8000 TTS开源应用开启创作新纪元!

    艾为芯×AI大模型重塑会思考的电子玩伴

    图1会说话的汤姆猫AI浪潮的掀起带动了场关于童年陪伴的智能进化。AI童伴——会说话的汤姆猫,正引领着童年陪伴的全新变革。汤姆猫能够与孩子进
    的头像 发表于 05-19 18:38 473次阅读
    艾为芯×<b class='flag-5'>AI</b>大模型重塑会思考的电子玩伴

    光伏智慧运维系统让电站自己说话和思考

           光伏智慧运维系统让电站自己说话和思考        太阳能电站就像个大家族,由成千上万块太阳能板、逆变器、线路等组成。过去,要管理这么大的家族,只能靠人工每天去现场检查,效率低还容易
    的头像 发表于 03-27 17:01 615次阅读
    光伏智慧运维系统让电站自己<b class='flag-5'>说话</b>和思考

    AI算法托管平台是什么

    AI算法托管平台是一种提供AI模型运行、管理和优化等服务的云端或边缘计算平台。下面,AI部落小编带您详细了解
    的头像 发表于 03-06 10:22 836次阅读

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    ,由大量的逻辑门和触发器组成,可以通过编程定制其功能和连接。FPGA的灵活性和高性能使其在多个领域得到了广泛应用。 1.FPGA的定义 FPGA是一种集成电路,可以在制造后由用户通
    发表于 03-03 11:21

    AI赋能边缘网关:开启智能时代的新蓝海

    ,准确率达到99.9%。 这技术革新正在创造巨大的商业价值。在智慧城市领域,AI边缘网关可以实现交通流量实时分析、违章行为智能识别;在工业互联网中,能够实现设备预测性维护、生产工艺优
    发表于 02-15 11:41

    名单公布!【书籍评测活动NO.55】AI Agent应用与项目实战

    出来,当前的AI Agent并不仅仅是简单的对话机器根据固定流程的自动化程序,而是成为了一种能够自主完成任务的智能体,它正在迅速改变人类的工作和生活方式。其核心特性包括自主性、学习
    发表于 01-13 11:04

    中国移动与南京大学合作研发高保真2D数字说话系统

    近日,中国移动宣布了项重要合作成果——联合南京大学团队成功研发出高保真2D数字说话驱动系统。 作为全球用户规模最大的通信运营商,中国移动每年的客户服务运营成本居高不下。尽管智能语音客服已得到
    的头像 发表于 12-13 11:32 1455次阅读