0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作

DPVg_AI_era 来源:lq 2019-06-23 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。所预测的动作十分自然、流畅,本文带来技术解读。

人在说话的时候,常常伴随着身体动作,不管是像睁大眼睛这样细微的动作,还是像手舞足蹈这样夸张的动作。

最近,来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。

研究人员称,只需要音频语音输入,AI就能生成与声音一致的手势。具体来说,他们进行的是人的独白到手势和手臂动作的“跨模态转换”(cross-modal translation)。相关论文发表在CVPR 2019上。

研究人员收集了10个人144小时的演讲视频,其中包括一名修女、一名化学教师和5名电视节目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演讲视频数据集

他们使用现有的算法生成代表说话者手臂和手位置的骨架图形。然后他们用这些数据训练了自己的算法,这样AI就可以根据说话者的新音频来预测手势。

图1:从语音到手势的转换的示例结果。由下往上:输入音频、由我们的模型预测的手臂和手的姿态,以及由Caroline Chan等人在“Everybody Dance Now”论文中提出的方法合成的视频片段。

研究人员表示,在定量比较中,生成的手势比从同一说话者者随机选择的手势更接近现实,也比从一种不同类型的算法预测的手势更接近现实。

图2:特定于说话者的手势数据集

说话者的手势也是独特的,对一个人进行训练并预测另一个人的手势并不奏效。将预测到的手势输入到现有的图像生成算法中,可以生成半真实的视频。

研究团队表示,他们的下一步是不仅根据声音,还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人,或者识别假视频中人的动作。

为了支持对手势和语音之间关系的计算理解的研究,他们还发布了一个大型的个人特定手势视频数据集。

方法详解:两阶段从语音预测视频

给定原始语音,我们的目标是生成说话者相应的手臂和手势动作。

我们分两个阶段来完成这项任务——首先,由于我们用于训练的唯一信号是相应的音频和姿势检测序列,因此我们使用L1回归到2D关键点的序列堆栈来学习从语音到手势的映射。

其次,为了避免回归到所有可能的手势模式的平均值,我们使用了一个对抗性鉴别器,以确保产生的动作相对于说话者的典型动作是可信的。

任何逼真的手势动作都必须在时间上连贯流畅。我们通过学习表示整个话语的音频编码来实现流畅性,该编码考虑了输入语音的完整时间范围s,并一次性(而不是递归地)预测相应姿势的整个时间序列p。

我们的完全卷积网络由一个音频编码器和一个1D UNet转换架构组成的,如图3所示。

图3:语音到手势的翻译模型。

一个 convolutional audio encoder对2D谱图进行采样并将其转换为1D信号。然后,平移模型G预测相应的2D姿势序列堆栈。对真实数据姿势的L1回归提供了一个训练信号,而一个对抗性辨别器D则确保预测的动作既具有时间一致性,又符合说话者的风格。

我们使用UNet架构进行转换,因为它的bottleneck为网络提供了过去和未来的时间上下文,而skip connections允许高频时间信息通过,从而能够预测快速移动。

定量和定性结果

图4:我们训练过的模型是特定于人的。对于每个说话者的音频输入(行),我们应用所有其他单独训练的说话者模型(列)。颜色饱和度对应于待测集上的L1损耗值(越低越好)。对于每一行,对角线上的项都是颜色最浅的,因为模型使用训练对象的输入语音效果最好。

表1:在测试集上使用L1损失的语音到手势转换任务的定量结果(越低越好)

图5:语音到手势转换的定性结果。我们展示了Dr. Kubinec(讲师)和Conan O’Brien(节目主持人)的输入音频频谱图和预测手势。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    407

    浏览量

    40091
  • 鉴别器
    +关注

    关注

    0

    文章

    8

    浏览量

    8867
  • AI算法
    +关注

    关注

    0

    文章

    274

    浏览量

    13196

原文标题:你说话时的肢体动作,AI仅凭声音就能预测 | CVPR 2019

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音芯片怎么样写入声音文讲透语音播放芯片的声音写入之道

    为真实声音的“芯”。语音芯片,又称语音IC、VoiceIC,是一种能够存储、播放乃至识别语音信号的集成电路,其核心工作过程是将语音信号通过采样转化为数字信号,存储于
    的头像 发表于 04-24 10:04 74次阅读
    语音芯片怎么样写入<b class='flag-5'>声音</b>?<b class='flag-5'>一</b>文讲透语音播放芯片的<b class='flag-5'>声音</b>写入之道

    语音芯片是如何让机器“开口说话”的?文读懂语音芯片工作原理及选型指南

    工作原理、主流类型到应用选型,为你全面解析这让机器拥有“声音”的核心元器件。、什么是语音芯片?语音芯片,顾名思义,是一种集成了语音处理功能的专用集成电路(IC),能
    的头像 发表于 04-14 08:59 116次阅读
    语音芯片是如何让机器“开口<b class='flag-5'>说话</b>”的?<b class='flag-5'>一</b>文读懂语音芯片工作原理及选型指南

    AI辅助编程设计之道:从Spec到Code工程实践

    生成-发现问题-修改需求”的循环,原本期望的效率提升,变成了另一种形式的消耗。 问题出在哪里? 、从模糊想法到可执行代码的距离 当开发者对AI说“帮我写个串口调试工具”时,输入的是
    发表于 03-16 13:33

    如何查看小智是否成功进入声音设置?

    可以通过后台页面状态、设备反馈、语音测试三方式,快速确认小智是否成功进入声音设置并生效。 、后台页面直接查看(最准) 登录小智AI后台
    发表于 02-16 06:39

    欢迎使用中国香河英茂科工豆包智能体

    中国香河英茂科工 - 豆包智能体 创建分身,分两AI智能分身(替你干活) 和数字分身(替你出镜),零基础也能快速上手。 ? AI
    发表于 02-14 07:22

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是一种声音存储、播放、录音及语音识别功能于体的专用芯片。语音识别IC的核心功能在于实现语音识别,即让机器能够“听懂”人类的语音指令,并据此执行相应操作,广泛应用于
    的头像 发表于 01-14 15:22 411次阅读
    语音识别IC分类,语音识别芯片的工作原理

    芯知识|语音芯片是如何让机器“开口说话”的?

    在智能音箱回应你的询问、车载导航提示你转弯、甚至医疗设备发出清晰提醒的瞬间,你是否曾好奇,这些机器是如何“开口说话”的?其背后的核心功臣,正是枚枚精巧的语音芯片。它如同个高度集成的“声音
    的头像 发表于 12-29 09:05 448次阅读
    芯知识|语音芯片是如何让机器“开口<b class='flag-5'>说话</b>”的?

    理论到操作实现 让AI玩具机器等智能硬件在嘈杂环境中只听我说话

    如何让ai在嘈杂的环境中仅识别你的声音呢?我们的方案即是使用声纹进行分别
    的头像 发表于 10-17 17:34 936次阅读

    语音播报芯片:让产品“开口说话”的秘密

    个语音播报,收款24元等等。不知道大家发现没有会“说话”的产品越来越多了,不仅仅是声音播放,还可以进行语音交互也就是大家说的AI对话芯片,下面小编将会带大家
    的头像 发表于 09-28 09:28 726次阅读
    语音播报芯片:让产品“开口<b class='flag-5'>说话</b>”的秘密

    如何进行声音定位?

    文章主要介绍了如何利用一种简单的TDOA算法进行声音点位,并使用数据采集卡进行声音定位的实验。
    的头像 发表于 09-23 15:47 2135次阅读
    如何进行<b class='flag-5'>声音</b>定位?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    可以被称为第一人称视角。 第一人称视角:指个实体本身在观察或经历事物时,所能够看到或感知到的角度。 二、AI感知技术与芯片 具身智能3个层
    发表于 09-18 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    一种快速反应能力,是直接的感知;灵感是一种通过思考和探索获得的创造性想法,是一种创意。 AI怎么模拟直觉与灵感呢?四、AI代替人类的假说
    发表于 09-17 11:45

    瑞芯微RK3576语音识别算法

    字符序列。与说话识别及说话确认不同,后者尝试识别或确认发出语音的说话而非其中所包含的词汇内
    的头像 发表于 08-15 15:13 2438次阅读
    瑞芯微RK3576语音识别<b class='flag-5'>算法</b>

    智能家居 “声” 临其境:NRK3301 芯片如何让家电 “会说话” 更 “懂人心”?

    打造的芯片,不仅让家电“会说话”,更能让声音交互精准触达生活需求。颗芯片藏着的交互智慧NRK3301虽采用8脚紧凑设计,却搭载了超出同类产品的硬核配置:支持MP
    的头像 发表于 08-08 09:05 990次阅读
    智能家居 “声” 临其境:NRK3301 芯片如何让家电 “会<b class='flag-5'>说话</b>” 更 “懂人心”?

    艾为芯×AI大模型重塑会思考的电子玩伴

    图1会说话的汤姆猫AI浪潮的掀起带动了场关于童年陪伴的智能进化。AI童伴——会说话的汤姆猫,正引领着童年陪伴的全新变革。汤姆猫能够与孩子进
    的头像 发表于 05-19 18:38 727次阅读
    艾为芯×<b class='flag-5'>AI</b>大模型重塑会思考的电子玩伴