0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

设计非对称式互信息估计器减少音频向视频模态表达的不确定性

牵手一起梦 来源:中科院自动化 作者:佚名 2020-05-09 14:51 次阅读

随着近年来音视频生成技术的不断发展,“虚拟主播”逐渐走入人们视野,并以其在虚拟客服、远程会议、电影剪辑等现实应用场景中的重要作用而获得了社会各界的广泛关注。该技术旨在对输入的音频预测相应口型,从而生成指定或任意人物的自然而准确的面部说话视频。近日,中科院自动化所智能感知与计算研究中心为此提出了一种新颖的音视频协同计算方法,并重点解决了此前难以达成的任意人物协同生成问题。

该方法一方面实现了利用语音驱动任意对象的高清视频生成,另一方面在正脸、侧脸等多种场景下均显著提升了生成视频质量。目前,该成果已被IJCAI 2020大会接收。

由于音视频模态之间差异性等问题,这项技术目前仍然存在着众多挑战。以往的研究方法往往将重点放在了模态内之间,如只关注了视频帧之间的损失约束,却忽略了音视频模态间最重要的问题之一:如何将音频信息高效充分地表达入视频模态?同时由于人物与人物之间的个体差异,将同一模型应用于任意人物视频生成也存在较大的挑战。

为解决上述问题,团队精心设计了一个非对称式互信息估计器(Asymmetric Mutual Information Estimator, AMIE),以构建音视频模态间的约束。如图1示,输入一对音频与人脸图像数据,互信息估计器输出预测的互信息值。在这里,该方法使用Jensen-Shannon表示形式来改善互信息计算方式,使其更好地应用于神经网络。通过这样的互信息估计方式,该方法最大化音频与视频模态之间的互信息,减少音频向视频模态表达的不确定性,并以此获得音频和视频信息之间的跨模态一致性,使得生成视频中人物的口型更加准确自然。

设计非对称式互信息估计器减少音频向视频模态表达的不确定性

该方法在LRW和GRID基础数据集上进行了实验验证。图2中的结果表明该方法生成的口型准确度高,且能够有效适应不同肤色与嘴唇形状差异。表1的量化结果显示该方法在常用的对比指标上的优越性能。

该方法有能力对不存在于数据集中的任意人物进行视频合成,并能够有效处理如姿态表情、性别差异等变化因素(见图3)。例如,输入一段女性语音(图中第二行),该方法分别生成了现实场景的同性别人脸视频(图中第一行),和跨性别人脸视频(图中第三行)。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    28

    文章

    2600

    浏览量

    79969
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98743
  • 视频
    +关注

    关注

    6

    文章

    1891

    浏览量

    71887
收藏 人收藏

    评论

    相关推荐

    海信马晓龙:坚定长期主义的战略定力,激发“确定性”增长的内生动力

    近年来,在内外因叠加影响下,智慧交通行业充满了变数。当不确定性成为常态,如何驱散迷雾走向增长?这是每一个智慧交通企业必须解决的难题。 选择用什么答案来面对这个难题,决定了企业迎战风浪的命运,海信智慧
    的头像 发表于 03-21 11:38 78次阅读
    海信马晓龙:坚定长期主义的战略定力,激发“<b class='flag-5'>确定性</b>”增长的内生动力

    上海交大科研团队使用Moku:pro推进在量子光学实验中的多参数估计

    几乎每个对物理学稍有兴趣的人都听说过海森堡不确定性原理。其最著名的假设同时涉及到粒子动量和位置的基本不确定性,即不确定性的乘积有一个下限:提高对一个值的测量精度通常会降低对另一个值的精度。纵使接近
    的头像 发表于 02-19 14:00 80次阅读
    上海交大科研团队使用Moku:pro推进在量子光学实验中的多参数<b class='flag-5'>估计</b>

    智能制造的本质是解决不确定性

    6月底去日本AVEX研学时,这家企业特别关注4M的变化,4M变化是指企业采用了新设备,来了新员工,用了新材料,采用新工艺方法,AVEX认为只要有变化,就一定会影响产品的质量。为了减少变化的影响,AVEX专门制定了4M每日的二维巡检表。
    的头像 发表于 01-08 15:56 221次阅读
    智能制造的本质是解决<b class='flag-5'>不确定性</b>

    三星电子急签WOLED订单:为应对LCD供应不确定性

     尽管去年三星电子从LG Display购买的W-OLED电视面板数量有限,但随着市场不确定性的上升和供应链问题的加剧,三星电子正在调整策略,寻求更多元化的供应来源。
    的头像 发表于 01-03 15:10 569次阅读

    “国产双系统”出炉,RK3568J非对称AMP:Linux+RTOS/裸机

    ,既可各自独立运行不同的任务又可多个核心之间进行核间通信。 随着对嵌入系统要求的不断提高,非对称AMP架构如今已成为一种新选择,主要应用于工业领域,如工业PLC、运动控制、机器人控制
    发表于 12-01 09:35

    消除热电偶温度测量中的不确定性(使用AD594/AD595)

    电子发烧友网站提供《消除热电偶温度测量中的不确定性(使用AD594/AD595).pdf》资料免费下载
    发表于 11-23 11:34 0次下载
    消除热电偶温度测量中的<b class='flag-5'>不确定性</b>(使用AD594/AD595)

    乌卡时代确定性稀缺,企业多云战略最需看中什么?

    双十一刚过,云服务商宕机导致大面积故障的新闻就引爆全网,再一次引发全网关于云计算安全可靠的大讨论。 在一个充满着复杂性、不稳定性不确定性的乌卡时代,云故障频发似乎已发展成一种“常态”,让企业对于
    的头像 发表于 11-23 10:28 120次阅读

    力控机器人接触力滤波与估计

    力控机器人本身关节具有力传感器,可为什么还需要接触力滤波和估计呢?这是不是有些多余?显然是不是的,本篇博文总结下力控机器人接触力滤波与估计的一些原因: 1.环境噪声和不确定性:在力控机器人与环境进行
    的头像 发表于 11-10 17:01 260次阅读

    大规模确定性网络技术分析与展望

    确定性网络可以分为不同的技术路线,不同的技术路线往往从不同的层次切入来构建确定性网络,借助分层技术图谱可以清晰、快速地理清各个技术路线相关技术间的关系,其中不同技术工作或适应在不同的网络层次和网络
    的头像 发表于 11-06 16:26 841次阅读
    大规模<b class='flag-5'>确定性</b>网络技术分析与展望

    如何实施时间敏感型网络以确保确定性通信

    作者:Jeff Shepard 确定性通信在各种应用中至关重要,如自主机器人和其他工业 4.0 系统、5G 通信、汽车高级驾驶辅助系统 (ADAS) 以及实时流服务。IEEE 802以太网标准(即时
    的头像 发表于 10-03 14:51 630次阅读
    如何实施时间敏感型网络以确保<b class='flag-5'>确定性</b>通信

    基于Transformer和深度证据学习的立体匹配框架

    作者在各种数据集上评估了所提出的ELFNet,包括Scene Flow ,KITTI 2012和KITTI 2015 和Middlebury 2014 。此外,作者进行不确定性分析,探讨模型性能和不确定性之间的关系。
    发表于 09-18 18:29 174次阅读
    基于Transformer和深度证据学习的立体匹配框架

    不确定性时代下的新投资范式

    对此,广发证券在研报中指出,全球新投资范式的表象是拥抱“确定性资产”,这种确定性一方面体现为低估低波稳定分红永续经营的确定性,另一方面是新科技创新周期的远景确定性,本质都是对
    的头像 发表于 07-10 10:51 476次阅读
    <b class='flag-5'>不确定性</b>时代下的新投资范式

    芯片Signoff是通过什么机制去控制偏差带来的不确定性风险的?

    在芯片设计、制造、应用等各个环节都不可避免地会引入偏差,其直接造成的影响是晶体管、电阻电容以及绕线等电特性的不确定性
    的头像 发表于 06-28 16:35 1577次阅读
    芯片Signoff是通过什么机制去控制偏差带来的<b class='flag-5'>不确定性</b>风险的?

    可靠性预测的不确定性是否证明强制要求双通道安全是合理的?

    在这篇博客中,我将集中讨论针对此类要求给出的最常见的理由之一,即可靠性数字的不确定性。人们的担忧主要集中在较旧的机械技术上,大多数人都认为半导体等新技术的可靠性预测更好。
    的头像 发表于 06-27 11:40 468次阅读
    可靠性预测的<b class='flag-5'>不确定性</b>是否证明强制要求双通道安全是合理的?

    实现不确定性不变的高级节点设计的未来

    片上系统 (SoC) 的设计依赖于许多预定义的目标参数,包括功耗、电源电压、时钟频率、数据路径时序和所需的物理区域。对此类静态参数的最坏情况进行仿真和建模可能会取得成功。然而,不太确定的是芯片在其整个生命周期中的行为,因为可能会应用意外的激励,软件可能会更新,工作负载活动可能会超出设计的原始意图。
    的头像 发表于 05-24 16:55 285次阅读