0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

设计非对称式互信息估计器减少音频向视频模态表达的不确定性

牵手一起梦 来源:中科院自动化 作者:佚名 2020-05-09 14:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着近年来音视频生成技术的不断发展,“虚拟主播”逐渐走入人们视野,并以其在虚拟客服、远程会议、电影剪辑等现实应用场景中的重要作用而获得了社会各界的广泛关注。该技术旨在对输入的音频预测相应口型,从而生成指定或任意人物的自然而准确的面部说话视频。近日,中科院自动化所智能感知与计算研究中心为此提出了一种新颖的音视频协同计算方法,并重点解决了此前难以达成的任意人物协同生成问题。

该方法一方面实现了利用语音驱动任意对象的高清视频生成,另一方面在正脸、侧脸等多种场景下均显著提升了生成视频质量。目前,该成果已被IJCAI 2020大会接收。

由于音视频模态之间差异性等问题,这项技术目前仍然存在着众多挑战。以往的研究方法往往将重点放在了模态内之间,如只关注了视频帧之间的损失约束,却忽略了音视频模态间最重要的问题之一:如何将音频信息高效充分地表达入视频模态?同时由于人物与人物之间的个体差异,将同一模型应用于任意人物视频生成也存在较大的挑战。

为解决上述问题,团队精心设计了一个非对称式互信息估计器(Asymmetric Mutual Information Estimator, AMIE),以构建音视频模态间的约束。如图1示,输入一对音频与人脸图像数据,互信息估计器输出预测的互信息值。在这里,该方法使用Jensen-Shannon表示形式来改善互信息计算方式,使其更好地应用于神经网络。通过这样的互信息估计方式,该方法最大化音频与视频模态之间的互信息,减少音频向视频模态表达的不确定性,并以此获得音频和视频信息之间的跨模态一致性,使得生成视频中人物的口型更加准确自然。

设计非对称式互信息估计器减少音频向视频模态表达的不确定性

该方法在LRW和GRID基础数据集上进行了实验验证。图2中的结果表明该方法生成的口型准确度高,且能够有效适应不同肤色与嘴唇形状差异。表1的量化结果显示该方法在常用的对比指标上的优越性能。

该方法有能力对不存在于数据集中的任意人物进行视频合成,并能够有效处理如姿态表情、性别差异等变化因素(见图3)。例如,输入一段女性语音(图中第二行),该方法分别生成了现实场景的同性别人脸视频(图中第一行),和跨性别人脸视频(图中第三行)。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    31

    文章

    3228

    浏览量

    86373
  • 神经网络
    +关注

    关注

    42

    文章

    4844

    浏览量

    108201
  • 视频
    +关注

    关注

    6

    文章

    2014

    浏览量

    75195
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    请教:6G 确定性通信原型验证,FPGA+SDR 方案该怎么搭?

    大家好。 目前在做6G 确定性通信的算法验证,需要从仿真走向实物原型,想和各位前辈交流下原型验证平台的选型与实现思路。 当前目标: 验证硬实时、低时延、有界调度机制 支持亚毫秒级切换、零信令、空口
    发表于 04-11 10:24

    戴尔PowerScale文件存储系统专为数据生命周期灵活性而设计

    2026年,几乎所有企业的IT架构都在经历一个绕不开的现实:成本不确定性正在快速上升。
    的头像 发表于 02-05 15:04 568次阅读

    盘点国内半导体行业中那些在2025年被终止的并购

    终止潮背后:IPO重启、估值体系错位、不确定性的三重博弈
    的头像 发表于 01-07 11:00 1384次阅读

    DP83826:确定性、低延迟、低功耗工业以太网PHY的卓越之选

    DP83826:确定性、低延迟、低功耗工业以太网PHY的卓越之选 在工业以太网领域,对于高性能、高可靠性物理层收发的需求日益增长。DP83826作为一款符合IEEE 802.3 10BASE
    的头像 发表于 12-17 16:15 516次阅读

    DP83826Ax工业以太网PHY:确定性、低延迟与低功耗的完美融合

    DP83826Ax工业以太网PHY:确定性、低延迟与低功耗的完美融合 在工业以太网领域,对于高性能、高可靠性物理层收发的需求与日俱增。DP83826Ax作为一款单端口10/100Mbps以太网
    的头像 发表于 12-15 15:20 601次阅读

    DP83826Ax:确定性、低延迟工业以太网PHY的深度解析

    DP83826Ax:确定性、低延迟工业以太网PHY的深度解析 在工业以太网领域,对于物理层收发的性能要求愈发严苛,尤其是在实时性、低延迟和低功耗等方面。DP83826Ax作为一款符合
    的头像 发表于 12-15 15:20 575次阅读

    涡轮部件多源不确定性机理与分类体系研究:从几何变异到认知局限的系统解析

    涡轮部件作为航空发动机和燃气轮机的核心组成部分,其性能直接决定了整个动力系统的效率、可靠性与寿命。在实际运行环境中,涡轮部件的气动与换热性能往往与设计预期存在显著差异,这种差异主要源于全寿命周期中存在的多源不确定性因素。
    的头像 发表于 11-12 14:29 777次阅读
    涡轮部件多源<b class='flag-5'>不确定性</b>机理与分类体系研究:从几何变异到认知局限的系统解析

    4种神经网络不确定性估计方法对比与代码实现

    患者血压,假设输出是120/80这样的正常值,表面看没问题。但如果模型其实对这个预测很不确定呢?这时候光看数值就不够了。神经网络有几种方法可以在给出预测的同时估计
    的头像 发表于 11-10 10:41 735次阅读
    4种神经网络<b class='flag-5'>不确定性</b><b class='flag-5'>估计</b>方法对比与代码实现

    寻迹智行AMR融合RFID识别技术,为柔性搬运注入“确定性&quot;

    在智能物流与制造业不断追求高效与柔性的今天,自主移动机器人(AMR)已成为革新场内物流的核心力量。其“柔性”特质——灵活部署、智能调度、自主避障——完美应对了现代生产中的不确定性
    的头像 发表于 10-27 14:34 469次阅读
    寻迹智行AMR融合RFID识别技术,为柔性搬运注入“<b class='flag-5'>确定性</b>&quot;

    自动驾驶端到端大模型为什么会有不确定性

    。为了能让自动驾驶汽车做出正确、安全且符合逻辑的行驶动作,端到端大模型被提了出来。 端到端大模型把从传感输入到控制输出的任务尽可能用一个大网络来完成,其优点是能够直接学习复杂映射,省去繁琐的中间模块,但代价是系统的
    的头像 发表于 09-28 09:20 1042次阅读
    自动驾驶端到端大模型为什么会有<b class='flag-5'>不确定性</b>?

    非对称密钥生成和转换规格详解

    生成 以字符串参数生成RSA密钥,具体的“字符串参数”由“RSA密钥类型”和“素数个数”使用符号“|”拼接而成,用于在创建非对称密钥生成器时,指定密钥规格。 说明:生成RSA非对称密钥时,默认素数为2
    发表于 09-01 07:50

    虹科干货 | 拆解TSN四大支柱:从「尽力而为」到工业实践的确定性网络

    ,基于CSMA/CD机制的传统以太网暴露出致命缺陷——不确定性的延迟和抖动。正是在这样的背景下,时间敏感网络(TSN)应运而生。*不想逐字读长文?点击收听本文播客TSN并非全
    的头像 发表于 08-27 17:33 2276次阅读
    虹科干货 | 拆解TSN四大支柱:从「尽力而为」到工业实践的<b class='flag-5'>确定性</b>网络

    康谋分享 | 基于多传感数据的自动驾驶仿真确定性验证

    自动驾驶仿真测试中,游戏引擎的底层架构可能会带来非确定性的问题,侵蚀测试可信度。如何通过专业仿真平台,在多传感配置与极端天气场景中实现测试数据零差异?确定性验证方案已成为自动驾驶研发的关键突破口!
    的头像 发表于 07-02 13:17 4390次阅读
    康谋分享 | 基于多传感<b class='flag-5'>器</b>数据的自动驾驶仿真<b class='flag-5'>确定性</b>验证

    应用分享 | 精准生成和时序控制!AWG在确定性三量子比特纠缠光子源中的应用

    丹麦哥本哈根大学最新研究利用任意波形发生(AWG),成功构建保真度56%的确定性三量子比特GHZ态!AWG凭借精准的信号生成和时序控制能力,充分展现了其在量子态操控中的强大能力。
    的头像 发表于 06-06 14:06 1436次阅读
    应用分享 | 精准生成和时序控制!AWG在<b class='flag-5'>确定性</b>三量子比特纠缠光子源中的应用

    从科幻到现实:智能家居如何重塑我们的生活方式?

    随着城市化和经济不确定性加剧,智能家居市场快速增长,预计未来几年将改变。
    的头像 发表于 05-28 09:36 712次阅读
    从科幻到现实:智能家居如何重塑我们的生活方式?