0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研究者提出了一项新的视听分割任务

电子工程师 来源:量子位 作者:量子位 2022-08-08 16:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。

能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢?

来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务(Audio-Visual Segmentation, AVS)。

视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。

相应的,研究人员提出了第一个具有像素级标注的视听数据集AVSBench。

465bf528-16c2-11ed-ba43-dac502259ad0.png

Audio-Visual Segmentation

论文地址:

https://arxiv.org/abs/2207.05042

GitHub地址:

https://github.com/OpenNLPLab/AVSBench

项目主页:

https://opennlplab.github.io/AVSBench/

新任务、新的数据集,搞算法的又有新坑可以卷了。

467d6fa0-16c2-11ed-ba43-dac502259ad0.png

据最新放榜结果,该论文已被ECCV 2022接受。

精准锁定发声物

听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。

视听表征学习(audio-visual learning)已经催生了很多有趣的任务,比如视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVVP)、声源定位(SSL)等。

这里面既有判定音像是否描述同一事件/物体的分类任务,也有以热力图可视化大致定位发声物的任务。

但无论哪一种,离精细化的视听场景理解都差点意思。

469cc1de-16c2-11ed-ba43-dac502259ad0.png

△AVS 任务与 SSL 任务的比较

视听分割“迎难而上”,提出要准确分割出视频帧中正在发声的物体全貌——

即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。

AVSBench 数据集

要怎么研究这个新任务呢?

鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench 数据集,借助它研究了新任务的两种设置:

1、单声源(Single-source)下的视听分割
2、多声源(Multi-sources)下的视听分割

数据集中的每个视频时长5秒。

单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。

46b6a4be-16c2-11ed-ba43-dac502259ad0.png

△AVSBench单源子集的数据分布

多声源子集则包含了424个视频。

结合难易情况,单声源子集在半监督条件下进行,多声源子集则以全监督条件进行。

研究人员对AVSBench里的每个视频等间隔采样5帧,然后人工对发声体进行像素级标注。

对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注——这就是所谓的半监督和全监督。

46c54e24-16c2-11ed-ba43-dac502259ad0.png

△对单声源子集和多声源子集进行不同人工标注

这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。

一个简单的baseline方法

有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。

吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。

46e44a22-16c2-11ed-ba43-dac502259ad0.png

△视听分割框架图

这个模型遵循编码器-解码器的网络架构,输入视频帧,最终直接输出分割掩码。

另外,还有两个网络优化目标。

一是计算预测图和真实标签的损失。

而针对多声源情况,研究人员提出了掩码视听匹配损失函数,用来约束发声物和音频特征在特征空间中保持相似分布。

部分实验结果

光说不练假把式,研究人员进行了广泛实验。

首先,将视听分割与相关任务的6种方法进行了比较,研究人员选取了声源定位(SSL)、视频物体分割(VOS)、显著性物体检测(SOD)任务上的各两个SOTA方法。

实验结果表明,视听分割在多个指标下取得了最佳结果。

47032ec4-16c2-11ed-ba43-dac502259ad0.png

△和来自相关任务方法进行视听分割的对比结果

其次,研究人员进行了一系列消融实验,验证出,利用TPAVI模块,单声源和多声源设置下采用两种backbone的视听分割模型都能得到更大的提升。

4712b006-16c2-11ed-ba43-dac502259ad0.png

△引入音频的TPAVI模块,可以更好地处理物体的形状细节(左图),并且有助于分割出正确的发声物(右图)

对于新任务的视听匹配损失函数,实验还验证了其有效性。

47260c28-16c2-11ed-ba43-dac502259ad0.png

△视听匹配损失函数的有效性

One More Thing

文中还提到,AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试,其也可以用于验证声源定位模型。

研究人员在项目主页上表示,正在准备比AVSBench大10倍的AVSBench-v2。

一些视频的分割demo也上传在主页上。感兴趣的话可以前往查看~

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器视觉
    +关注

    关注

    163

    文章

    4729

    浏览量

    125014
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296685
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:ECCV 2022 | 视觉新任务!AVS:视听分割

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    易飞扬获得一项有源电缆系统的关键发明专利

    讯:易飞扬于近日获得一项专用于AI&DC 互连系统的关键发明专利。这项名为“有源电缆和通信系统”的专利,确切的商业名称为:混合技术架构等效有源电缆(Hybrid ACC+)。该专利结合了现今
    的头像 发表于 09-16 10:54 433次阅读
    易飞扬获得<b class='flag-5'>一项</b>有源电缆系统的关键发明专利

    知行科技机器人业务新获一项合作

    近日,知行科技的机器人业务新获一项合作,国内头部机器人公司委托开发背包式机器人全栈解决方案。
    的头像 发表于 09-03 18:12 623次阅读

    微双重驱动的新型直线电机研究

    摘罢:大行程、高精度,同时易于小型化的移动机构是先进制造业等领域要解决的关键问题之,综述了现有宏/微双重驱动机构和直线超声电机的研究进展和存在问题,提出了种宏微双重驱动新型直线压电
    发表于 06-24 14:17

    双定子直线振荡电机动子位移自传感技术研究

    本文主要对于种新型双定子直线振荡电机的动子位移自传感算法进行了研究。基于理论推导,建立了双定子直线振荡电机系统的数学模型,并推导出了动子位移表达公式。在此基础上,结合直线振荡电机特性提出了
    发表于 06-19 11:08

    双电机驱动卷绕式系统转速同步控制研究

    交叉耦合转速补偿方法,可以极大地降低双电机转速差,实现双电机的转速同步控制。 纯分享帖,需要可点击附件免费获取完整资料~~~*附件:双电机驱动卷绕式系统转速同步控制研究.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第
    发表于 06-19 10:56

    双电机后轮驱动混合动力汽车电子差速控制的研究

    [摘要]针对双电机后轮驱动混合动力汽车电子差速的控制问题,考虑车辆转向时轴荷转移、向心力和轮胎侧偏角的影响,以车轮的滑移率为控制目标,提出了基于门限值控制的电子差速控制策略,并在 Matlab
    发表于 06-18 16:39

    轮边电机驱动汽车性能仿真与控制方法的研究

    [摘要] 为多域车辆的陆地行驶,设计了轮边电机驱动系统,构建了基于轮边驱动系统的车辆模型,并对驱动控制方法进行了研究。在转向动力学理论分析基础上,在ADAMS 中建立了多体动力学模型:提出了车辆驱动
    发表于 06-10 13:10

    电机系统节能关键技术及展望

    节约能源既是我国经济和社会发展的一项长远战略和基本国策,也是当前的紧迫任务。论文在深入分析国内外电机系统节能现状和介绍先进的节能关键技术的基础上,指出了现阶段我国在电机系统节能方面存在的问题,并结合
    发表于 04-30 00:43

    慧明电子亮相2025新视听全国巡展济南站

    近日,备受瞩目的2025新视听全国巡展济南站在鲁能贵和洲际酒店顺利举行。本次展会吸引了几十个专业视听品牌齐聚堂,共同展示了最新的音视频技术和产品,为山东地区的观众带来了场别开生面的
    的头像 发表于 03-18 10:32 1072次阅读

    .NET开发必看:JetBrains Rider Tasks(任务)视图功能解析与演示教程

    此前,JetBrains Rider推出了Tasks(任务)视图功能,为 .NET 开发带来强大的任务管理和调试工具。该功能已在JetBrains Rider 2024.2 EAP中
    的头像 发表于 02-27 17:22 686次阅读
    .NET开发<b class='flag-5'>者</b>必看:JetBrains Rider Tasks(<b class='flag-5'>任务</b>)视图功能解析与演示教程

    腾讯捐赠5亿支持青年基础研究

    领域的一项重要举措,旨在推动青年科研人才的发展和创新。捐赠资金将重点用于支持女性、西部及粤港澳大湾区的研究者,帮助他们更好地开展基础研究。这举措不仅体现了腾讯公司对青年科研人才的重视
    的头像 发表于 02-19 14:12 537次阅读

    工业级高端传感器领域,长沙又一项技术填补国内空白!

    工业级高端传感器领域,长沙又一项技术填补空白。12月26日上午,松诺盟科技成果评价暨新品发布会举行。会上,松诺盟科技有限公司(以下简称“松诺盟科技”)联袂核电运行研究(上海)有限公司发布工业级高性能
    的头像 发表于 12-27 18:00 976次阅读
    工业级高端传感器领域,长沙又<b class='flag-5'>一项</b>技术填补国内空白!

    AMS-QMV-H9:九画面分割与无缝切换的视听新纪元开创

    样的背景下,深圳市程达科技有限公司推出了其倾力打造的AMS-QMV-H9画面分割器与无缝切换器,这款产品以其卓越的性能和丰富的功能,正在引领视听革命的新纪元。
    的头像 发表于 12-26 10:41 657次阅读
    AMS-QMV-H9:九画面<b class='flag-5'>分割</b>与无缝切换的<b class='flag-5'>视听</b>新纪元开创<b class='flag-5'>者</b>

    热烈庆祝千视电子荣膺工信部2024年度视听典型案例

    为推动视听电子产业迈向高质量发展的进程,工业和信息化部于全国范畴内开展了2024年度视听系统典型案例的征集活动。千视电子依托全IP化解决方案,在众多参选中脱颖而出,荣膺年度视听典型案
    的头像 发表于 12-18 10:03 1075次阅读
    热烈庆祝千视电子荣膺工信部2024年度<b class='flag-5'>视听</b>典型案例

    谷歌量子芯片Willow发布 速度超最快超算

    谷歌最新推出的量子芯片Willow引发了业界的广泛关注。这款芯片具备105个物理量子比特,并在多个性能指标上处于领先地位,同时实现了两重要突破。 首先,Willow成功解决了近30年来困扰研究者
    的头像 发表于 12-13 16:36 951次阅读