0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浅析ECCV18 DeepMind论文《Look, Listen and Learn》

张康康 2018-10-25 19:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者 | Video++极链科技AI实验室张奕

整理 | 包包

背景

声音和图像是视频中最重要的两类基础信息,能反映视频中出现的主要内容。以往大量的视频内容分析研究都是基于声音和视觉特征来展开,其中很多研究工作会基于声音视觉多模态特征来进行语义建模。人们清楚地意识到声音和视觉特征直接存在着某种对应关系,因为当某种语义内容在视频中出现时,其相应的视觉图像和声音必然相伴出现,那么该如何利用这个对应关系来帮助我们进行视频语义内容分析与识别呢?

让我们先来看看当前机器学习与视频分析研究的痛点。机器学习按照对样本的标注要求不同可分为有监督和无监督两大类。随着深度学习的兴起,基于大量标注样本训练的深度网络模型在各领域中都取得了远超其它模型的准确率,确立了主流地位。但是这一方法最大的缺点是需要大量的标注样本,样本标注是一项很高成本的工作,需要耗费大量的人力资源,使人工智能成为真正基于“人工”的智能。在视频内容分析领域,为了达到识别视频内容的目的,也需要对视频进行大量的样本标注,这些标注包括目标、语义在时间空间上出现的位置、类别标签等,非常繁琐。如何能够减少对标注数据的依赖一直是一个机器学习的重要研究方向。

回到先前的问题,既然视频中的视觉和声音之间存在着对应关系,那么是否可以用这个对应关系来解决数据的标注问题,从而减少对人工标注的依赖呢?DeepMind大胆的提出了这一设想,通过视觉和声音的对应实现它们之间的互标注,不需要人工标注,就可以获得大量的带有自标注对应关系的声音视觉样本,提供给深度网络进行训练,从而实现视频中相关事件的检测识别。

方法


1540455999859b7947c71c8



数据

以上网络通过如下的方式产生正负样本对:负样本对来自于两段不同视频中随机选取的图像帧和声音片段,正样本对来自于声音片段和同一视频中对应该声音时间中点处的图像帧。训练数据集规模为40万段时长为10秒的视频,来自于Flickr-SoundNet和Kinetics-Sounds数据集。

实验结果

15404559963591c914eb0d8


154045599801135808fe0c8


作者还给出了训练声音视觉对应网络中得到的视觉子网络和声音子网络模型在视觉分类和声音分类任务中的性能,并与现有算法进行了比较。在声音分类benchmark数据集ESC-50和DCASE上本文的声音子网络取得了最好的结果,如表2所示。图像分类在benchmark数据集ImageNet上本文的视觉子网络取得了与当前最好的自监督学习算法相同的结果,如表3所示。

1540455996666443d1b9635


1540455997609c368b67ebf


通过以上网络和学习方式,究竟学到了什么内容?作者给出了直观的实例,选取视觉子网络pool4层响应最高的各类的5个样本(图3),并将对应的conv_2层响应热力图显示出来(图4),可见网络能够在视觉概念相关区域获得高响应,表明学习是有效的,并且该网络对声音源具有定位能力。



结论与讨论

本文利用声音视觉对应关系提出了一种深度网络,可免除对样本的标注,通过自监督学习,实现视频内容的检测分类。实验表明其在声音分类上的效果超越其他算法,在图像分类上的效果与以往最佳自监督算法持平。

本文算法在声音分类上的优异表现表明,视觉特征在声音特征的相关性使其在描述声音特征中起到了帮助作用。同时本文算法在图像分类上的表现也表明声音特征对图像特征描述也存在有效的帮助。目前视觉特征仅采用了声音片段对应的图像序列中的一个采样帧作为输入,尚无法完全反映声音和图像之间在时间上的对应关系,如能利用声音对应的整个图像序列作为视觉输入,将可能进一步利用声音和视觉之间的并发性,提升模型效果。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8567

    浏览量

    137241
  • 视频分析
    +关注

    关注

    0

    文章

    47

    浏览量

    11224
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    浅析激光焊膏在电子互连领域中的应用

    激光焊膏作为一种先进的焊接材料,在电子互连领域中展现出了显著的应用优势和广阔的发展前景。以下从激光焊膏的原理、优势、应用领域及发展趋势等方面,对其在电子互连领域中的应用进行浅析
    的头像 发表于 04-29 09:15 91次阅读

    高性能18位SAR ADC——LTC2377-18的全方位解析

    高性能18位SAR ADC——LTC2377-18的全方位解析 在电子设计领域,模数转换器(ADC)是连接模拟世界和数字世界的桥梁,其性能的优劣直接影响到整个系统的精度和可靠性。今天,我们就来
    的头像 发表于 03-31 15:35 147次阅读

    高性能18位SAR ADC:LTC2379 - 18的技术剖析与应用指南

    高性能18位SAR ADC:LTC2379 - 18的技术剖析与应用指南 在电子设计领域,模数转换器(ADC)的性能往往决定了整个系统的精度和速度。LTC2379 - 18作为一款低噪声、低功耗
    的头像 发表于 03-31 15:35 146次阅读

    深入剖析LTC2364 - 18:高性能18位SAR ADC的卓越之选

    深入剖析LTC2364 - 18:高性能18位SAR ADC的卓越之选 在电子设计领域,高性能的模数转换器(ADC)是实现精确数据采集的关键。今天,我将为大家详细介绍一款优秀的18位逐次逼近寄存器
    的头像 发表于 03-30 17:10 460次阅读

    NVIDIA携手Google DeepMind与EMBL发布全球最大蛋白质复合物数据集

    NVIDIA、Google DeepMind、欧洲分子生物学实验室下属欧洲生物信息学研究所(EMBL-EBI)以及首尔大学 Steinegger 实验室,对 AlphaFold 蛋白质结构数据库
    的头像 发表于 03-25 09:39 357次阅读

    地平线11篇论文强势入选CVPR 2026

    论文收录结果。地平线凭借深厚的技术积淀与前瞻的科研布局,共有11篇论文成功入选,覆盖端到端自动驾驶、3D重建、世界模型、具身智能等多个核心领域,充分彰显地平线在前沿技术领域的顶尖研发水平。
    的头像 发表于 03-18 15:18 850次阅读
    地平线11篇<b class='flag-5'>论文</b>强势入选CVPR 2026

    小鹏汽车与北京大学研究论文成功入选AAAI 2026

    近日,AAAI 2026公布了论文录用结果,该会议是人工智能领域的国际顶级会议之一。据悉,AAAI 2026共收到23,680份论文投稿,其中4,167篇论文被录用,录用率仅为17.6%。
    的头像 发表于 01-04 11:22 791次阅读
    小鹏汽车与北京大学研究<b class='flag-5'>论文</b>成功入选AAAI 2026

    Nullmax端到端轨迹规划论文入选AAAI 2026

    11月8日,全球人工智能顶会 AAAI 2026 公布论文录用结果,Nullmax 研发团队的端到端轨迹规划论文成功入选。该论文创新提出一种由粗到精的轨迹预测框架——DiffRefiner,能够实现更为灵活、精准的轨迹预测。
    的头像 发表于 11-12 10:53 1119次阅读

    智芯公司荣获ICEPT 2025优秀论文

    近日,第26届电子封装技术国际会议(ICEPT 2025)在上海举行。智芯公司提交的论文“WBLGA SiP High-Reliability and High-Thermal
    的头像 发表于 08-26 11:22 1406次阅读

    你发文,我奖励!Aigtek安泰电子新周期论文奖励活动正式开启!

    Aigtek论文奖励活动为了回馈广大工程师长久以来对Aigtek安泰电子的深厚信赖,也为了鼓励更多科研工作者用自主创新技术探索科学领域的无限可能,Aigtek安泰电子新周期论文奖励活动正式上线,诚邀
    的头像 发表于 07-31 19:07 874次阅读
    你发文,我奖励!Aigtek安泰电子新周期<b class='flag-5'>论文</b>奖励活动正式开启!

    格灵深瞳六篇论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,格灵深瞳团队共有6篇论文入选。
    的头像 发表于 07-07 18:23 1729次阅读

    理想汽车八篇论文入选ICCV 2025

    近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,理想汽车共有8篇论文入选,其中5篇来自自动驾驶团队,3篇来自基座模型团队。ICCV作为计算机视觉领域的顶级学术会议,每两年举办一次
    的头像 发表于 07-03 13:58 1324次阅读

    同步电机失步浅析

    纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:同步电机失步浅析.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 06-20 17:42

    基于STM32蓝牙控制小车系统设计(硬件+源代码+论文)下载

    基于STM32蓝牙控制小车系统设计(硬件+源代码+论文)推荐下载!
    发表于 05-29 21:45

    云知声四篇论文入选自然语言处理顶会ACL 2025

    近日,第63届国际计算语言学年会ACL 2025(Annual Meeting of the Association for Computational Linguistics,简称ACL)论文接收
    的头像 发表于 05-26 14:15 1467次阅读
    云知声四篇<b class='flag-5'>论文</b>入选自然语言处理顶会ACL 2025