0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌提出了一种称为时间循环一致性学习的自监督方法

nlfO_thejiangme 来源:lq 2019-10-01 16:43 次阅读

视频理解是计算机视觉中的重要任务,近年来随着深度学习特别是监督学习的应用视频理解取得了飞速的发展,例如视频行为分类和视频片段总结等任务都取得了令人瞩目的成果。

不过,现实生活中很多场景的应用视频片段需要不止一个标签来提供足够的信息。举个例子,机器人往杯子里倒水,一个简单的“倾倒液体”标签不足以预测出杯子何时倒满,机器人需要逐帧追踪杯中的水量。再比如说,在运动分析领域,棒球教练不仅仅想要看到投球的动作,而是想精确地分析投手投出棒球离手的一瞬间,单一的视频标签不足以完成这样的视频检索任务。这意味着视频理解模型需要逐帧理解视频的能力。

然而如果使用监督学习的方法将会使学习成本变得非常昂贵,这需要针对视频里每一帧的动作进行细粒度的标注,训练不同的动作还需要新的标注来提供监督信号。但从机器人到运动分析等领域,细粒度的视频理解有着很强的需求,那么如何在不需要大量标签的情况下对视频进行学习以理解细粒度的信息呢?

来自谷歌的研究人员们提出了一种称为时间循环一致性学习(Temporal Cycle-Consistency Learning,TCC)的自监督方法。通过学习不同样本相似过程的表示来实现细粒度的时域视频理解,为逐帧视频检索、动作分析、视频同步和多模态迁移提供了新的解决方案。

基于TCC的视频表示学习

世间的万事万物发展的过程都有特定的规律,从嫩芽到参天大树的植物生长到起床上班回家两点一线的996工作,再到简单倒水的动作都在时间上满足一定的顺序。

多个不同实例的相同过程可以从视频捕捉到的信息中找到对应的联系。全世界的人往容器中倒水动作都差不多,无论对象是茶壶、酒瓶、水壶都有着相似的过程。其中倾倒液体的关键时刻在多个不同的视频中都有着相同的特性——都需要举起起一个容器向另一个容器中倾倒,而视频中的其他特性则与拍摄的视角、光照、环境、尺度、容器以及速度有关。TCC的关键在于通过循环一致性的原则,从多个视频中寻找出对应的相同动作。

算法的目标在于训练出一个有效的帧编码器来获取对应动作的表示编码。研究人员首先将两个待配准的视频传入编码器中获取对应的嵌入信息,而后选择两个视频来进行TCC的训练,其中video1作为参考视频,从中取出一帧并利用最邻近方法在嵌入空间中找到video2中最为近似的一帧;而后以video2中找到的这一帧作为输入,从新到嵌入空间中寻找video中对应的帧(circle过程)。如果学习出的嵌入空间具有循环一致性的话,这一帧和先前输入video1的参考帧应该是同一帧。

上图中可以看到,左边的嵌入在循环检索后对应原来的帧,说明循环一致性得到满足;而右边的嵌入在循环检索后获取的帧与输入的帧有差异,则表示这一嵌入的循环一致性没有得到满足,他们在嵌入空间中的差值就表示为循环一致性损失。模型的训练过程通过不断提高对于每个视频帧的语义理解来减小循环一致性误差。充分训练后的TCC可以学习出时域的细粒度理解能力,并能够有效对齐相关的视频。

TCC学习到的表达

研究人员随后验证了TCC学习到的表达,是否有效理解了多个视频中的相似动作。实验在Penn Action数据集上进行,研究人员将多个包含人体深蹲训练的视频利用T后发现了空间可视化学习到的隐含特征。

左图中亮度较高的点是当前帧对应的表示。紫色为输入的参考视频,其余为其他视频中检索到的最邻近帧。可以看到虽然各个视频的角度、场景、主体不同,但对应的嵌入表示和对应的视频帧却以相同的趋势在运动,TCC有效地将深蹲动作的不同过程进行了编码而无需显式的人工标注。

TCC的潜在应用

由于这种方法可以有效学习逐帧视频的迁移表达可广泛应用于小样本视频动作分类、无监督视频对齐、多模态迁移和逐帧视频检索。

小样本动作阶段分类。当只有很少的标注视频样本时,TCC方法可以有效地将不同动作阶段进行分类。研究人员将基于TCC的方法与监督学习方法进行比较,可以发现只用一个完全标记的视频样本训练就可与监督学习需要五十个标注的视频样本训练获得同样的效果。下图中可以看到TCC方法在两种动作识别中小样本学习的良好表现。

对齐或同步视频。当视频的数量增加时对齐或同步不同视频间的动作将会是耗时耗力的工作,但利用TCC多个视频的同步可以利用参考视频的帧来在每个目标视频中寻找最邻近的帧实现对齐:

视频标签/模态迁移。由于TCC可以在嵌入空间中找到每一帧对应的最邻近帧进行视频匹配,所以这种方法还可以将视频对应的元数据进行迁移,包括时域语义标签或者音频数据。研究人员展示了一个可以把倒水的声音迁移到一段没有声音的视频上,倒水的声音别成功迁移到了倒牛奶的视频上了,甚至放瓶子的声音也很逼真!

逐帧视频检索。TCC还可以作为关键帧在嵌入空间中用于视频中相似帧的检索。学习出的嵌入表达具有很强的分辨能力,可以区分出某一个动作前后的相邻帧。

研究人员还将整个工作的代码开源,不仅包括了TCC,还包括了多个先进自监督方法的实现,将为会视频理解的研究以及艺术家利用视频同步进行创作带来很大的帮助。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5852

    浏览量

    103248
  • 视频
    +关注

    关注

    6

    文章

    1890

    浏览量

    71882
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24348

原文标题:读懂视频的每分每秒,谷歌提出自监督方法提升视频细粒度理解能力

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    STM32F407XX I2S DMA循环buffer播放DMA中断不一致怎么解决?

    吱吱噪音。请问循环DMA buffer是否应该就是播放采样率即业务需求的2ms间隔,中断是应该周期/频率是一致?如何排查?
    发表于 03-28 07:19

    深入理解数据备份的关键原则:应用一致性与崩溃一致性的区别

    深入理解数据备份的关键原则:应用一致性与崩溃一致性的区别 在数字化时代,数据备份成为了企业信息安全的核心环节。但在备份过程中,两个关键概念——应用一致性和崩溃一致性,常常被误解或混淆。
    的头像 发表于 03-11 11:29 206次阅读
    深入理解数据备份的关键原则:应用<b class='flag-5'>一致性</b>与崩溃<b class='flag-5'>一致性</b>的区别

    在C++界面/库中,CCyUSBDevice的DeviceName返回结果不一致的原因?

    {bd295b7e-798c-41d4-9ea5-6f2de3e6e6f9}" 产品"ScanDrive28K8" 有没有解决或修复这个错误的方法? 我希望有一种一致
    发表于 03-04 06:19

    求助,为什么miniWiggler的JTAG信号映射与设备端(TC397)不一致

    )通过引出个JTAG插座,同时兼容JTAG和DAP两协议。由于上面提到的不一致性,只能通过调整线缆线序来满足这种需求,即当使用DAP协议时,需要将设备(TC397)侧JTAG插座的TMS(DAP1
    发表于 02-01 06:47

    锥形电感 宽带锥形电感用途

    阻的计算方法进行了研究,给出了精确计算方法,其中,电感值误差在10.2%以内,直流电阻误差在6.5%以内;对锥形空心螺旋电感微波特性进行研究,提出了
    发表于 01-15 13:21

    AD9826存偏置电压不为0,并且一致性较差的原因?

    我这边做了批包含AD9826芯片的板卡,实测本底暗信号幅度都是样的,对应到AD9826应该是3000的DN值。但是AD9826采集出来不一致,变化从1500~4800。板卡更换AD9826芯片,暗信号DN值立马跟着改变。请问
    发表于 12-01 06:33

    一种简单的方法来将振荡器相位噪声转换为时间抖动

    电子发烧友网站提供《一种简单的方法来将振荡器相位噪声转换为时间抖动.pdf》资料免费下载
    发表于 11-23 15:15 0次下载
    <b class='flag-5'>一种</b>简单的<b class='flag-5'>方法</b>来将振荡器相位噪声转换<b class='flag-5'>为时间</b>抖动

    ADA4960工作在单端输入-差分输出模式下,其输出P、N之间的相位一致性该怎么测试呢?

    ADA4960 工作在单端输入-差分输出模式下,其输出P、N之间的相位一致性该怎么测试呢? 我使用矢量网络分析仪进行测试,未用到的端口接50Ω负载,接线方式如下图 原理图如下:增益电阻RG=100
    发表于 11-14 06:53

    什么是锂离子电池不一致性?如何提高锂离子电池的一致性

    以及充放电速率和循环寿命的差异。锂离子电池的不一致性主要由以下几个方面的原因造成: 1. 材料差异:锂离子电池的正负极材料存在制造差异,其中最常见的是锂离子电池正极材料的颗粒大小和分布不均匀,导致充放电反应不一致
    的头像 发表于 11-10 14:49 668次阅读

    如何保证缓存一致性

    “ 本文的参考文章是2022年HOT 34上Intel Rob Blakenship关于CXL缓存一致性的一篇介绍。”
    的头像 发表于 10-19 17:42 498次阅读
    如何保证缓存<b class='flag-5'>一致性</b>

    适用于任意数据模态的自监督学习数据增强技术

    模态的。这意味着需要为不同的数据模态开发不同的自监督学习算法。为此,本文提出了一种通用的数据增强技术,可以应用于任意数据模态。相较于已有的通用的自监督学习,该
    的头像 发表于 09-04 10:07 784次阅读
    适用于任意数据模态的自<b class='flag-5'>监督学习</b>数据增强技术

    ARM CoreLinK CCN-502高速缓存一致性网络技术参考手册

    CCN-502是基于AMBA 5 CHI架构的可扩展相干互连。它设计用于高端网络和企业计算系统。 CCN-502将互连和一致性功能组合到单个模块中。它提供以下外部接口: •四个完全一致的CHI端口
    发表于 08-02 10:38

    RT-Thread studio编译程序打印时间与电脑时钟不一致怎么解决?

    rt thread studio 编译的程序 打印时间与电脑时钟不一致,相差3小时
    发表于 05-17 14:47

    如何使用Vector CANoe与S32k148evb进行LIN一致性测试?

    大家好, 我正在使用 Vector CANoe 进行 LIN 一致性(合规)测试,我正面临这个问题,那么它的原因应该是什么,解决方案是什么? 在测试用例 PT-CT88,89,90,93 中。 IUT 未响应诊断请求
    发表于 05-09 09:31

    i.MX8M可以调用哪些刷新/无效缓存函数来保证缓存一致性

    的是,我们现在在较小的传输中遇到缓存问题。有时,当缓冲区被复制到用户空间时,64 字节的数据没有被正确的数据 buf 填充为 0xff。我们在次传输中传输了大约 1.1 MBytes,有时些缓存行会得到不正确的数据。 可以调用哪些刷新/无效缓存函数来保证缓存
    发表于 04-27 08:30