0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

全面解读CVPR2021-MMAct挑战赛跨模态动作识别双冠方案

深兰科技 来源:DeepTech深科技 作者:DeepTech深科技 2021-06-25 10:53 次阅读

导读

日前,计算机视觉和模式识别领域的三大顶级会议之一CVPR正在进行中,深兰DeepBlueAI团队在动作识别国际挑战赛 (ActivityNet) 研讨会上,参加了 MMAct 挑战赛中仅设的两个赛道——“跨模态裁剪动作识别”和“跨模态未裁剪动作时序定位”,并均以大比分领先取得第一。

冠军方案解读

竞赛要求参赛者提出跨模态视频动作识别/定位方法,以弥补使用 MMAct[1] 数据集的纯视觉方法的缺点。此任务的目标是利用基于传感器的,例如穿戴式传感器数据作为特权信息,以及基于视觉的模态,其方式可以克服训练(传感器 + 视频)和测试(仅视频)阶段之间模态差异所带来的限制。用于此竞赛的多模态数据包括:加速度、方向、陀螺仪、RGB 视频和人体关键点。

挑战赛促进了关于如何通过使用跨模态方法解决视觉挑战的另一种观点,希望扩大对视频动作理解的研究,以进一步利用日常使用的智能设备(例如智能手机)中的传感器。

赛题一

跨模态裁剪动作识别

Cross-Modal Trimmed Action Recognition

在此任务中,参与者使用来自MMAct 的修剪视频以及配对的传感器数据,在数据中包含交叉视角和交叉场景两种类型的数据,共35个动作类别。任务允许参与者使用修剪过的传感器数据和修剪过的视频进行训练,但不能同时使用交叉视角和交叉场景的数据,且仅对修剪过的视频进行测试以进行动作识别,并采用mAP作为评价指标。

赛题难点:

不同视频等多模态数据时序长度变化大,从几秒到几分钟不等;

测试阶段只提供了视频数据。

应用场景:

视频监控、异常行为识别

解决方案:

考虑到视频长度较长,为了有效地捕获视频中的动作信息,团队优先采用了等间隔采样的方式对每个视频进行采样,然后采用随机尺度裁剪、水平翻转等数据增强方式进行增强。

算法选型上,团队优先采用了TSM[2]进行实验,它具有高效率和高性能。具体来说,它可以达到 3D CNN 的性能,但保持 2D CNN 的复杂性。TSM 沿时间维度移动部分通道,从而促进相邻帧之间的信息交换,它还可以插入到 2D CNN 中以实现零计算和零参数的时间建模。

作为对比,团队同时采用了滑动窗口的形式进行帧数据采样,并采用ir-CSN[3]进行实验。CSN探索了通道之间交互的重要性,并达到了节省计算参数和通道之间交互的平衡,网络具有结构精简、计算量小、速度快、准确率好的优点,并且还有一定的正则化能力。

最后,在进行了为每个视频采样不同的帧数,是否添加Non-Local模块,以及MixUp与ColorJitter数据增强的实验之后,团队采用TSM,以ResNet50作为Backbone, 并以等间隔采样的方式采样32帧,最终取得了最好的单模成绩。在融合ir-CSN结果后,取得了最好的线上成绩。

赛题二

跨模态未裁剪动作时序定位

Cross-Modal Untrimmed Action Temporal Localization,在这项任务中,参与者使用来自MMAct 的未修剪视频以及配对的传感器数据,在数据中包含交叉视角和交叉场景两种类型的数据,共35个动作类别。参与者允许使用未修剪的配对传感器数据和视频进行训练,然后在仅包含未修剪的视频数据的测试集上进行时间动作定位,输出未修剪视频中识别的动作类别及其开始和结束时间,并采用AP作为评价指标。

赛题难点:

视频时长较长,从几分钟到十几分钟不等;

测试阶段只提供了视频数据。

应用场景:

视频监控、异常行为识别、定位

解决方案:

考虑到在测试集中只提供了视频数据,因此团队的实现方案主要在视频数据上进行实验。在时序动作定位相关的工作中,主流的方法如BSN[5]、BMN[6]等。需要经过:视频抽帧-》提取光流-》行为识别算法进行特征提取-》时序动作定位算法进行动作定位-》行为识别算法进行动作识别等多个环节,整个方案实现流程十分繁杂。

在实现方案中为了简化方案流程,采用AFSD[7]作为算法实现。这是一个anchor-free的时序定位框架,并且是一个end-to-end使用视频帧作为输入而不是特征作为输入的算法。

为了获得模型的输入,团队对每个视频以动态帧率采样2304帧,并进行光流计算,这样可以保证10分钟以上的视频有大约3帧的采样帧率,不至于丢失过多的视频信息。最后再分别采用RGB数据和光流数据进行训练,并融合两种类型的预测结果后,取得了团队最好成绩。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • RGB
    RGB
    +关注

    关注

    4

    文章

    763

    浏览量

    57412
  • 计算机视觉
    +关注

    关注

    8

    文章

    1600

    浏览量

    45617
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24353
  • 深兰科技
    +关注

    关注

    1

    文章

    50

    浏览量

    5841

原文标题:赛道 | CVPR2021-MMAct挑战赛跨模态动作识别双冠方案解读

文章出处:【微信号:kmdian,微信公众号:深兰科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    SECO柯解决新型广播VoIP分析仪的难题

    挑战性——需要配备最新一代的Intel® Atom® x6000E系列处理单元、具备丰富的I/O接口和能在工业级操作温度下稳定工作的系统,并要求在极短的时间内交付。 SECO柯作为一个在计算机模块
    发表于 04-02 11:30

    触景无限荣获英特尔边缘挑战赛全球Top10,致力发展工业新生产力

    近日,触景无限科技凭借卓越的技术实力和创新的解决方案:《电厂热力管道监测》(OCR赛道)与《尾矿库风险监测》(缺陷检测赛道),在2023英特尔边缘解决方案挑战赛中喜获殊荣,成功入选全球Top10。
    的头像 发表于 02-25 15:24 355次阅读

    OpenHarmony人形机器人创新挑战赛来啦

    12月28日,第二十六届中国机器人及人工智能大赛人形机器人创新挑战赛在苏州正式发布,首次结合
    的头像 发表于 12-30 08:32 502次阅读
    OpenHarmony人形机器人创新<b class='flag-5'>挑战赛</b>来啦

    语音识别技术最新进展:视听融合的多模态交互成为主要演进方向

    电子发烧友网报道(文/李弯弯)所谓“模态”,英文是modality,用通俗的话说,就是“感官”,多模态即将多种感官融合。多模态交互技术是近年来人工智能领域的一项重要创新。随着语音识别
    的头像 发表于 12-28 09:06 1541次阅读
    语音<b class='flag-5'>识别</b>技术最新进展:视听融合的多<b class='flag-5'>模态</b>交互成为主要演进方向

    情感语音识别:现状、挑战与解决方案

    挑战与解决方案。 二、情感语音识别的现状 技术发展:随着深度学习技术的不断进步,情感语音识别技术得到了快速发展。目前,基于卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网
    的头像 发表于 11-23 11:30 342次阅读

    情感语音识别的技术挑战与解决方案

    将探讨这些挑战以及可能的解决方案。 二、情感语音识别的技术挑战 情感表达的复杂性:人的情感表达是复杂且多变的,受到文化、个人经历、语言习惯等多种因素的影响。这使得准确
    的头像 发表于 11-12 17:31 238次阅读

    语音识别技术:端到端的挑战与解决方案

    将探讨端到端语音识别技术的挑战与解决方案。 二、端到端语音识别技术的挑战 1.噪声干扰和口音差异:端到端语音
    的头像 发表于 10-18 17:06 406次阅读

    NVIDIA Research 在 CVPR 上赢得自动驾驶挑战赛并获得创新奖

    新研究成果带来实现安全自动驾驶系统所需的先进 3D Occupancy 预测。 NVIDIA 以自动驾驶开发大赛 3D Occupancy 预测挑战赛冠军的身份亮相 CVPR 2023。 此次角逐
    的头像 发表于 08-24 17:10 303次阅读
    NVIDIA Research 在 <b class='flag-5'>CVPR</b> 上赢得自动驾驶<b class='flag-5'>挑战赛</b>并获得创新奖

    以四点法为例讲解模态识别方法

    导读:模态分析是研究结构动力特性一种近代方法,是系统辨别方法在工程振动领域中的应用。模态是机械结构的固有振动特性,每一个模态具有特定的固有频率、阻尼比和模态振型。这些
    的头像 发表于 08-24 11:42 2185次阅读
    以四点法为例讲解<b class='flag-5'>模态</b><b class='flag-5'>识别</b>方法

    面部表情识别技术的挑战与解决方案

    面部表情识别是一项复杂的技术,面临着许多挑战,如表情的多样性和变化性、面部肌肉运动、光照条件等。本文将探讨面部表情识别技术的挑战和解决方案,以促进该技术的发展和应用。 首先,面部表情的
    的头像 发表于 08-10 18:09 373次阅读

    开发活动 | 嵌入式GUI挑战赛报名开启!参赛申领开发板

    开发挑战赛 RT-Thread社区联合LVGL社区,及合作伙伴瑞萨电子正式开启2023嵌入式GUI挑战赛,欢迎你来挑战! 在本次大赛中,我们欢迎所有参赛者来构建全面的嵌入式GUI解决
    的头像 发表于 07-03 12:10 450次阅读
    开发活动 | 嵌入式GUI<b class='flag-5'>挑战赛</b>报名开启!参赛申领开发板

    中国团队包揽CVPR 2021弱光人脸检测挑战赛前三名!高分论文已公开播

    来源:CVPR 2021 UG2+ 编辑:好困 【新智元导读】中国团队包揽CVPR 2021 UG2+挑战赛弱光人脸检测赛道前三,其中TAL
    的头像 发表于 07-02 15:35 348次阅读
    中国团队包揽<b class='flag-5'>CVPR</b> <b class='flag-5'>2021</b>弱光人脸检测<b class='flag-5'>挑战赛</b>前三名!高分论文已公开播

    深兰团队已连续5年在CVPR挑战赛中斩获冠军

    ”的好成绩。自2019年起,深兰团队已经连续5年在CVPR挑战赛中有冠军斩获。 CVPR是计算机视觉领域的一个权威学术会议,由IEEE(Institute of Electrical and Electronics Engine
    的头像 发表于 06-26 11:11 346次阅读

    Cadence 知识挑战赛开启!答题赢好礼,好物兑不停!

    6 月起,气温渐渐升高 明媚的夏天就这样如约而至 在悄然步入盛夏之际, 一场知识挑战赛也火热开启……   本次知识挑战赛 以 Cadence 的 六大产品线 为脉络 围绕着旗下多款产品展开
    的头像 发表于 06-14 12:15 299次阅读
    Cadence 知识<b class='flag-5'>挑战赛</b>开启!答题赢好礼,好物兑不停!

    【RA4M2设计挑战赛】基于RA4M2和阿里云物联网平台的智能卧室小管家

    【RA4M2设计挑战赛】基于RA4M2和阿里云物联网平台的智能卧室小管家
    的头像 发表于 05-17 15:21 1075次阅读
    【RA4M2设计<b class='flag-5'>挑战赛</b>】基于RA4M2和阿里云物联网平台的智能卧室小管家