0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

复旦和Meta提出Open-VCLIP:兼顾时序建模与开集识别的视频理解模型

CVer 来源:CVer 2023-06-25 15:04 次阅读

导读:

CLIP[1]是一个强大的开放词汇模型,在图像领域表现出强大的零样本识别能力,但如何将该能力迁移到视频领域是一个较难的问题,主要存在两大挑战:一是如何为图像CLIP模型注入时序建模能力;二是在视频领域迁移的过程中如何保持其对开放词汇理解能力。

许多工作通过在视频数据集上进行微调以实现CLIP向视频领域的迁移,然而由于微调时使用的数据集规模相对较小,导致模型发生过拟合,使得CLIP模型原有的零样本识别能力有所丢失。

本文提出了一种新的CLIP向视频领域的迁移方法,找到模型泛化和专用化之间的平衡,让模型既能识别微调时已经见过的动作和事件,又能够借助CLIP的零样本识别能力泛化到新的视频动作和事件。

e7a78f9a-12a8-11ee-962d-dac502259ad0.png

问题归纳:将开放词汇视频模型构建问题近似于持续学习问题

假设存在一个包含所有的“视频-文本”对的数据集,那么可以通过在上最小化”视频-文本“对比损失来获得最佳开放视频词汇模型:

然而,现实中如此理想的数据集不可能存在,人们只能通过尽可能大规模、多样化的视频文本数据集来近似。视频动作识别是视频内容理解中一类重要任务,本文选取了视频动作识别数据集作为近似。此时,由于动作类别数量的限制(例如Kinetics-400只包含了400个类别),模型在微调过程中容易发生过拟合。

另一方面,本文发现CLIP的训练数据包含大规模“图像-文本”对,且图像可以容易地扩展为静态视频,因此可以认为原始CLIP的权重在大规模“静态视频-文本”(记作上已经达到最优。如果将数据集结合作为的近似,那么优化目标将转化为:

此处数据集是私有数据集,在CLIP迁移学习的过程中完全无法触碰,而已知CLIP权重是数据集上的最优解,因此本文目标是利用和构建开放词汇视频模型。自然地,开放词汇视频模型构建问题转变为一个持续学习的过程:在保持对历史任务()性能的同时,不断地在新的视频-文本数据集()上训练模型,提升模型的泛化能力。

Open-VCLIP方法介绍:

为了解决上述问题,本文提出Open-VCLIP方法,包括模型架构和算法改进两部分。在架构设计方面,通过修改自注意层将时序建模能力注入到CLIP模型中;在算法改进方面,提出了插值权重优化的新方法,取得更好的闭集性能与零样本识别性能的权衡。

(1)注入CLIP时序建模能力

本文参考了Space-Time Mixing[2],通过修改自注意层的信息关注范围,让自注意力操作过程中的每个块关注到所属视频帧以及相邻视频帧中的图像块信息来实现局部时序信息聚合,并随着自注意力层的堆叠完成全局时间信息聚合,从而实现时序建模能力的注入。该过程不需要增加额外参数,适配于后文引入的权重插值优化方法。

(2)权重插值优化算法

本文解决的是一个零历史信息的持续学习问题,即以为模型初始化参数,通过优化将模型迁移到数据集上,同时需要尽可能保持最小。然而,标准的微调训练方式往往容易使模型过拟合到,导致CLIP原始的开放词汇能力流失严重,进而影响模型的泛化能力,这将是本文着重想要解决的问题。

受到[3]的启发,本文首先引入了一个无需优化的权重插值策略:通过加权系数对CLIP原始参数和在数据集上完成微调后的参数进行加权平均操作,防止迁移学习后的模型在原始数据集上的过度遗忘。具体形式如下:

但这种做法由于不存在显示的优化约束,导致插值得到的模型可能会在上有较为严重的欠拟合。针对此问题,本文提出在训练过程中对于插值模型在数据集上添加正则化约束,从而缓解插值得到的模型在新数据上欠拟合严重的问题。具体来说,本文提出在训练过程中对插值权重系数进行随机采样,针对一系列取值下的插值模型在上进行优化约束,最终的优化目标如下:

其中,插值系数在区间区间均匀采样,该范围对应了期望构建的低损失区域。是正则化损失的权重系数,本篇文章实现时将其取值为。对应的梯度计算如下:

最后,本文在训练过程中对插值权重应用随机权重平均(SWA)[4]来进一步提高方法稳定性和泛化性。在实践中,只需要维护模型权重的移动平均值,并在最后进行权重插值即可,形式化描述如下。

实验

本文实验采用Kinetics-400视频动作识别数据集作为微调CLIP的训练数据,并将UCF、HMDB以及Kinetics-600子集作为测试视频模型的零样本识别能力的数据集。

(1)零样本识别性能

与CLIP基线和标准微调模型进行对比,可以看出,相比于标准微调方法容易出现较为严重的遗忘现象,本文所提的Open-VCLIP方法能够显著提升模型的零样本识别能力,在不同主干网络、不同数据集上都取得了最佳的零样本识别准确率。

e7ee614a-12a8-11ee-962d-dac502259ad0.png

此外,本文同当前先进零样本识别性能的方法进行了对比。可以看到,Open-VCLIP方法在不同数据集上均取得最佳零样本准确率。除此之外,文章还对比了冻结原始CLIP模型参数下微调Adapter模块的高效参数微调方法,结果表明,高效参数微调方法无法有效提升零样本识别准确率。

e80b57be-12a8-11ee-962d-dac502259ad0.png

(2)零样本识别性能与闭集性能的权衡

e8331a60-12a8-11ee-962d-dac502259ad0.png

文章对不同方法应用权重插值修复算法[3]进行探究,并将不同的加权系数下的性能用折线图的方式展现,横坐标表示闭集性能,纵坐标为零样本识别性能。结果表明:(i)具有时序建模能力的模型具备更强的零样本识别性能,显示出时序建模能力对于CLIP模型向视频领域的迁移是必要的;(ii)Open-VCLIP曲线高于标准微调方法,反映出本文所提出的优化策略不仅能提升模型的零样本视频识别能力,而且能够在零样本识别性能和闭集性能中取得最佳权衡;(iii)同时,图中红色五角星对应同一个插值模型,可以看到单个模型能够在多个数据集中取得接近最优的零样本识别性能,且保持较高的闭集准确率,显示出方法无需针对特定数据集专门调整插值权重。

(3)零样本视频文本检索性能

e86bec96-12a8-11ee-962d-dac502259ad0.png

评估文本到视频/视频到文本的检索性能可以进一步了解模型的泛化能力。实验遵循了在Kinetics-400数据集上训练模型,并在MSR-VTT数据集上测试的范式。结果展示了Open-VCLIP方法提升了模型的视频检索文本的性能和文本检索视频的性能,且在视频检索文本任务上,Open-VCLIP方法明显高于CLIP基线,进一步验证了本文方法有效性。

总结

本篇工作提出了Open-VCLIP方法,通过微调于视频识别数据集有效将CLIP转变为开放词汇的视频模型。文章主题包含三个部分:将问题归纳为无历史数据的持续学习问题;为模型添加轻量化时序建模能力;设计正则化插值优化策略提升模型泛化能力,减轻遗忘现象发生。实验表明,Open-VCLIP在零样本动作识别任务明显优于最先进的方法,并在闭集性能和零样本视频动作识别性能之间实现了最佳的权衡,所提方法也为大模型微调提供了新思路。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 建模
    +关注

    关注

    1

    文章

    281

    浏览量

    60503
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24356
  • Clip
    +关注

    关注

    0

    文章

    29

    浏览量

    6570

原文标题:ICML 2023 | 复旦和Meta提出Open-VCLIP:兼顾时序建模与开集识别的视频理解模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    关于功能验证、时序验证、形式验证、时序建模的论文

    半定制/全定制混合设计的特点,提出并实现了一套半定制/全定制混合设计流程中功能和时序验证的方法。论文从模拟验证、等价性验证和全定制设计的功能验证三个方面对FF-DX的分支控制部件进行功能验证。对于模拟
    发表于 12-07 17:40

    语音识别的现状如何?

    语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫
    发表于 10-08 14:29

    高阶API构建模型和数据使用

    了TensorFlow2.0Beta版本,同pytorch一样支持动态执行(TensorFlow2.0默认eager模式,无需启动会话执行计算图),同时删除了杂乱低阶API,使用高阶API简单地构建复杂神经网络模型,本文主要分享用高阶API构建模型和数据
    发表于 11-04 07:49

    多片段时序数据建模预测实践资料分享

    数据进行模型的构建与预测分析的,但是在实际的工程使用中会有一种特殊的情况就是:我们通过实验所采集到的数据往往不是绝对连续的而是多“片段”的。何为 “片段”?以我之前的时序
    发表于 06-30 07:52

    分享一种comsol磁场与结构场耦合模型建模

    的专业知识,无需在意,不求甚解主要学习本专业的建模,要及时补充专业知识、了解相关知识(指一些术语、名词)遇到问题难以理解的,且暂时没能解决,先记住,以后遇到再深究COMSOL学习自学(孤家寡人),主要学习磁场与结构场耦合模型
    发表于 07-09 06:40

    OSI模型的简单理解

    0.0 OSI模型的简单理解OSI(Open System Interconnect),即开放式系统互联。一般都叫OSI参考模型,是ISO(国际标准化组织)组织在1985年研究的网络互
    发表于 07-30 06:08

    一种基于GMM模型的语音情感识别方法

    在人机语音交互系统中,机器不仅要具有理解人类语音的能力,还应当具有识别说话人情感的能力。本文提出了基于高斯混合模型(GMM)的序列分类和识别的
    发表于 06-03 08:14 23次下载

    基于过程模型的工作流执行语义研究

    针对现有工作流建模语言难以兼顾语言的可理解性、执行语义的形式化和描述维度的单一性等问题,提出利用可视化的过程模型作为工作流
    发表于 10-07 11:56 7次下载

    面向人体动作识别的随机增量型混合学习机模型

    针对自然人机交互应用中的人体动作识别问题,总结了传统机器学习模型识别人体动作时的缺点,然后在此基础上针对自然人机交互应用的独特要求提出了面向人体动作
    发表于 01-03 15:50 1次下载
    面向人体动作<b class='flag-5'>识别的</b>随机增量型混合学习机<b class='flag-5'>模型</b>

    人脸识别的好处与坏处

    视频首先介绍了人脸识别的好处,分别有自然性、非强制性、非接触性、并发性等,其次介绍了人脸识别的坏处。
    的头像 发表于 03-04 14:35 2.9w次阅读

    3D建模技术以及智能家具三维模型的展示

    模型数据信息,赋能智能家居总段体侧识别、手势识别等线上三维展示的能力,真正实现家具3D模型智能化。3D建模技术除了能够在智能家具方便发挥巨大
    的头像 发表于 04-26 17:17 2792次阅读

    可高效识别视频不同内容的视频摘要算法

    针对如何高效地识别视频中具有代表性的内容问题,提出了一种对不同的视频帧赋予不同重要性的视频摘要算法。首先使用长短期记忆网络来
    发表于 04-29 15:07 24次下载
    可高效<b class='flag-5'>识别</b><b class='flag-5'>视频</b>不同内容的<b class='flag-5'>视频</b>摘要算法

    基于视频帧间差分序列的动作识别模型

    针对视频动作识别中数据处理效率不髙的冋题,建立一种基于视频帧间差分序列的动作识别模型。利用帧间差分检测
    发表于 05-19 17:07 12次下载

    面向人脸识别的FusNet网络模型

    面向人脸识别的FusNet网络模型
    发表于 06-09 14:59 8次下载

    基于实体和动作时空建模视频文本预训练

    摘要 尽管常见的大规模视频-文本预训练模型已经在很多下游任务取得不错的效果,现有的模型通常将视频或者文本视为一个整体建模跨模态的表示,显示结
    的头像 发表于 05-25 11:29 432次阅读
    基于实体和动作时空<b class='flag-5'>建模</b>的<b class='flag-5'>视频</b>文本预训练