0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于视频语言模型LiteVL的无参的特征池化方法

CVer 来源:CVer 作者:CVer 2022-12-05 10:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

沿着从大规模图文多模态预训练迁移适配到视频多模态任务的思路,我们提出了模型LiteVL,它利用图文预训练模型BLIP来初始化参数,可以直接在下游任务上微调而不需要进行额外的昂贵的视频文本预训练。并且为了增强图像语言模型中缺乏的时间建模,我们提出在BLIP的Image encoder中增加具有动态时间缩放(dynamic temporal scaling)的时间注意力模块。除了模型方面的这一适配之外,我们还提出了一种非参数池化text-dependent pooling,以自适应地重新加权以文本为条件的细粒度视频嵌入。我们选取了两个具有代表性的下游任务,即文本-视频检索和视频问答,来验证所提出方法的有效性。实验结果表明,所提出的LiteVL在没有任何视频文本预训练的情况下,甚至明显优于以前的视频文本预训练模型。

1. Motivation

近期许多Video-language modeling的工作往往基于大规模video-text数据集 (WebVid2M,CC-3M,HowTo100M) 上进行预训练,然后在下游任务的数据集上微调,而预训练的成本往往十分昂贵。另一方面,学习细粒度的visual-language对齐往往需要利用离线的目标检测器 (e.g., ActBERT) 来捕捉物体信息,但却受限于检测器有限的类别数量 (e.g., 在MSCOCO数据集上训练的目标检测器只能检测出不到100个类别) 和昂贵的计算开销。而且没有充分利用来自文本数据的监督信息。此外,以往的稀疏帧采样的video-text模型是利用image encoder在大规模图文对上预训练的,它忽略了视频理解所需要的时序信息建模 (e.g., CLIPBERT)。最近,在单一视频模态领域的研究上,基于预训练的图像编码器ViT初始化而来的TimeSformer在许多下游的视频任务上性能表现很好,它相比ViT仅仅插入了额外的一层用ViT的注意力层初始化来的时间注意力层。

2. Solution

我们提出了一种简单且高效的视频语言模型LiteVL,它是从近期的预训练图像语言模型BLIP初始化而来的,并且分别从模型层面和特征层面做了时域信息增强。

对于模型层面,我们提出用一组具有可学习scaling factor的时间注意层明确插入原始image backbone中,可以针对每个下游任务进行训练调整(Dynamic Temporal Scaling):

7a92c294-73ed-11ed-8abf-dac502259ad0.png

对于特征层面,我们设计了一种无参的特征池化方法(Text-dependent Pooling),以学习基于文本描述的细粒度时间-空间视频特征:

7aac5b3c-73ed-11ed-8abf-dac502259ad0.png

7ad75e68-73ed-11ed-8abf-dac502259ad0.png

模型框架和动态时序scaling

7b176832-73ed-11ed-8abf-dac502259ad0.png

Text-dependent Pooling

3. Experiments

在三个视频文本检索数据集上和BLIP的性能比较:

7b3ad5ba-73ed-11ed-8abf-dac502259ad0.png

我们提出的LiteVL由于在模型和特征方面的显式时间建模,最终性能优于原始BLIP。

关于Dynamic Temporal Scaling和Text-dependent Pooling的消融实验

7b5bba5a-73ed-11ed-8abf-dac502259ad0.png

通过提出的轻巧的动态时间缩放自适应地根据每个特定任务调整框架级别的重要性,使性能得到进一步提高。此外,与仅使用原始特征相比,使用其他空间或时间池化后的特征会更好。

逐层的平均temporal scaling可视化分析

7b8012a6-73ed-11ed-8abf-dac502259ad0.png

折线图的变化趋势显示了video encoder的浅层更多地集中在理解每个帧的空间内容上,并更少注意不同帧之间的时间依赖性。当层的深度增加时,每个帧的空间特征变得更加全局,并且该模型逐渐寻求学习它们之间的时间依赖性。

Grad-CAM可视化分析

7b9bef08-73ed-11ed-8abf-dac502259ad0.png

上图展示了Grad-CAM可视化,提出的LiteVL有效地捕捉了不同帧之间的细微差异。这也表明我们提出的text-dependent pooling为video-grounded text encoder提供了丰富的信息。

4. Conslusion

我们提出了LiteVL,这是一种视频语言模型,它无需大量的视频语言预训练或目标检测器。LiteVL从预先训练的图像语言模型BLIP中继承了空间视觉信息和文本信息之间已经学习的对齐。然后,我们提出了具有动态时间缩放的额外时间注意力块,以学习视频帧中的时间动态。我们还引入了一种无参的text-denpendent pooling,该方法基于文本描述来对不同帧或者空间位置进行加权,从而实现了细粒度的视频语言对齐。实验结果表明,我们的LiteVL优于利用了视频文本预训练的最先进方法。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    924

    浏览量

    49655
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:EMNLP 2022 | LiteVL:具有增强时空建模的高效视频-语言学习

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    数据全复用高性能层设计思路分享

    大家好,本团队此次分享的内容为可实现数据全复用高性能层设计思路,核心部分主要由以下3个部分组成; 1.SRAM读取模块;——使用的存储为SRAM 基于SRAM读与写时序,约束
    发表于 10-29 07:10

    轴承异步电机转子径向位移白检测

    训练构建转子位移预测模型,利用位移预测模型的泛能力,进行转子位移估计。仿真结果表明,提出的位移估计方法能够准确检测转子径向位移信号,并且能实现电机
    发表于 07-14 17:45

    速度传感器感应电机控制系统转速辨识方法研究

    摘 要:速度传感器感应电机控制技术已成为近年的研究热点,转逸估计是速度传感器感应电机控制技术的核心问题。在此对速度传感器感应电机转速辦识技术进行了介绍,分析了几种比较典型的转速解识方法
    发表于 07-09 14:23

    刷直流电机调速系统转矩脉动抑制方法研究

    摘 要:通过对刷直流电机开通期间的相电流和关断期间的相电流分析,经过实际计算得到电磁转矩的表达式,得到相应的电磁转矩脉动曲线。基于电流预测方法通过将预测模型分为模型建立、反馈调整和性
    发表于 06-26 13:49

    模型自适应控制在永磁同步电机转速中的仿真研究

    摘要:针对永磁同步电机非线性、时变不确定性及难以建立精确的数学模型等问题,不同于动态线性时变模型替代一般非线性系统,提出一种基于模糊过程和系统输出误差的模型控制器。基于反馈线性
    发表于 06-25 13:01

    改进电压模型的异步电机速度传感器矢量控制

    速度传感器矢量控制技术能够有效提高交流传动系统的可靠性,降低系统成本。该技术的核心问题是准确获取电机转子转速,并将其反馈到速度闭环控制环节。介绍一种采用改进模型参考自适应转速估计方法的异步电机矢量
    发表于 05-28 15:43

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。https
    的头像 发表于 04-30 18:34 1062次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型
    的头像 发表于 03-17 15:32 7572次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    语言模型的解码策略与关键优化总结

    本文系统性地阐述了大型语言模型(LargeLanguageModels,LLMs)中的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制、性能特征和优化方法,为研究者和工
    的头像 发表于 02-18 12:00 1068次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的解码策略与关键优化总结

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3240次阅读
    一文详解视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    腾讯公布大语言模型训练新专利

    近日,腾讯科技(深圳)有限公司公布了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的新专利。该专利的公布,标志着腾讯在大语言模型
    的头像 发表于 02-10 09:37 714次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    。通过微调,模型可以学习特定领域的专业知识和语言特征,从而在高度专业的领域中展现出卓越的表现。微调过程主要有这几项内容:数据清洗:消除噪声、提高数据质量。包括处理缺失值(如用特殊符号
    发表于 01-14 16:51

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 573次阅读

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    准确性。 类别不平衡问题:当某些类别的样本数远多于其他类别时,分类器可能会偏向多数类别,导致少数类别的预测精度较低。 过拟合风险:复杂的模型容易在训练数据上过拟合,即学到了训练数据中的特定特征而不是一般
    发表于 12-19 14:33

    AI大语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI部落小编为大家详细阐述AI大语言
    的头像 发表于 12-19 11:29 1214次阅读