0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于视频语言模型LiteVL的无参的特征池化方法

CVer 来源:CVer 作者:CVer 2022-12-05 10:54 次阅读

沿着从大规模图文多模态预训练迁移适配到视频多模态任务的思路,我们提出了模型LiteVL,它利用图文预训练模型BLIP来初始化参数,可以直接在下游任务上微调而不需要进行额外的昂贵的视频文本预训练。并且为了增强图像语言模型中缺乏的时间建模,我们提出在BLIP的Image encoder中增加具有动态时间缩放(dynamic temporal scaling)的时间注意力模块。除了模型方面的这一适配之外,我们还提出了一种非参数池化text-dependent pooling,以自适应地重新加权以文本为条件的细粒度视频嵌入。我们选取了两个具有代表性的下游任务,即文本-视频检索和视频问答,来验证所提出方法的有效性。实验结果表明,所提出的LiteVL在没有任何视频文本预训练的情况下,甚至明显优于以前的视频文本预训练模型。

1. Motivation

近期许多Video-language modeling的工作往往基于大规模video-text数据集 (WebVid2M,CC-3M,HowTo100M) 上进行预训练,然后在下游任务的数据集上微调,而预训练的成本往往十分昂贵。另一方面,学习细粒度的visual-language对齐往往需要利用离线的目标检测器 (e.g., ActBERT) 来捕捉物体信息,但却受限于检测器有限的类别数量 (e.g., 在MSCOCO数据集上训练的目标检测器只能检测出不到100个类别) 和昂贵的计算开销。而且没有充分利用来自文本数据的监督信息。此外,以往的稀疏帧采样的video-text模型是利用image encoder在大规模图文对上预训练的,它忽略了视频理解所需要的时序信息建模 (e.g., CLIPBERT)。最近,在单一视频模态领域的研究上,基于预训练的图像编码器ViT初始化而来的TimeSformer在许多下游的视频任务上性能表现很好,它相比ViT仅仅插入了额外的一层用ViT的注意力层初始化来的时间注意力层。

2. Solution

我们提出了一种简单且高效的视频语言模型LiteVL,它是从近期的预训练图像语言模型BLIP初始化而来的,并且分别从模型层面和特征层面做了时域信息增强。

对于模型层面,我们提出用一组具有可学习scaling factor的时间注意层明确插入原始image backbone中,可以针对每个下游任务进行训练调整(Dynamic Temporal Scaling):

7a92c294-73ed-11ed-8abf-dac502259ad0.png

对于特征层面,我们设计了一种无参的特征池化方法(Text-dependent Pooling),以学习基于文本描述的细粒度时间-空间视频特征:

7aac5b3c-73ed-11ed-8abf-dac502259ad0.png

7ad75e68-73ed-11ed-8abf-dac502259ad0.png

模型框架和动态时序scaling

7b176832-73ed-11ed-8abf-dac502259ad0.png

Text-dependent Pooling

3. Experiments

在三个视频文本检索数据集上和BLIP的性能比较:

7b3ad5ba-73ed-11ed-8abf-dac502259ad0.png

我们提出的LiteVL由于在模型和特征方面的显式时间建模,最终性能优于原始BLIP。

关于Dynamic Temporal Scaling和Text-dependent Pooling的消融实验

7b5bba5a-73ed-11ed-8abf-dac502259ad0.png

通过提出的轻巧的动态时间缩放自适应地根据每个特定任务调整框架级别的重要性,使性能得到进一步提高。此外,与仅使用原始特征相比,使用其他空间或时间池化后的特征会更好。

逐层的平均temporal scaling可视化分析

7b8012a6-73ed-11ed-8abf-dac502259ad0.png

折线图的变化趋势显示了video encoder的浅层更多地集中在理解每个帧的空间内容上,并更少注意不同帧之间的时间依赖性。当层的深度增加时,每个帧的空间特征变得更加全局,并且该模型逐渐寻求学习它们之间的时间依赖性。

Grad-CAM可视化分析

7b9bef08-73ed-11ed-8abf-dac502259ad0.png

上图展示了Grad-CAM可视化,提出的LiteVL有效地捕捉了不同帧之间的细微差异。这也表明我们提出的text-dependent pooling为video-grounded text encoder提供了丰富的信息。

4. Conslusion

我们提出了LiteVL,这是一种视频语言模型,它无需大量的视频语言预训练或目标检测器。LiteVL从预先训练的图像语言模型BLIP中继承了空间视觉信息和文本信息之间已经学习的对齐。然后,我们提出了具有动态时间缩放的额外时间注意力块,以学习视频帧中的时间动态。我们还引入了一种无参的text-denpendent pooling,该方法基于文本描述来对不同帧或者空间位置进行加权,从而实现了细粒度的视频语言对齐。实验结果表明,我们的LiteVL优于利用了视频文本预训练的最先进方法。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    811

    浏览量

    47292
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24352

原文标题:EMNLP 2022 | LiteVL:具有增强时空建模的高效视频-语言学习

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【书籍评测活动NO.31】大语言模型:原理与工程实践

    深远影响,尤其在优化业务流程和重塑组织结构方面。然而,在研究和实践过程中,我们遇到了一个主要挑战:市场上缺乏大语言模型在实际应用方面的资料。现有的资料多聚焦于理论研究,而具体的实践方法多被保密,难以获得
    发表于 03-18 15:49

    【书籍评测活动NO.30】大规模语言模型:从理论到实践

    的奖励模型,对有监督微调模型对用户提示词补全结果的质量进行评估,与语言模型建模目标综合得到更好的效果。这一阶段的难点在于解决强化学习方法稳定
    发表于 03-11 15:16

    语言模型的弱监督视频异常检测方法

    了局部Transformer的mask,从时序上将输入视频特征分割为多个等长块,令自注意力计算局限于块内,减少了冗余信息建模,降低计算复杂度。
    的头像 发表于 01-02 15:20 298次阅读
    <b class='flag-5'>语言</b><b class='flag-5'>模型</b>的弱监督<b class='flag-5'>视频</b>异常检测<b class='flag-5'>方法</b>

    语言模型使用指南

    在信息爆炸的时代,我们渴望更智能、更高效的语言处理工具。GPT-3.5等大语言模型的崛起为我们提供了前所未有的机会。这不仅是技术的进步,更是人与机器共舞的一幕。本篇文章将带你走进这个奇妙的语言
    的头像 发表于 12-29 14:18 349次阅读

    语言模型概述

    在科技飞速发展的当今时代,人工智能技术成为社会进步的关键推动力之一。在广泛关注的人工智能领域中,大语言模型以其引人注目的特性备受瞩目。 大语言模型的定义及发展历史 大
    的头像 发表于 12-21 17:53 737次阅读

    LabVIEW进行癌症预测模型研究

    ,然后将得到的特征向量输入到SVM中进行分类。 LabVIEW是一种视觉编程语言,与传统的文本编程语言不同,更适合于进行复杂数据分析和预测模型的开发。 LabVIEW使用数据流
    发表于 12-13 19:04

    探索高效的大型语言模型!大型语言模型的高效学习方法

    在大型语言模型(LLMs)的应用中,提示工程(Prompt Engineering)是一种关键技术,用于引导模型生成特定输出或执行特定任务。通过精心设计的提示,可以显著提高LLMs的性能和适用性。本文将介绍提示工程的主要
    发表于 12-13 14:21 321次阅读
    探索高效的大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>!大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的高效学习<b class='flag-5'>方法</b>

    语言模型简介:基于大语言模型模型全家桶Amazon Bedrock

    本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶:Bedrock对大语言模型进行介绍。大语言模型
    的头像 发表于 12-04 15:51 405次阅读

    任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法

    相比于仅使用logits的蒸馏方法,同步使用模型中间层特征进行蒸馏的方法通常能取得更好的性能。然而在异构模型的情况下,由于不同架构
    的头像 发表于 11-01 16:18 536次阅读
    任意<b class='flag-5'>模型</b>都能蒸馏!华为诺亚提出异构<b class='flag-5'>模型</b>的知识蒸馏<b class='flag-5'>方法</b>

    只需简单的几步,2D视频变3D?最新视频创作AI模型

    本文的网络将给定一个具有帧的动态场景的单目视频(I1, I2,…,, IN ) 和已知的相机参数 (P1, P2,., PN ),目标是在视频中任何所需时间合成一个新的视点。与许多其他方法一样,此
    的头像 发表于 09-10 10:08 1643次阅读
    只需简单的几步,2D<b class='flag-5'>视频</b>变3D?最新<b class='flag-5'>视频</b>创作AI<b class='flag-5'>模型</b>!

    腾讯发布混元大语言模型

    腾讯发布混元大语言模型 腾讯全球数字生态大会上腾讯正式发布了混元大语言模型,参数规模超千亿,预训练语料超2万亿tokens。 作为腾讯自研的通用大
    的头像 发表于 09-07 10:23 849次阅读

    检索增强的语言模型方法的详细剖析

      本篇内容是对于ACL‘23会议上陈丹琦团队带来的Tutorial所进行的学习记录,以此从问题设置、架构、应用、挑战等角度全面了解检索增强的语言模型,作为对后续工作的准备与入门,也希望能给大家带来
    的头像 发表于 08-21 09:58 1320次阅读
    检索增强的<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>方法</b>的详细剖析

    语言模型的发展历程 基于神经网络的语言模型解析

    简单来说,语言模型能够以某种方式生成文本。它的应用十分广泛,例如,可以用语言模型进行情感分析、标记有害内容、回答问题、概述文档等等。但理论上,语言
    发表于 07-14 11:45 513次阅读
    <b class='flag-5'>语言</b><b class='flag-5'>模型</b>的发展历程 基于神经网络的<b class='flag-5'>语言</b><b class='flag-5'>模型</b>解析

    上海AI lab提出VideoChat:可以与视频对话啦

    区别于现有多模态大模型针对视频输入的处理方法,即首先文本化视频内容再接入大模型利用大模型自然
    的头像 发表于 05-15 09:31 541次阅读
    上海AI lab提出VideoChat:可以与<b class='flag-5'>视频</b>对话啦

    如何通过一个简单的方法来解锁大型语言模型的推理能力?

    近来NLP领域由于语言模型的发展取得了颠覆性的进展,扩大语言模型的规模带来了一系列的性能提升,然而单单是扩大模型规模对于一些具有挑战性的任务
    的头像 发表于 05-10 11:13 1558次阅读
    如何通过一个简单的<b class='flag-5'>方法</b>来解锁大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的推理能力?