0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于实体和动作时空建模的视频文本预训练

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-25 11:29 次阅读

摘要

尽管常见的大规模视频-文本预训练模型已经在很多下游任务取得不错的效果,现有的模型通常将视频或者文本视为一个整体建模跨模态的表示,显示结合并建模细粒度信息的探索并不多,本文提出了STOA-VLP,一种时间和空间维度上同时建模动态的实体和动作信息的video-language预训练框架,以进一步增强跨模态的细粒度关联性。

简介

细粒度的信息对于理解视频场景并建模跨模态关联具有很重要的作用。如图1-a中:基于视频生成对应的视频描述,需要关注其中的人、狗两个实体,随着时间的推移,两个实体之间的相对状态和空间位置发生了变化,模型需要对动态的实体信息和实体之间的交互进行建模,才能正确地生成对应的视频描述。更进一步地,如图1-b中:在同一个视频片段当中,视频中的实体,如猴子和猫之间的不同交互产生了多个不同的动作状态,而问题就是针对相关联的动作提出的,模型不但需要建模视频片段中的多个动作,感知动作状态的变化,还需要推理出动作状态之间的关联才能得到正确的答案。

0b1b197a-fa2a-11ed-90ce-dac502259ad0.png图1:例子

在本文中,我们提出了一个视频-文本预训练方法——STOA-VLP,通过显式地建模时序相关的实体轨迹和多个时空动作特征来更好地应对视频中实体的动态变化和实体交互。此外,我们设计了两个辅助预训练任务:实体-文本对齐(object text alignment, OTA)任务和动作集合预测(Action Set Prediction, ASP)任务以在与训练阶段利用文本特征辅助建模前述的实体轨迹和动作特征。

方法

0b284302-fa2a-11ed-90ce-dac502259ad0.png图2:模型整体架构

模型架构

模型的整体架构如图2左侧所示,模型整体结构包括模态相关编码器:视频编码器(Video Encoder)、文本编码器(Text Encoder)、和一个模态无关编码器(Modality-agnostic Fusion Encoder),文本和视频分别经过视频和文本编码器进行特征抽取。为了显式地建模动态的实体轨迹和时空动作特征,我们引入了两个新的特征编码器:实体轨迹编码器(Object Trajectory Encoder)和时空动作编码器(Spatial-Temporal Action Encoder),我们从视频帧中抽取实体的边界框(bounding box)信息,其中的实体bounding box、分类信息用于与视频特征结合生成对应的实体有噪标注,作为实体轨迹编码器和时空动作编码器的输入。最终,四个模态相关的编码器抽取的特征会同时进入模态无关编码器进行信息融合交互。所有的编码器都采用Transformer[1]结构。我们利用视频编码器和文本编码器分别得到对应的视频、文本特征和,其余各模块的具体介绍如下:

实体轨迹编码追踪器:正如前文例子所示,如果模型不能很好地建模视频帧之间实体的动态变化,在下游任务上可能无法获得最好的效果。因此,我们通过建模跨视频帧的有噪实体轨迹来解决这个问题:a. 使用离线的实体检测模型(VinVL[2])分别对每一帧进行实体检测。b. 每帧保留Top-K个不同的实体,并且留下其候选框和类别,通过RoIAlign方法[3] 得到top-K个实体的表征:,为视频编码器编码的视频特征的块(patch)级别的表征。c. 通过求和不同帧的候选实体检测分类置信分数,选取top-N个实体类别用作视频级需要建模轨迹的候选实体类别d. 我们将不同视频帧抽取得到的实体特征拼接,并合并时间和实体维度,得到对应的实体特征,针对步骤d中得到的Top-N实体类别,我们为每个类别构造一个mask ,mask位置为1,代表中对应位置的实体特征类别为。通过实体类别的mask和实体特征矩阵,我们能够掩码得到对应实体在不同帧的特征合成的特征轨迹,称之为实体轨迹序列。e. 对于每个视频,我们最终能够构造得到N个实体轨迹序列,我们将其输入实体轨迹编码器,最终取位置的特征,得到实体轨迹特征。

时空动作编码器:识别视频片段中动作的关键是,识别场景中的实体,并建模实体在视频场景中的移动和不同的交互。在此,我们显式建模多个动作特征,以捕捉视频片段中不同的动作信息。a. 我们假设视频片段中包含有M个不同的动作,为了获得每个动作的特征,我们构造M个动作特征请求(query),。b. 我们使用前述通过视频编码器和实体检测模型得到的视频特征和对应的实体表征,拼接得到包含场景和实体信息的视频特征。c. 我们利用动作特征query,通过注意力机制获得帧级别的动作特征线索:。d. 我们将每个动作特征序列输入到时空动作编码器当中,来建模不同帧之间包含的时序线索,最后,我们得到的动作特征编码。

模态无关交互编码器:通过拼接上游四个步骤的特征:视频表征、文本表征、实体轨迹特征、时空动作特征输入对应的编码器进行进一步的交互,最后,我们取和位置的输出作为视频和文本的整体表征。

训练目标

如图2所示,STOA-VLP的预训练过程包含四类训练目标:视频-文本对齐任务、条件语言建模任务,以及我们提出的两个辅助任务——动态实体-文本对齐(Dynamic Object-Text Alignment, OTA)和时空动作集合预测(Spatial-Temporal Action Set Prediction, ASP)。我们利用视觉-文本对比学习任务(Visual-Text Contrastive, VTC)和视觉-文本对齐任务(Visual-Text Maching)建模视频-文本的粗粒度对齐。利用掩码语言建模(MLM)和前缀语言建模(PLM)来增强模态无关编码器的语言理解和生成能力。为了进一步提升实体轨迹追踪编码器的效果,建立细粒度的跨模态对齐表示,我们通过OTA任务对齐候选实体轨迹和文本中相关文本,以进一步提高通过视频特征得到的实体轨迹和文本特征的相关性:

通过词性标注工具,抽取文本中的名词用作对齐候选,并使用对应的文本编码器输出对应的名词特征

使用轨迹追踪编码器输出的轨迹特征和名词特征的相似度为他们之间的关联权重

最终使用匈牙利算法[4]得到二分图的最大匹配,模型的目标是尽力提高最大匹配的相似度0b6ff1f2-fa2a-11ed-90ce-dac502259ad0.png相比于利用抽取得到的特征直接预测有限的动作类别,我们在这里选择了一种更弹性的方法——从匹配文本中的动词集合中预测对应于当前动作特征的类别,以指导时空动作编码器的学习:

我们利用词性标注工具和文本编码器得到对应的动词特征集合。

我们并不能直接标注视频中包含的动作类别,也无法知道编码得到的动作特征和文本中包含动作的对应关系,因此我们同样在这里通过动作特征和文本动词特征之间的相似度作为关联权重,并将最大匹配视为当前的ground truth匹配关系,并最大化最大匹配的相似度:0b75c8f2-fa2a-11ed-90ce-dac502259ad0.png通过优化该目标,比我们编码的动作特征和文本中的动词特征距离将被拉近,动作编码器能够生成和文本特征更相关的特征。

实验

实验细节

我们在WebVid-2M[5]数据集上进行模型的预训练,WebVid-2M包含了250万个从网络中收集的视频-文本对。我们利用CLIP-ViT-B/16[6]初始化我们的视频编码器,并用其顶层参数初始化实体轨迹编码器和时空动作编码器。文本编码器和模态编码器由CLIP文本编码器的前6层初始化。实体轨迹编码的数量为20,动作特征的个数为4。

下游任务

我们在三类常用的视频-文本理解和生成任务上进行了实验:视频描述生成,文本-视频检索和视频问答

0b96da2e-fa2a-11ed-90ce-dac502259ad0.png表1:视频描述生成的实验结果

在使用更少的视频-文本预训练数据的情况下,我们的模型在视频描述生成上得到了更好的结果,在多数指标上都超过了其他的模型。通过显式地建模基于文本信息对齐的实体轨迹和动作信息,模型能够更好地利用其进行视频描述生成。

0ba77776-fa2a-11ed-90ce-dac502259ad0.png表2:文本-视频检索的实验结果

如表2所示,我们的模型在检索任务上的所有指标都超过了未基于CLIP初始化的模型,并且在大多数指标上均超过了基于CLIP初始化的模型。

0be6b29c-fa2a-11ed-90ce-dac502259ad0.png表3:视频问答的实验结果

如表3所示,在视频问答任务上,我们的模型仅使用了2.5M的预训练数据,超越了MSVD-QA上的所有其他方法。与之前的SOTA,MSVD-QA的性能提高2.9%,MSR-VTT-MC的性能提高1.4%。我们推测,通过显式地建模实体轨迹和动作,在问题和视觉特征之间建立了更好的对齐,并观察和利用视频中的细粒度信息来更好地回答文本问题。

消融实验

0befbb4e-fa2a-11ed-90ce-dac502259ad0.png表4:不同模块的消融实验

我们进一步分析了我们引入的时空特征和辅助任务的影响,并在视频描述生成和视频问答两个任务上验证,这两个任务在本质上需要更细粒度的信息和对视频场景时空信息的理解。Base模型删除了所有时空建模模块和辅助建模任务。与Base模型相比,仅仅引入基于时序的实体轨迹信息就可以为所有任务带来改进。我们的OTA任务进一步构建了实体轨迹和名词之间的细粒度对齐,文本模态的指导进一步提升了模型在下游任务当中的表现。我们还发现,不引入辅助任务ASP的情况下,添加一个时空动作建模模块引入时空动作token会使得下游任务的部分指标更差。我们认为,这可能是因为视频描述生成和视频问答任务需要对视觉部分进行细粒度的语义理解,如果没有ASP任务的指导,我们抽取的动作特征的含义是模糊的,其导致了性能下降。最后,连同我们提出的时空模块和两个辅助任务,我们在下游任务上取得了最好的结果,表明我们引入的细粒度时空信息和辅助任务能够提升预训练模型在下游任务的能力,一定程度上缓解了前述的问题。

结论

在本文中,我们通过在视频-文本预训练的过程中显式建模细粒度的时空特征来更好地构建跨模态的对齐。我们提出的STOA-VLP引入了两个新的模块,在时空维度上建模实体轨迹和动作特征。我们设计了两个辅助任务来建立由粗到细的跨模态对齐。仅仅使用中等规模的与训练数据,我们在下游任务上就观察到了较好的表现,该方法进一步增强了视觉特征和文本特征之间的关联性。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3360

    浏览量

    131540
  • 建模
    +关注

    关注

    1

    文章

    281

    浏览量

    60500
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47689

原文标题:AAAI 2023 | 基于实体和动作时空建模的视频文本预训练

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NLPIR在文本信息提取方面的优势介绍

    构建知识图谱需要满足三项要素要求,分别是实体,关系和属性。文本信息提取,则是在文本中提出三元信息,包括实体和关系的信息,实体和属性的信息,
    发表于 09-12 15:33

    3D软件中实体建模与曲面建模有什么区别?

    实体建模和曲面建模是3D设计中较为常用的两种三维建模方式,那么这两者在实际的绘图操作中有什么区别呢?又该如何区分使用这两种三维建模方式呢?下
    发表于 06-05 15:25

    基于词组学习的视频文本检测方法

    提出一种以词组作为模式识别对象的中英文视频文本检测算法,其根据视频文本的笔画结构特点和聚集特性构造一个18维的特征向量,利用支持向量机将视频
    发表于 04-18 09:51 27次下载

    客车车身的三维实体建模技术

    介绍客车车身三维建模的方法及常用软件, 用实例说明客车车身三维实体建模的过程。关键词: 客车车身 实体 三维建模Abstract: Th i
    发表于 07-25 09:44 29次下载

    基于视频深度学习的时空双流人物动作识别模型

    深度学习被运用于图片分类、人物脸部识别和人物位置预测等识别领域。视频人物动作识别可看作随时间变化图片的分类问题,所以图片识别的深度学习方法也被大量使用在视频人物动作识别研究中。与计算机
    发表于 04-17 10:46 0次下载
    基于<b class='flag-5'>视频</b>深度学习的<b class='flag-5'>时空</b>双流人物<b class='flag-5'>动作</b>识别模型

    基于协同训练的电商领域文本短语挖掘方法

    电商领域的文本通常不遵循通用领域文本的表达方式,导致传统短语挖掘方法在电商领域文本中的挖掘精度较低。为此,提出一种基于协同训练的电商领域短语挖掘方法。通过基于语义特征的短语分类模型来有
    发表于 05-13 15:01 0次下载

    基于聚类网络的文本-视频特征学习综述

    综合理解视频内容和文本语义在很多领域都有着广泛的硏究。早期的研究主要是将文本-视频映射到一个公共向量空间,然而这种方法所面临的一个问题是大规模文本
    发表于 05-18 15:07 4次下载

    基于视频帧间差分序列的动作识别模型

    针对视频动作识别中数据处理效率不髙的冋题,建立一种基于视频帧间差分序列的动作识别模型。利用帧间差分检测视频帧中的运动区域,以该区域为中心进行
    发表于 05-19 17:07 12次下载

    怎样去增强PLM对于实体实体间关系的理解?

    传统的预训练目标没有对文本中的关系事实进行显式建模,而这些关系事实对于理解文本至关重要。
    的头像 发表于 06-23 15:32 1000次阅读
    怎样去增强PLM对于<b class='flag-5'>实体</b>和<b class='flag-5'>实体</b>间关系的理解?

    面向搜索的微博短文本语义建模方法综述

    面向搜索的微博短文本语义建模方法综述
    发表于 06-24 14:30 3次下载

    文本训练的模型架构及相关数据集

    多模态预训练的数据通常来源于大规模的模态间对齐样本对。由于时序维度的存在,视频当中包含了比图片更加丰富而冗余的信息。因此,收集大规模的视频-文本对齐数据对用于
    的头像 发表于 07-01 11:08 1694次阅读

    时空表示学习框架中使用 MLP 所面临的挑战

    美图影像研究院(MT Lab)与新加坡国立大学提出高效的 MLP(多层感知机模型)视频主干网络,用于解决极具挑战性的视频时空建模问题。
    的头像 发表于 09-05 14:42 758次阅读

    基于VQVAE的长文本生成 利用离散code来建模文本篇章结构的方法

    等,其输入信息有限,而要求输出内容丰富,经常需要生成多个句子或段落,在这些任务上预训练语言模型依然存在连贯性较差、缺乏常识等问题。本次与大家分享一篇建模文本篇章结构的工作,用以提升生成文本
    的头像 发表于 12-01 17:07 1173次阅读

    复旦&amp;微软提出​OmniVL:首个统一图像、视频文本的基础预训练模型

    根据输入数据和目标下游任务的不同,现有的VLP方法可以大致分为两类:图像-文本训练视频-文本训练。前者从图像-
    的头像 发表于 12-14 15:26 608次阅读

    基于文本到图像模型的可控文本视频生成

    1. 论文信息 2. 引言   大规模扩散模型在文本到图像合成方面取得了巨大的突破,并在创意应用方面取得了成功。一些工作试图在视频领域复制这个成功,即在野外世界建模高维复杂视频分布。然
    的头像 发表于 06-14 10:39 586次阅读
    基于<b class='flag-5'>文本</b>到图像模型的可控<b class='flag-5'>文本</b>到<b class='flag-5'>视频</b>生成