ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法-电子发烧友网

来自：复旦DISC

引言

本次分享我们将介绍三篇来自ACL2021的跨视觉语言模态的论文。这三篇文章分别介绍了如何在图像描述任务中生成契合用户意图的图像描述、端对端的视觉语言预训练模型和如何生成包含更多细节的图像描述。

文章概览

Control Image Captioning Spatially and Temporally

论文地址：https://aclanthology.org/2021.acl-long.157.pdf

该篇文章基于对比学习和注意力机制引导提出了LoopCAG模型。LoopCAG可以根据输入的鼠标轨迹，生成与鼠标轨迹相匹配的图像描述，从而增强了图片描述生成的可控性和可解释性。

E2E-VLP： End-to-End Vision-Language Pretraining Enhanced by Visual Learning

论文地址：https://arxiv.org/pdf/2106.01804.pdf

这篇文章提出了一个端到端的视觉语言预训练模型。模型不需要利用预训练的目标检测器抽取基于区域的视觉特征，直接以图片作为输入。并且设计了两个额外的视觉预训练任务帮助模型学习细粒度的信息，达到了和两阶段模型相似的效果，并且提高了运算效率。

Enhancing Descriptive Image Captioning with Natural Language Inference

论文地址：https://aclanthology.org/2021.acl-short.36.pdf

这篇文章通过推理图和PageRank对图像描述进行描述性打分。再通过参考抽样和加权指定奖励来生成具有更多细节的图像描述。模型生成了比一般方法具有更多细节的图像描述，这些图像描述可以包含基线方法生成的图像描述。

论文细节

动机

图像描述任务主要针对图片上比较突出的物体和物体关系展开描述，这样的图片描述没有考虑到用户意图。为了生成具备可控性和可解释性的图像描述，最近的工作提出了生成可控性的图像描述任务。为了生成符合用户意图的图像描述，通常会对描述加以情感、边界框和鼠标轨迹限制。与此同时，近期提出的 Localized-Narratives 数据集将鼠标轨迹作为图像描述任务的另一个输入，为图像描述生成任务中所涉及的语义概念进行空间和时序关系上的控制提供了可能。

模型

LoopCAG 可以总结为三部分：用于生成图片描述且以 Transformer 为主干网络的编码器-解码器；用于视觉对象空间定位的注意力引导（Attention Guidance）组件；用于句子级时序对齐的对比性约束（Contrastive Constraints）组件。

（1）Caption Generation

作者将视觉特征V和轨迹特征T分别编码，并叠加位置信息后得和，然后串联在一起作为一个统一的序列输入编码器。解码器通过交叉注意力模块与编码器最后一层的隐藏状态相连，将视觉和轨迹信息结合起来作为生成的前置条件。解码器的优化目标是将以下目标函数最小化：

（2）Attention Guidance

为了定位物体，作者用轨迹作为中间桥梁联系物体和语义token。作者构建了一个监督矩阵来引导词语和视觉对象之间的注意力，即需要物体轨迹点尽可能多的落入对象边界框中。当注意力监督矩阵和模型的交叉注意力矩阵尽可能接近时，词语则可以准确的对应到图片的空间视觉物体上。

（3）Contrastive Constraints

作者使用对比损失函数来约束生成过程的时间顺序，对比损失的形式是 NCE 函数，用来学习区分轨迹-描述对之中的正例和负例。正例是指在顺序上自然对应的描述句和轨迹段，而其余的轨迹-描述对组合均为负例。

最后作者通过将所有损失的总和最小化来联合优化模型。

实验

作者在Localized-Narratives COCO 这个数据集上进行了训练和测试。在测试集上的结果如图所示，LoopCAG 方法在所有的自动评测指标上都达到了先进水平。从表中可以看出，ROUGE-L 的得分提升了2.0。由于 ROUGE-L 主要采用了对顺序敏感的最长共同子序列计分方式，这表明对比约束可以促进生成句子的顺序和用户意图的对应。

动机

基于海量图文对的多模态预训练在下游的跨模态任务中已经取得巨大的成功。现有的多模态预训练的方法主要基于两阶段训练，首先利用预训练的目标检测器抽取基于区域的视觉特征，然后拼接视觉表示和文本向量作为Transformer的输入进行训练。这样的模型存在两点问题，一个是第一阶段通常在特定数据集进行训练模型泛化能力不好，此外提取区域的视觉特征比较耗费时间。基于此作者提出了端到端的像素级别的视觉语言预训练模型。模型通过一个统一的Transformer框架同时学习图像特征和多模态表示

模型

本文的模型如图所示。E2E-VLP用一个CNN 模型提取图片视觉特征的同时用一个Transformer进行多模态特征学习。