ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法-电子发烧友网

来自：复旦DISC

引言

本次分享我们将介绍三篇来自ACL2021的跨视觉语言模态的论文。这三篇文章分别介绍了如何在图像描述任务中生成契合用户意图的图像描述、端对端的视觉语言预训练模型和如何生成包含更多细节的图像描述。

文章概览

Control Image Captioning Spatially and Temporally

论文地址：https://aclanthology.org/2021.acl-long.157.pdf

该篇文章基于对比学习和注意力机制引导提出了LoopCAG模型。LoopCAG可以根据输入的鼠标轨迹，生成与鼠标轨迹相匹配的图像描述，从而增强了图片描述生成的可控性和可解释性。

E2E-VLP： End-to-End Vision-Language Pretraining Enhanced by Visual Learning

论文地址：https://arxiv.org/pdf/2106.01804.pdf

这篇文章提出了一个端到端的视觉语言预训练模型。模型不需要利用预训练的目标检测器抽取基于区域的视觉特征，直接以图片作为输入。并且设计了两个额外的视觉预训练任务帮助模型学习细粒度的信息，达到了和两阶段模型相似的效果，并且提高了运算效率。

Enhancing Descriptive Image Captioning with Natural Language Inference

论文地址：https://aclanthology.org/2021.acl-short.36.pdf

这篇文章通过推理图和PageRank对图像描述进行描述性打分。再通过参考抽样和加权指定奖励来生成具有更多细节的图像描述。模型生成了比一般方法具有更多细节的图像描述，这些图像描述可以包含基线方法生成的图像描述。

论文细节

动机

图像描述任务主要针对图片上比较突出的物体和物体关系展开描述，这样的图片描述没有考虑到用户意图。为了生成具备可控性和可解释性的图像描述，最近的工作提出了生成可控性的图像描述任务。为了生成符合用户意图的图像描述，通常会对描述加以情感、边界框和鼠标轨迹限制。与此同时，近期提出的 Localized-Narratives 数据集将鼠标轨迹作为图像描述任务的另一个输入，为图像描述生成任务中所涉及的语义概念进行空间和时序关系上的控制提供了可能。

模型

LoopCAG 可以总结为三部分：用于生成图片描述且以 Transformer 为主干网络的编码器-解码器；用于视觉对象空间定位的注意力引导（Attention Guidance）组件；用于句子级时序对齐的对比性约束（Contrastive Constraints）组件。

（1）Caption Generation

作者将视觉特征V和轨迹特征T分别编码，并叠加位置信息后得和，然后串联在一起作为一个统一的序列输入编码器。解码器通过交叉注意力模块与编码器最后一层的隐藏状态相连，将视觉和轨迹信息结合起来作为生成的前置条件。解码器的优化目标是将以下目标函数最小化：

（2）Attention Guidance

为了定位物体，作者用轨迹作为中间桥梁联系物体和语义token。作者构建了一个监督矩阵来引导词语和视觉对象之间的注意力，即需要物体轨迹点尽可能多的落入对象边界框中。当注意力监督矩阵和模型的交叉注意力矩阵尽可能接近时，词语则可以准确的对应到图片的空间视觉物体上。

（3）Contrastive Constraints

作者使用对比损失函数来约束生成过程的时间顺序，对比损失的形式是 NCE 函数，用来学习区分轨迹-描述对之中的正例和负例。正例是指在顺序上自然对应的描述句和轨迹段，而其余的轨迹-描述对组合均为负例。

最后作者通过将所有损失的总和最小化来联合优化模型。

实验

作者在Localized-Narratives COCO 这个数据集上进行了训练和测试。在测试集上的结果如图所示，LoopCAG 方法在所有的自动评测指标上都达到了先进水平。从表中可以看出，ROUGE-L 的得分提升了2.0。由于 ROUGE-L 主要采用了对顺序敏感的最长共同子序列计分方式，这表明对比约束可以促进生成句子的顺序和用户意图的对应。

动机

基于海量图文对的多模态预训练在下游的跨模态任务中已经取得巨大的成功。现有的多模态预训练的方法主要基于两阶段训练，首先利用预训练的目标检测器抽取基于区域的视觉特征，然后拼接视觉表示和文本向量作为Transformer的输入进行训练。这样的模型存在两点问题，一个是第一阶段通常在特定数据集进行训练模型泛化能力不好，此外提取区域的视觉特征比较耗费时间。基于此作者提出了端到端的像素级别的视觉语言预训练模型。模型通过一个统一的Transformer框架同时学习图像特征和多模态表示

模型

本文的模型如图所示。E2E-VLP用一个CNN 模型提取图片视觉特征的同时用一个Transformer进行多模态特征学习。

（1） Input Representations

模型首先用WordPiece tokenizer 分词进行序列化。图片则直接以三通道的像素矩阵输入。

（2） Cross-modal Encoder Pre-training：Transformer

模型用Resnet提取图片的特征向量。用Transformer模块接受图像-句子的序列输入，进行跨模态语义学习。

为了提取跨模态语义信息，模型设计了两个预训练任务。一个是与Bert类似的Masked Language Modeling，只是在该任务中除去上下文信息还可以利用图片信息避免语义混淆，第二个任务是进行图片文本匹配。

（3） Visual-enhanced Decoder

为了提取更细粒度的视觉特征，接入了物体检测和描述生成两个任务。在物体检测中，为了增强视觉语义特征的学习，除去常规的位置和物体种类预测，我们引入了属性预测这一任务。描述生成图片对应的描述。

实验

根据实验结果，E2E-VLP 和两阶段模型相比，也取得了比较好效果，可以理解和完成两种任务。同时在参数量上，E2E-VLP 则具有更加轻量的优势。

动机

现阶段的图像描述模型通常倾向于生成比较安全的较为笼统的描述，而忽略图像细节。为了生成包含更多细节的图像描述，作者基于更具有细节的图像描述通常包含笼统描述的全部信息这一观点提出了基于自然语言推断的描述关系模型。

方法

这篇文章的具体方法如下：

（1）Constructing Inference Graphs

首先用基于Bert的自然语言推断模型判断图像描述之间的关系，由于图像描述之间不存在冲突因此挪去了冲突关系。并对一张图的描述构建如图所示的推断关系图，并利用Pagerank的方法对推断图计算描述性评分。

（2）Descriptiveness Regularized Learning

由于传统图像描述的第一阶段生成描述和图像描述最小化交叉熵损失函数等同于生成描述和均匀分布的图像描述之间的KL Divergence，为了生成更具有描述性的图像描述。则采用归一化的描述性评分分布取代均匀分布，认为更具有描述性的图像描述具有更高的生成概率。

在第二阶段，最大化生成图像描述的期望收益时，也同时用描述性评分取代均匀分布来计算期望收益。

实验

根据实验结果，模型在多数指标特别是CIDER评分上超过了Baseline，这是因为CIDER倾向于具有更加特殊的细节描述。

此外根据自然语言推断模型判断文章模型生成的图像描述对baseline的图像描述形成更多的包含关系。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1073

浏览量
40146
编码器

编码器

+关注

关注
41

文章
3359

浏览量
131470
图像

图像

+关注

关注
2

文章
1063

浏览量
40035
函数

函数

+关注

关注
3

文章
3863

浏览量
61303
cnn

cnn

+关注

关注
3

文章
326

浏览量
21296

原文标题：ACL2021 | 跨视觉语言模态任务与方法

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •119次阅读

机器人基于开源的多<b class='flag-5'>模态</b><b class='flag-5'>语言</b><b class='flag-5'>视觉</b>大模型

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频

发表于 12-28 11:45 •204次阅读

自动驾驶和多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b>模型的发展历程

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单

目前的 VL 预训练方法通常仅适用于视觉和语言模态，而现实世界中的应用场景往往包含更多的模态信息，如深度图、热图像等。如何整合和分析不同

发表于 11-23 15:46 •280次阅读

用<b class='flag-5'>语言</b>对齐多<b class='flag-5'>模态</b>信息，北大腾讯等提出LanguageBind，刷新多个榜单

哈工大提出Myriad：利用视觉专家进行工业异常检测的大型多模态模型

最近，大型多模态（即视觉和语言）模型（LMM）在图像描述、视觉理解、视觉推理等多种视觉

发表于 11-21 16:08 •679次阅读

哈工大提出Myriad：利用<b class='flag-5'>视觉</b>专家进行工业异常检测的大型多<b class='flag-5'>模态</b>模型

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态模型编辑入手，将单模态模型编辑拓展到多

发表于 11-09 14:53 •252次阅读

探究编辑多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b>模型的可行性

基于视觉的多模态触觉感知系统

传统的多模态/多任务触觉感知系统通过集成多种传感单元来达到多模态触觉信息的解耦，但其往往导致系统结构的复杂性，以及需要应对来自不同刺激间的干扰。

发表于 10-18 11:24 •213次阅读

基于<b class='flag-5'>视觉</b>的多<b class='flag-5'>模态</b>触觉感知系统

基于Transformer多模态先导性工作

多模态（Multimodality）是指在信息处理、传递和表达中涉及多种不同的感知模态或信息来源。这些感知模态可以包括语言、视觉、听觉、触觉

发表于 08-21 09:49 •552次阅读

基于Transformer多<b class='flag-5'>模态</b>先导性工作

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

当前学界和工业界都对多模态大模型研究热情高涨。去年，谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ，它使用单一视觉

发表于 07-16 20:45 •400次阅读

更强更通用：智源「悟道3.0」Emu多<b class='flag-5'>模态</b>大模型开源，在多<b class='flag-5'>模态</b>序列中「补全一切」

用图像对齐所有模态，Meta开源多感官AI基础模型，实现大一统

最近，很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的

发表于 05-26 15:45 •566次阅读

用图像对齐所有<b class='flag-5'>模态</b>，Meta开源多感官AI基础模型，实现大一统

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口

发表于 05-22 15:57 •513次阅读

如何利用LLM做多<b class='flag-5'>模态</b><b class='flag-5'>任务</b>？

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

大型语言模型（LLM）在各种自然语言处理任务上表现出惊人的能力。与此同时，多模态大型语言模型，如 GPT-4、PALM-E 和 LLaVA，

发表于 05-22 14:38 •445次阅读

邱锡鹏团队提出具有内生跨<b class='flag-5'>模态</b>能力的SpeechGPT，为多<b class='flag-5'>模态</b>LLM指明方向

邱锡鹏团队提出SpeechGPT：具有内生跨模态能力的大语言模型

虽然现有的级联方法或口语语言模型能够感知和生成语音，但仍存在一些限制。首先，在级联模型中，LLM 仅充当内容生成器。由于语音和文本的表示没有对齐，LLM 的知识无法迁移到语音模态中。

发表于 05-22 10:19 •414次阅读

邱锡鹏团队提出SpeechGPT：具有内生跨<b class='flag-5'>模态</b>能力的大<b class='flag-5'>语言</b>模型

多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！

基于开源多模态模型 OpenFlamingo，作者使用公开数据集创建了各种视觉指令数据，包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉

发表于 05-12 09:55 •879次阅读

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口并且不会透露任何模型上技术细节。因此，现阶段，如何利用LLM做一些多

发表于 05-11 17:09 •677次阅读

ImageBind：跨模态之王，将6种模态全部绑定！

最近，很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的

发表于 05-11 09:30 •672次阅读

搜索历史

ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法

评论

机器人基于开源的多模态语言视觉大模型

自动驾驶和多模态大语言模型的发展历程

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单

哈工大提出Myriad：利用视觉专家进行工业异常检测的大型多模态模型

探究编辑多模态大语言模型的可行性

基于视觉的多模态触觉感知系统

基于Transformer多模态先导性工作

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

用图像对齐所有模态，Meta开源多感官AI基础模型，实现大一统

如何利用LLM做多模态任务？

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

邱锡鹏团队提出SpeechGPT：具有内生跨模态能力的大语言模型

多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！

如何利用LLM做多模态任务？

ImageBind：跨模态之王，将6种模态全部绑定！