桥接视觉与语言的研究综述-电子发烧友网

近年来，由于深度学习、计算机视觉和自然语言处理等多学科领域的兴趣激增，视觉和语言任务的桥接得到了显著的发展。在本综述中，我们重点研究了10种不同的视觉和语言桥接任务，包括它们的问题定义、方法、现有数据集、评估指标，以及与相应的最先进方法的结果的比较。这超越了早期的一些综述，这些综述要么是特定于任务的，要么只专注于一种类型的视觉内容，即图像或视频。最后，我们讨论了视觉与语言研究未来可能的整合方向。

引言

近年来，深度学习的发展使得计算机视觉（CV）和自然语言处理（NLP）领域在多项任务中取得重大进展。

最近很多研究都热衷于解决这些传统独立领域的语言和视觉信息相结合的挑战。应对语言和视觉结合挑战的方法应提供对视觉或文本内容的完全理解，并期望（1）生成关于视觉内容的可理解但简洁且语法良好的描述，反之亦然，其中给定文本描述生成视觉内容返回（2）识别视觉内容中的对象并推断它们与原因的关系或回答关于它们的任意问题（3）通过利用视觉和自然语言指令的输入来进行浏览（4）翻译文本从一种语言到另一种语言的内容，其视觉内容用于消除歧义（5）生成有关视觉内容的故事等。这些方法的设计可以处理和关联来自多种形式的信息（即语言和视觉信息），通常被称为多模态学习模型的一部分（Mogadala，2015）。

然而，在这篇文章中，作者不仅提供了十个不同任务的全面概述，还提供了驱动当前视觉和语言研究集成的方法、数据集和评估指标。在第2节中，首先介绍了视觉和语言集成的10个重要任务及其方法，并在第3节中概述了用于每个任务的数据集。然后，在第4节中，我们分别描述了视觉和语言的表示，并进一步讨论了将视觉和语言结合起来实现任务的主要方法。在第5节中，我们给出了用于所有10个任务的评估指标。此外，在第6节中，还比较和讨论了通过相应方法实现的每个任务的基准结果。在第7节中，我们讨论了可能的未来方向，最后第8节结束了我们的综述，并讨论了对结果的一些见解。

然而，在综述中，我们超越了单词并提出了那些将可变长度大于单词的文本作为语言输入的任务。这些任务中的大多数被视为对CV、NLP或这两个问题的扩展。图1总结了不同的任务。然而，为了了解这些任务如何被视为CV，NLP或两者中问题的自然延伸，我们简要地发现它们与其各自研究中解决的类似任务之间的相关性。

图1：十种不同的语言和视觉集成任务。

图2：给定一张图像，标准图像描述生成模型生成一个全局文本描述。

表1：生成图像全局描述的方法摘要。

图3：给定一个视频（表示为帧序列），视频描述生成模型生成单个全局标题。

图4：给定图像序列，图像叙事模型按顺序生成文本故事。

图5：给定视频帧（摘自（Li et al., 2018）），视频叙事模型按顺序生成文本故事。

图6：给定一张图像和问题，图像问答模型产生答案。

图7：给定一个视频（由TV Q＆A数据集中的帧序列表示）和问题，视频问答模型从多个选项中找到正确的答案。

图8：给定一张图像，问题和对话历史记录，图像对话模型基于它生成答案。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机视觉

计算机视觉

+关注

关注
8

文章
1591

浏览量
45592
深度学习

深度学习

+关注

关注
73

文章
5225

浏览量
119869

原文标题：NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

文章出处：【微信号：CAAI-1981，微信公众号：中国人工智能学会】欢迎添加关注！文章转载请注明出处。

芯片 #机器学习 #机器视觉 IGBT识别系统系统，可以集成化识别金线IGBT的桥接、塌陷、缺失

IGBT桥接

jf_63192996

发布于 :2022年12月09日 16:51:39

图像中的文本定位技术研究综述_晋瑾电子书

图像中的文本定位技术研究综述_晋瑾

发表于 06-29 12:24

STM32的时钟源综述

一、综述：1、时钟源在 STM32 中，一共有 5 个时钟源，分别是 HSI 、 HSE 、 LSI 、 LSE 、 PLL 。 ①HSI 是高速内部时钟， RC 振荡器，频率为 8MHz

发表于 08-23 06:24

视觉问答与对话任务研究综述

对机器的感知能力、认知能力和推理能力均提出了较髙的要求，在跨模态人机交互应用中具有实用前景。文中对近年来视觉问答与对话的研究进展进行了综述，对数据集和算法进行了归纳，对研究挑战和问题进

发表于 04-08 10:33 •10次下载

<b class='flag-5'>视觉</b>问答与对话任务<b class='flag-5'>研究</b><b class='flag-5'>综述</b>

Prel语法与C语言语法的异同综述

发表于 05-25 11:44 •4次下载

汽车油箱盖机器视觉检测系统综述

发表于 05-29 11:46 •12次下载

高速视觉测量系统关键技术及研究综述

发表于 06-16 10:16 •15次下载

基于Harris-SIFT的缝料视觉定位系统综述

发表于 06-22 16:05 •15次下载

基于视觉/惯导的无人机组合导航算法综述

发表于 06-23 15:52 •19次下载

神经形态视觉传感器在人工智能的应用综述

发表于 06-24 15:24 •21次下载

labview视觉中不同模块的使用综述

发表于 09-10 16:16 •32次下载

基于深度学习的目标检测研究综述

基于深度学习的目标检测研究综述来源：《电子学报》，作者罗会兰等摘要：目标检测是计算机视觉领域内的热点课题，在机器人导航、智能视频监控及航天航空等领域都有广泛的应用.本文首先综述

发表于 01-06 09:14 •1756次阅读

视觉语言导航领域任务、方法和未来方向的综述

视觉语言导航（VLN）是一个新兴的研究领域，旨在构建一种可以用自然语言与人类交流并在真实的3D环境中导航的具身代理，与计算机视觉、自然

发表于 09-20 14:30 •2758次阅读

视觉-语言预训练入门指南

视觉-语言 (Vision-Language, VL) 是计算机视觉和自然语言处理这两个研究领域之间形成的交叉领域，旨在赋予 AI 系统从多

发表于 02-06 10:18 •569次阅读

多维度剖析视觉-语言训练的技术路线

（如BERT\GPT等）的启发，视觉-语言预训练 (Vision-Language Pre-training, VLP) 逐渐受到关注，成为如今 VL 任务的核心训练范式。本文对 VLP 领域近期的综述文章进行整理，回顾其最新的

发表于 02-23 11:15 •663次阅读

搜索历史

桥接视觉与语言的研究综述

评论