微软亚研提出VL-BERT，现取得了当前单模型的最好效果-电子发烧友网

机器之心发布

来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型（Visual-Linguistic BERT，简称 VL-BERT），该模型采用简单而强大的 Transformer 模型作为主干网络，并将其输入扩展为同时包含视觉与语言输入的多模态形式，适用于绝大多数视觉-语言下游任务。

为了让 VL-BERT 模型利用更为通用的特征表示，作者在大规模图片描述生成数据集 ConceptualCaptions 中进行 VL-BERT 的预训练，实验证明此预训练过程可以显著提高下游的视觉-语言任务的效果，包含视觉常识推理、视觉问答与引用表达式理解等。值得一提的是，在视觉常识推理排行榜中，VL-BERT 取得了当前单模型的最好效果。

适用于下游任务的通用特征表示预训练是深度网络成功的标志之一。在计算机视觉领域，深度网络在 ImageNet 数据集进行图像分类的预训练过程，被发现可广泛提高多种图像识别任务的效果。在自然语言处理领域中，Transformer 模型在大规模语料库中使用语言模型进行预训练的过程，也被证明可广泛提高多种自然语言处理任务的效果。

但对于计算机视觉和自然语言处理领域交叉的任务，例如图像标题生成、视觉问答、视觉常识推理等，缺少这种预训练的通用多模态特征表示。

一般来说，之前的视觉-语言模型分别使用计算机视觉或自然语言处理领域中的预训练模型进行初始化，但如果目标任务数据量不足，模型容易过拟合从而损失性能。并且对于不同的视觉-语言任务，其网络架构一般是经过特殊设计的，由此很难通过视觉-语言联合预训练的过程帮助下游任务。

由此，在本文中，提出了一种可广泛应用于视觉-语言任务的预训练通用特征表示，称为 Visual-LinguisitcBERT，简称 VL-BERT，其架构如下图所示：

VL-BERT 的主干网络使用 TransformerAttention 模块，并将视觉与语言嵌入特征作为输入，其中输入的每个元素是来自句子中的单词、或图像中的感兴趣区域（Region of Interests，简称 RoIs）。在模型训练的过程中，每个元素均可以根据其内容、位置、类别等信息自适应地聚合来自所有其他元素的信息。在堆叠多层 TransformerAttention 模块后，其特征表示即具有更为丰富的聚合与对齐视觉和语言线索的能力。

为了更好地建模通用的视觉-语言表示，在大规模视觉-语言语料库中对 VL-BERT 进行了预训练。采用的预训练数据集为图像标题生成数据集，Conceptual Captions，其中包含了大约 330 万个图像标题对。

VL-BERT 的预训练主要采用三个任务：a）屏蔽语言模型（Masked Language Modeling），即随机屏蔽掉语句中的一些词，并预测当前位置的词是什么；b）屏蔽 RoI 分类（MaskedRoIClassification），即随机屏蔽掉视觉输入中的一些 RoIs，并预测此空间位置对应 RoI 的所属类别；c）图像标题关联预测（Sentence-Image Relationship Prediction），即预测图像与标题是否属于同一对。

在预训练结束后，使用微调来进行下游任务的训练。本文中主要在三个视觉-语言下游任务中进行微调，即视觉常识推理（VisualCommonsenseReasoning）、视觉问答（VisualQuestionAnswering）与引用表达式理解（ReferringExpressionComprehension），下面将分别介绍。

视觉常识推理任务即给定图片与相关问题，机器不仅需要回答问题，还需要提供理由来证明答案的正确性。此任务（Q-》AR）被分解为两个子任务，即视觉问答（Q-》A，给定图片与问题，输出正确答案），以及视觉推理（QA-》R，给定图片、问题与答案，输出正确的理由）。

下面以视觉问答子任务为例，此任务的输入为问题、答案与图像的 RoIs，并预测此答案是否为正确答案。除此之外，作者发现微调时增加与预训练类似的 RoI 分类损失也会进一步提升性能，如下：

视觉问答任务即给定图片，回答与图片输入相关的问题。由此模型的输入即为问题与图像，基本元素为单词或 RoI，最终对答案进行预测，如下：

引用表达式理解任务是使用给定的引用表达式来定位图像中的相关对象，由此输入为查询（引用表达式）与图片中的 RoIs，并预测哪个 RoI 为查询输入的引用，如下：

下面将介绍论文中的一些主要实验结果：

a）在视觉常识推理（Visual Commonsense Reasoning）任务中，与当前最好方法的结果比较如下：

b）在视觉问答（Visual Question Answering）任务中，与当前最好方法的结果比较如下：

c）在引用表达式理解（Referring Expression Comprehension）任务中，与当前最好方法的结果比较如下：

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6240

浏览量
103076
机器

机器

+关注

关注
0

文章
756

浏览量
40491

原文标题：牛人发明无人机自动建房，空中喷“水泥”，网友：建筑工人要失业

文章出处：【微信号：youuav，微信公众号：无人机网】欢迎添加关注！文章转载请注明出处。

中国移动九天自然语言交互大模型获双重备案认证

在实际应用中，九天大模型取得了显著成效。在网络优化和客服服务中，大模型的应用显著提升了效率和性能，为用户带来更加便捷、高效的服务体验。

发表于 04-07 16:13 •448次阅读

关于大模型在软件测试领域应用的全面综述

大模型（LLM）由于其卓越的自然语言理解、推理等能力，已经被应用于各种场景，取得了前所未有的效果。

发表于 01-18 09:33 •1899次阅读

关于大<b class='flag-5'>模型</b>在软件测试领域应用的全面综述

单模单纤和单模双纤有什么区别

单模单纤和单模双纤是光纤传输中两种常见的模式。单模指的是一种传输光信号的模式，单纤和双纤指的是光纤中的纤芯数量。下面将详细介绍单模单纤和单模

发表于 12-20 14:40 •2541次阅读

LabVIEW进行癌症预测模型研究

病例和癌症相关死亡人数有所增加。其中，乳腺癌是女性中最常见的癌症类型。本研究采用ML技术对乳腺癌进行预测，比较了当前方法和提出的方法。使用诊断乳腺癌数据集包含699个样本，9个变量。数据集中的样本被

发表于 12-13 19:04

单模双纤和单模单纤的区别单模单纤和双纤哪个好效果一样吗

单模双纤和单模单纤的区别单模单纤和双纤哪个好单纤和双纤效果一样吗单模双纤和单模单纤是光纤

发表于 12-07 10:09 •7078次阅读

大模型数据集：突破边界，探索未来

随着人工智能技术的快速发展，大型预训练模型如GPT-4、BERT等在自然语言处理领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据集，为模型

发表于 12-06 16:10 •299次阅读

大模型数据集：构建、挑战与未来趋势

随着深度学习技术的快速发展，大型预训练模型如GPT-4、BERT等在各个领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据集，为模型

发表于 12-06 15:28 •624次阅读

任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2

研究者表示，CoDi-2 标志着在开发全面的多模态基础模型领域取得了重大突破。今年 5 月，北卡罗来纳大学教堂山分校、微软提出一种可组合扩散（Composable Diffusion

发表于 12-03 20:20 •444次阅读

解读大模型FP量化的解决方案

在 LLaMA, BERT 以及 ViTs 模型上，4-bit 量化皆取得了远超 SOTA 的结果。特别是，这篇文章展示了 4-bit 量化的 LLaMA-13B 模型，在零样本推理任

发表于 11-24 11:15 •357次阅读

基于BERT算法搭建一个问答搜索引擎

鼎鼎大名的 Bert 算法相信大部分同学都听说过，它是Google推出的NLP领域“王炸级”预训练模型，其在NLP任务中刷新了多项记录，并取得state of the art的成绩。但是有很多深度

发表于 10-30 11:46 •336次阅读

阿里云开源视觉语言大模型Qwen-VL ，支持图文双模态输入

据介绍，Qwen-VL 是支持中英文等多种语言的视觉语言（Vision Language，VL）模型。相较于此前的 VL 模型，Qwen-

发表于 08-25 15:12 •699次阅读

MCU人脸识别模型的设计注意事项和最佳实践

·安全地解锁你的智能手机·自动在照片中标记你的朋友这些系统的准确性和可靠性已经取得了很大的进步。这些进步主要归功于神经网络模型的采用和使用。然而，这些精度的提高是以不断增加的计算和电力需求为代价

发表于 08-02 08:58

In-Context-Learning在更大的语言模型上表现不同

最近，在语言模型领域取得了巨大的进展，部分是因为它们可以通过In-Context- Learning ( ICL)来完成各种复杂的任务。

发表于 06-12 14:35 •461次阅读

PyTorch教程-15.9。预训练 BERT 的数据集

实验室在 SageMaker Studio Lab 中打开笔记本为了预训练第 15.8 节中实现的 BERT 模型，我们需要以理想的格式生成数据集，以促进两项预训练任务：掩码语言建模和下一句预测

发表于 06-05 15:44 •551次阅读

如何通过一个简单的方法来解锁大型语言模型的推理能力？

近来NLP领域由于语言模型的发展取得了颠覆性的进展，扩大语言模型的规模带来了一系列的性能提升，然而单单是扩大模型规模对于一些具有挑战性的任务来说是不够的

发表于 05-10 11:13 •1546次阅读