一种通过引入硬注意力机制来引导学习视觉回答任务的研究-电子发烧友网

【导读】软注意力机制已在计算机视觉领域取得了广泛的应用和成功。但是我们发现硬注意力机制在计算机视觉任务中的研究还相对空白。而硬注意力机制能够从输入信息中选择重要的特征，因此它被视为是一种比软注意力机制更高效的方法。本次，将为大家介绍一种通过引入硬注意力机制来引导学习视觉回答任务的研究。此外结合L2 正则化筛选特征向量，可以高效地促进筛选的过程并取得更好的整体表现，而无需专门的学习过程。

摘要

生物感知中的注意机制主要是用于为复杂处理过程选择感知信息子集，以对所有感官输入执行禁止操作。软注意力机制 (soft attention mechanism) 通过选择性地忽略部分信息来对其余信息进行重加权聚合计算，已在计算机视觉领域取得了广泛的应用和成功。然而，我们对于硬注意力机制 (hard attention mechanism) 的探索却相对较少，在这里，我们引入一种新的硬注意力方法，它能够在最近发布的一些视觉问答数据库中取得有竞争力的表现，甚至在一些数据集中的性能超过了软注意力机制。虽然硬注意力机制通常被认为是一种不可微分的方法，我们发现特征量级与语义相关性是相关的，并能为我们提供有用的信号来筛选注意力机制选择标准。由于硬注意力机制能够从输入信息中选择重要的特征，因此它被视为是一种比软注意力机制更高效的方法，特别地对于最近研究中使用非局部逐对操作 (non-local pairwise) 而言，其计算和内存成本的消耗是巨大的。

简介

视觉注意力有助于促进人类在复杂视觉推理多方面的能力。例如，对于需要在人群中识别出狗的任务，视觉系统能够自适应地分配更多的计算处理资源，对狗及其潜在的目标或场景进行视觉信息处理。当观察者正观察场景中的其他目标，而未发觉到一些引人注目的实体时，这种感知效果将变得非常显著。尽管注意力机制并不是计算机视觉领域中的一项变革性的技术，但由于许多计算机视觉任务，如检测，分割和分类，并没有涉及复杂的视觉推理过程，因此这种注意力机制对计算机视觉任务而言还是有帮助的。

视觉问答任务是一项需要复杂推理过程的视觉任务，在近些年得到广泛的关注并取得了长足的进步。成功的视觉问答框架必须要能够处理多个对象及其之间复杂的关系，同时还要能够集成丰富的目标背景知识。我们意识到计算机视觉中的软注意力机制主要是通过加权聚合部分重要信息来提高视觉处理的准确性，但对于计算机视觉中的硬注意力机制的研究相对空白。

在这里，我们探索一种简单的硬注意力机制，来引导卷积神经网络的特征表征：特征学习通常需要为硬注意力的选择提供一种简单的访问信号。特别地，用 L2 正则化筛选这些特征向量已被验证是一种有助于硬注意力机制的方法，它能够高效地促进筛选的过程并取得更好的整体表现，而无需专门的学习过程。下图1展示了这种方法的结果。注意力信号直接源自于标准的监督任务损失函数，而无需任何明确的监督信号来激活正则化，也无需其他潜在的措施。

图1 基于给定的自然图像和文本问题输入，我们的视觉问答架构得到的输出结果图。这里，我们使用了一种硬注意机制，只对那些重要的视觉特征进行选择并处理。基于我们模型结构，正则化后视觉特征的相关性以及那些具有高度相关性并包含重要语义内容的特征向量的前提，生成我们的注意力图像。

此外，通过对特征向量的 L2 正则化处理来选择重要性特征，我们的视觉问答框架进一步采用硬注意力机制进行增强。我们将最初的版本成为硬注意力网络 HAN (Hard Attention Network)，用于通过顶层正则化项来选择固定数量的特征向量。第二个版本我们称之为自适应的硬注意力网络 AdaHAN (Hard Hard Attention Network)，这是基于输入来决定特征向量的可变数量的一种网络结构。我们在大量的数据集上评估我们的方法，实验结果表明我们的算法能够在多个视觉问答数据及上实现与软注意力机制相当的性能。此外，我们的方法还能产生可解释的硬注意力掩模，其中所选的图像特征区域通常包含一些相应的重要语义信息，如一些连贯的对象。相比于非局部成对模型，我们的方法也能取得相当出色的表现。

方法

下图2展示了我们提出的用于学习从图像和问题映射到答案的模型结构。我们用卷积神经网络 (CNN) 对图像进行编码(在这里采用的是预训练的 ResNet-101 模型，或是从头开始训练小型的 CNN 模型)，并用 LSTM 将问题编码为一个固定长度的矢量表征。通过将答案复制到 CNN 模型中每个空间位置并将其与视觉特征相连接，我们计算得到组合表征。经过几层组合处理后，我们在空间位置上引入注意力机制，这与先前研究中引入软注意力机制的过程是一致的。最后，我们将特征聚合，并使用池化和 (sum-pooling) 或关系模块 (relational modules)，通过计算答案类别的标准逻辑回归损失来端到端地训练整个网络。

图2 我们在模型中引入硬注意力机制来代替软注意力机制，并遵循标准视觉问答框架的其他结构。图像和问题都被编码成各自的矢量表征。随后，空间视觉特征的编码被进一步表示，而问题嵌入相应地通过传播和连接 (或添加) 以形成多模式输入表征。我们的注意力机制能够有选择性地选择用于下一次聚合和处理多模式向量的应答模块。

▌1.硬注意力机制

我们引入了一种新的硬注意力机制，它在空间位置上产生二进制掩码，并确定用于下一步处理的特征选择。我们将我们的方法称为硬注意力网络 (HAN)，其核心在于对每个空间位置使用 L2 正则化激活以生成该位置相关性。L2 范数和相关性之间的关系是 CNN 训练特征的一种新属性，这不需要额外的约束或目标。我们的结构也只是对这种现象进行引导而没有明确地训练该网络。

因此，与软注意力机制相比，我们的方法不需要额外的参数学习。HAN 只需要一个额外的、可解释的超参数：即输入单元所使用的稀疏，也是用于权衡训练速度和准确性的参数。

▌2.特征聚合

池化和在引入注意力机制后，减少特征矢量的一种简单方法是将其进行池化和操作以生成长度固定的矢量。在注意力权重向量为 w 的软注意力条件下，我们很容易计算得到向量的池化和。在硬注意力条件下，基于选择的特征，我们也可以由此类比地计算。

非局部逐对操作为进一步改善池化和的性能，我们探索一种与通过非局部成对计算来演绎推理相类似的方法。其数学描述如下：

在这里，softmax 函数作用于所有的 i, j 位置。我们的方法能够成对地计算非局部嵌入之间的关系，独立于空间或时间的近似度。硬注意力机制能够帮助我们减少所要考虑的设置，因此我们的目标在于测试通过硬注意力选择的特征是否能与此操作相兼容。

实验

为了展示硬注意力机制对视觉问答任务的重要性，我们首先在 VQA-CP v2 数据集上，将 HAN 与现有的软注意力网络 SAN 进行比较分析，并通过卷积映射直接控制空间单元出现的数量来探索不同程度的硬注意力的影响。随后，我们评估 AdaHAN 模型并研究网络深度和预训练策略的影响，这是一种能够自适应地选择单元出现数量的一种模型。最后，我们展示了定性的实验结果，并提供了在 CLEVR 数据集上的结果，以表明我们方法的通用性。

▌1.实验细节

我们的模型都使用相同的 LSTM 模型用于问题嵌入，其大小为512，并采用在ImageNet 数据集上预训练的 ResNet-101 模型的最后一个卷积层 (能够产生10×10空间表征，每个具有2048个维度)，用于图像嵌入。此外，我们还使用3层大小分别为1024、2048、1000的 MLP 结构，作为一个分类模型。我们使用 ADAM 进行优化，采用分布式设置，以128每批次大小来计算梯度值，并根据经验在Visual QA数据集上选择默认的超参数。

▌2.数据集

VQA-CP v2 数据集的结果：VQA-CP v2 数据集包含 121K (98K) 张图像数据，438K (220K) 条问题数据以及 4.4M (2.2M) 答案数据。该数据集提供了标准的训练测试过程，并将问题分解为不同的类型：如答案为肯定/否定类型，答案是数字类型，以及其他类型等，这有助于我们用每种问题类型准确性来评估网络架构的性能。

CLEVR：CLEVR 是一个合成数据库，由 100K 张 3D 渲染图像组成，如球体、圆柱体等。虽然视觉任务相对简单，但解决这个数据集也需要推理目标间的复杂关系。

▌3.结果分析

硬注意力机制的影响

我们考虑最基础的硬注意力结构：采用硬注意力机制，并对每个出现单元进行池化和操作，最后连接一个小型的 MLP 结构。下表1展示了我们的实验结果。可以看到，引入硬注意力机制不仅不会丢失特征的重要信息，还能在较少出现单元的情况下，取得相当的性能结果，这表明了这种机制是图像的重要部分。此外，在表1下面我们还与软注意力机制进行了对比，可以发现软注意力机制的表现并不优于我们的方法。

表1 不同出现单元数量和聚合操作的性能比较。我们考虑简单的和操作和非局部成对计算作为特征聚合的工具。

自适应硬注意力机制的结果

下表2展示了自适应硬注意力机制的实验结果。我们可以看到，自适应机制使用非常少的单元：进行池化和计算时，只使用100个单元中的25.66个，而进行非局部成对聚合时，则只有32.63个单元被使用。这表明即便非常简单的自适应方法，也能给图像和问题的解决可以带来计算和性能方面的提升，这也说明更复杂的方法将是未来工作的重要方向。

表2 不同自适应硬注意力技术、单元出现的平均数量和聚合操作的性能对比。我们考虑一种简单的和操作和非局部成对聚合操作。

此外，下表3展示了移除两层结构后自适应硬注意力机制的性能表现。可以看到，移除这些层后，模型的表现下降了约1％，这表明了决定单元出现与否需要不同的信息，这不同于 ResNet 模型的分类微调设计，同时也说明了深度对于自适应机制的影响。

表3 在 VQA-CP v2 数据集上不同单元出现数量的性能比较。其中第二列表示输入单元出现的百分比，而第三列代表 MLP 结构的层数。

定性结果及 CLEVR 数据集结果

下图3、图4展示了我们方法的定性实验结果。图3展示了采用不同硬注意力机制(HAN、AdaHAN)、不同聚合操作 (和操作、逐对操作) 的实验结果。而图4展示了采用最佳的模型设置：自适应硬注意力机制加上非局部逐对聚合操作 (AdaHAN+pairwise)，在 VQA-CP 数据集上的实验结果。

图3 不同硬注意力机制和不同聚合方法变体的定性结果

图4 AdaHAN+pairwise 的定性结果

此外，我们还进一步在 CLEVR 数据集上验证我们方法的通用性，其他的设置与 VQA-CP 数据集上相类似。下图5展示了两种方法的实验结果。

图5 在 CLEVR 数据集上相同超参数设置，不同方法的验证精度结果。(a) HAN+RN (0.25的输入单元) 和标准的 RN 结构 (全输入单元)，训练12个小时来测量方法的有效性。(b) 我们的硬注意力方法。

结论

我们已经引入了一种新的硬注意力方法用于计算机视觉任务，它能够选择用于下一步处理的特征向量子集。我们探索了两种模型：一个选择具有预定义向量数量的 HAN 模型，另一个自适应地选择子集大小作为输入的 AdaHAN。通过特征向量数量与相关信息的相关性，我们的注意力机制能够解决文献中现有方法存在的梯度问题。经过大量的实验评估，结果表明了在具有挑战性的 Visual QA 数据集上，我们的 HAN 和 AdaHAN 模型能够取得有竞争力的性能表现，并在某些时候取得相当甚至超过软注意力机制的表现，同时还能提供额外的计算效率优势。最后，我们还提供了可解释性表示，即对所选特征的空间位置中相应贡献最大、最显著的部分进行了可视化。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98714
图像

图像

+关注

关注
2

文章
1063

浏览量
40037
数据库

数据库

+关注

关注
7

文章
3590

浏览量
63365

原文标题：如何通过引入硬注意力机制来学习视觉问答任务？

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

基于labview的注意力分配实验设计

毕设要求做一个注意力分配实验设计。有些结构完全想不明白。具体如何实现如下。一个大概5*5的灯组合，要求随机亮。两个声音大小不同的音频，要求随机响，有大、小两个选项。以上两种需要记录并计

发表于 05-07 20:33

探索一种降低ViT模型训练成本的方法

其上的实验来评估性能，当每次实验的训练成本过高时，这不是一种可扩展的方法。通过降低训练成本，缩短了开发周期。2 更容易接近。大多数ViT模型都是通过使用多个GPU或TPU从头开始训练的

发表于 11-24 14:56

DeepMind为视觉问题回答提出了一种新的硬注意力机制

然而，在基于梯度的学习框架（如深度学习）中存在一个关键的缺点：因为选择要处理的信息的过程是离散化的，因此也就是不可微分的，所以梯度不能反向传播到选择机制中来支持基于梯度的优化。目前研究

发表于 08-10 08:44 •6020次阅读

深度分析NLP中的注意力机制

注意力机制越发频繁的出现在文献中，因此对注意力机制的学习、掌握与应用显得十分重要。本文便对注意力

发表于 02-17 09:18 •3612次阅读

注意力机制或将是未来机器学习的核心要素

目前注意力机制已是深度学习里的大杀器，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。

发表于 05-07 09:37 •1151次阅读

基于注意力机制的深度学习模型AT-DPCNN

情感分析是自然语言处理领域的一个重要分支，卷积神经网络（CNN）在文本情感分析方面取得了较好的效果，但其未充分提取文本信息中的关键情感信息。为此，建立一种基于注意力机制的深度学习模型A

发表于 03-17 09:53 •12次下载

基于<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>的深度<b class='flag-5'>学习</b>模型AT-DPCNN

基于层次注意力机制的多模态围堵情感识别模型

在连续维度情感识别任务中，每个模态内部凸显情感表达的部分并不相同，不同模态对于情感状态的影响程度也有差别。为此，通过学习各个模态特征并采用合理的融合方式，提出一种基于层次注意力

发表于 04-01 11:20 •8次下载

基于层次<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>的多模态围堵情感识别模型

结合注意力机制的改进深度学习光流网络

为提升基于编解码架构的U型网络在深度学习光流估计中的精度，提岀了一种结合注意力机制的改进有监督深度学习光流网络。网络由收缩和扩张两部分组成，

发表于 04-07 13:56 •4次下载

结合<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>的改进深度<b class='flag-5'>学习</b>光流网络

基于注意力机制和本体的远程贾璐关系抽取模型

模玦、分类嚣模块、本体约柬层。在分类器模抉中，引入并改进了实例级注意力机制，更妤地学习数据袋中每个句子的权重，有效地降低了远程嗌督假设引入的

发表于 04-12 14:30 •14次下载

基于<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>和本体的远程贾璐关系抽取模型

基于层次注意力机制的多任务疾病进展模型

临床特征，对阿尔茨海默症进行自动诊断，并预测潜在的预后风险，进而提岀了一饣基于层次注意力机制的多任务疾病进展模型。该模型将疾病自动诊断任务作为主任务

发表于 05-07 14:47 •7次下载

基于多通道自注意力机制的电子病历架构

基于多通道自注意力机制的电子病历架构

发表于 06-24 16:19 •75次下载

基于注意力机制的跨域服装检索方法综述

基于注意力机制的跨域服装检索方法综述

发表于 06-27 10:33 •2次下载

基于注意力机制的新闻文本分类模型

基于注意力机制的新闻文本分类模型

发表于 06-27 15:32 •29次下载

计算机视觉中的注意力机制

计算机视觉中的注意力机制卷积神经网络中常用的Attention 参考 注意力机制简介与分类 注意力

发表于 05-22 09:46 •0次下载

基于YOLOv5s基础上实现五种视觉注意力模块的改进

视觉注意力机制的各种模块是个好东西，即插即用，可以添加到主流的对象检测、实例分割等模型的backbone与neck中，实现轻松涨点，本文使用OID数据集的2000多张数据，基于YOLOv5s

发表于 06-02 14:52 •940次阅读

搜索历史

一种通过引入硬注意力机制来引导学习视觉回答任务的研究

评论

基于labview的注意力分配实验设计

探索一种降低ViT模型训练成本的方法

DeepMind为视觉问题回答提出了一种新的硬注意力机制

深度分析NLP中的注意力机制

注意力机制或将是未来机器学习的核心要素

基于注意力机制的深度学习模型AT-DPCNN

基于层次注意力机制的多模态围堵情感识别模型

结合注意力机制的改进深度学习光流网络

基于注意力机制和本体的远程贾璐关系抽取模型

基于层次注意力机制的多任务疾病进展模型

基于多通道自注意力机制的电子病历架构

基于注意力机制的跨域服装检索方法综述

基于注意力机制的新闻文本分类模型

计算机视觉中的注意力机制

基于YOLOv5s基础上实现五种视觉注意力模块的改进