一种简单而有效的转换方法来降低预测情感标签的难度-电子发烧友网

研究动机

面向目标的多模态情感分类（TMSC）是方面级情感分析的一个新的子任务，旨在预测一对句子和图片中提到的意见目标的情感极性。该任务背后的假设是图片信息可以帮助文本内容识别意见目标的情感。图1给出了两个代表性的示例。我们可以看到仅仅根据非正式的简短句子很难检测出意见目标的情感，但与意见目标相关的视觉内容（即笑脸）可以清晰地反映其情感极性。

图1:面向目标的多模态情感分类 (TMSC) 的两个示例。意见目标及其相应的情感极性在句子中突出显示。红色边框表示意见目标关注到的视觉线索。

从上面的示例中我们可以看出，对齐两种模态的意见目标并捕获有用的视觉情感特征在TMSC任务中起着至关重要的作用。鉴于其重要性，主流的工作采用了注意力机制来自动学习文本和图片的对齐关系，然后将捕获的意见目标的视觉表示聚合为证据来进行情感预测。

尽管取得了一些改进，但上述方法仍然存在两个关键问题：

（1）由于文本和图片中意见目标的粒度存在很大的差距，之前的这些方法很难对齐两种模态。具体来说，图片中出现的意见目标通常是指粗粒度的对象（例如，图片中的man），而句子中的意见目标通常是细粒度的实体（例如，人名 “Vince Gilligan）。意见目标粒度的不一致导致视觉注意力有时无法捕捉到相应的视觉表征。

（2）即使捕获到了，表达相同情绪的多样化视觉表示也给情感预测带来了很大的挑战。以图1（c）和图1（d）为例，意见目标“Vince Gilligan”和“Sammy”分别关注了图片中的粗粒度对象man和girl，从他们的面部表情我们可以看出他们都在微笑，但微笑的角度和幅度却大不相同。视觉表示的多样性不可避免地导致其稀疏性，这使得学习视觉表示和情感标签之间的映射函数变得困难。

在这项工作中，我们提供了解决上述问题的新思路，即利用从图片中提取的形容词-名词对 (ANPs) .（例如图2（a）中的“nice clouds”, “bad car”, “happy man”, “clear sky”和“dry grass”）。对于第一个问题，我们观察到ANPs中的名词也是粗粒度的概念，因此一个很直观的想法是将细粒度的意见目标（例如“Vince Gilligan”）映射到粗粒度名词中（例如“man”)。

通过这种方式更容易弥合两种模态的粒度差距并对齐文本和图片。对于第二个问题，我们观察到 ANPs 通常可以从表达相同情绪的不同视觉内容中提取到相同的形容词，因此一个很直观的想法是将多样化的视觉表征（例如笑脸）映射到同一个形容词（例如“happy”）。显然，学习这些相同形容词和情感标签之间的映射函数更容易。

图2：从每个图片中提取前 5 个形容词-名词对 (ANPs)

为了使用 ANPs促进 TMSC 任务，我们提出了一个知识增强框架（简称KEF）, 它主要包含两个组件：视觉注意力增强器和情感预测增强器。前者首先使用我们设计的映射方法从 ANPs 中找到与意见目标最相关的名词，然后用它来提高视觉注意力的有效性。后者的目的是建立形容词和目标相关视觉表示之间的联系，然后将其用作视觉表示的补充信息，以降低预测情感标签的难度。

贡献

1.据我们所知，我们是第一个提出利用从图片中提取的形容词-名词对(ANPs)来帮助TMSC 任务对齐文本和图片的工作；

2.我们提出了一种新颖的知识增强框架（KEF），它包含一个视觉注意力增强器来提高视觉注意力的有效性，以及一个情感预测增强器来降低情感预测的难度。

3.KEF 具有良好的兼容性，很容易组合或者扩展到现有的基于注意力的多模态模型。在这项工作中，我们将其应用于两个最新的 TMSC 模型：SaliencyBERT[6]和 TomBERT[2]。两个公开数据集的实验结果证明了我们框架的有效性。

解决方案

图 3 展示了 KEF 的整体架构，主要包含两个组件：视觉注意力增强器和情感预测增强器。具体来说，我们首先基于TomBERT[2]和 SaliencyBERT模型抽象出一个通用的注意力架构。然后，在 ANPs 的帮助下，我们依次提出了视觉注意力增强器和情感预测增强器。前者旨在通过映射方法和重构损失来提高视觉注意力的有效性，后者引入了一种简单而有效的转换方法来降低预测情感标签的难度。

图3：知识增强框架（KEF）的整体架构

3.1 视觉注意力增强器

问题

如前所述，图片中出现的意见目标是一个粗粒度的概念，而句子中提到的意见目标是一个细粒度的概念，意见目标粒度的不一致导致了视觉注意力有时无法捕获到相应的视觉表示。

基本的直觉

显然，从图片中提取出来的名词也是粗粒度的概念，所以一个直观的想法是将细粒度的意见目标映射到粗粒度的名词上，然后将它作为桥梁来捕获粗粒度的视觉特征.。但是，从图片中提取的大部分名词都是与意见目标无关的，因此我们不能直接使用它们。

映射方法（Mapping Method.）

为了应对上述挑战，我们首先通过计算嵌入空间中名词表示和目标表示之间的语义相似度来衡量目标-名词相关性的强度：

根据最大相似度得分，我们可以找到与意见目标最相关的名词：

接下来，我们将它们聚合在一起作为意见目标的补充信息以捕获相应的视觉表示：

重构损失（Reconstruction Loss.）

为了确保视觉注意力能够更准确地捕获到与意见目标相关的视觉特征，我们还设计了一种重构损失来最小化目标相关名词表示和目标相关视觉表示之间的差异：

3.2 情感预测增强器

问题

即使视觉特征被捕获到了，但是表达相同情绪的视觉表征之间仍然存在显着差异，这给学习视觉表征和情感标签之间的映射函数带来了挑战。

基本的直觉

考虑到 ANPs 通常可以从表达相同情绪的不同视觉表征中提取相同的形容词，因此一个直观的想法是将多样化的视觉表征映射到同一个形容词。然而，与视觉表示最相关的形容词是未知的，我们需要明确地找到它。

转换方法（Transformation Method.）

实际上，在映射方法中，我们发现名词表示与目标感知视觉表示最相关。由于形容词是名词的修饰语，因此与该名词对应的形容词也与目标感知视觉表示最相关。最后，我们将其用作视觉表示的补充信息，以降低情感预测的难度：

实验

我们在两个公开的数据集Twitter2015和Twitter2017上进行了实验，并且使用准确率(Accuracy)和Macro-F1分数作为评估指标。KEF包含两个即插即用的组件，可以轻松组合或扩展到现有的基于注意力的方法。为了更好地验证KEF的有效性，我们选择了两个最近的基于BERT的多模态模型作为我们工作的基础，即TomBERT和Saliencybert。

换句话说，我们将KEF集成到TomBERT和Saliencybert中，得到最终模型KEF-TomBERT和KEF-Saliencybert。从表1可以看出，KEF-Saliencybert和KEF-TomBERT在TWITTER-15和TWITTER-17数据集上均取得了具有竞争力的结果。

具体来说，与TomBERT相比，KEF-TomBERT在Macro-F1和Accuracy分别获得了大约2.0%和1.5%的改进。相比之下，KEF-Saliencybert的表现平均优于Saliencybert1.5%和1.7%。这些结果表明我们的框架具有良好的兼容性。此外，在大多数情况下，KEF-TomBERT的表现优于KEFSaliencybert，这表明我们的框架对TomBERT更有效。

表1：主实验结果

在不失一般性的情况下，我们选择 KEF-TomBERT 模型进行消融实验，以研究 KEF 中单个模块对模型整体效果的影响。视觉注意力增强器简称VAE，情感预测增强器简称SPE。根据表2报告的结果，我们可以观察到以下几点：

表2:消融实验结果

1. 与基础模型 TomBERT 相比，TomBERT+VAE 和TomBERT+SPE在两个数据集上均取得了具有竞争力的表现，这验证了利用形容词-名词对提高视觉注意力能力和情感预测能力的合理性；

2. 将SPE集成到TomBERT+VAE后，KEF-TomBERT实现了state-of-the-art的性能，这证明了SPE可以通过形容词-名词对提高情感预测能力；

3. VAE 比 SPE 更有效，这是合理的因为注意力机制的有效性是情感预测的核心因素。因此，它对我们的框架贡献更大；

4. 如图 4 所示，我们可以看到 KEF-TomBERT 学习到的多模态表示明显比 TomBERT+VAE 学习的更可分离，这表明SPE确实可以降低情感预测的难度。

图4：TomBERT+VAE 和 KEF-TomBERT 的多模态表示的可视化

为了验证 ANPs 对 KEF-TomBERT 模型的影响，我们从每张图片中提取前 1、3、5 和 7 个 ANPs进行了实验，结果如图 5 所示。显然，随着 ANPs 数量的增加，KEF-TomBERT 的性能变得更好。而且当 ANPs 的数量等于 5 时，KEF-TomBERT 的效果最好。

但是，一旦 ANP 的数量大于 5，性能就不会继续增加，甚至开始下降。这背后的原因可能是：每个句子最多包含5个意见目标，所以当ANPs的数量大于意见目标的最大数量时会带来一些噪音。

图5：不同数量 ANPs 对KEF-TomBERT的影响

案例分析

为了更好地理解视觉注意力增强器 (VAE) 和情感预测增强器 (SPE) 的优势，我们从 Twitter 数据集中随机选择一些样本进行案例研究。

视觉注意力增强器的影响

如图 6(a) 所示，基础模型 TomBERT 错误地预测了意见目标“Korkie”的情感。这是合理的因为我们发现 TomBERT关注了与意见目标无关的视觉线索（由黄色边界框突出显示）。在将 VAE 集成到 TomBERT 之后，TomBERT+VAE将细粒度的意见目标“Korkie”映射到 ANPs 中的粗粒度名词“man”。在名词“man”的帮助下，TomBERT+VAE 成功地捕捉到了目标相关的视觉线索（由红色边界框突出显示），从而给出了正确的预测。

情感预测增强器的影响

如图 6(b) 和6(c) 所示，虽然 TomBERT+VAE 准确地捕捉到了意见目标的相应视觉表征（即笑脸），但微笑表情的多样化增加了情感预测的难度，因此 TomBERT +VAE 错误地预测了图 6(c) 中“Sammy”的情感。在将 SPE 集成到 TomBERT+VAE 之后，KEFTomBERT 将不同的笑脸映射到同一个形容词“happy”。显然，KEF-TomBERT 更容易学习这些“happy”和情感标签“positive”之间的映射函数，从而做出正确的预测。

图6：案例分析

总结

在本文中，我们为 TMSC 任务提出了一种新颖的知识增强框架 (KEF)。具体来说，在 ANPs 的帮助下，我们设计了两个新颖的知识增强器，视觉注意力增强器和情感预测增强器，以提高 TMSC 任务的视觉注意力能力和情感预测能力。大量实验的结果表明，我们的框架与其它最先进的方法相比具有更好的性能。进一步的分析也验证了我们框架的优越性。

在未来，我们希望将我们的想法应用于其他多模态任务，因为从图片中提取的形容词-名词对很容易扩展到其他多模态任务，例如多模态实体链接、多模态机器理解和多模态对话生成。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

增强器

增强器

+关注

关注
1

文章
43

浏览量
8149
ANP

ANP

+关注

关注
0

文章
4

浏览量
6327

原文标题：COLING2022 | 南大提出：面向目标的多模态情感分类的知识增强框架

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

如果是使用六步方波的方法来控制电机，要如何实现过电流保护?

请问一下如果是使用六步方波的方法来控制电机，要如何实现过电流保护? 以免电流过大造成板子损坏

发表于 04-22 08:10

一个简单而有效的晶体管/二极管测试电路

晶体管和二极管是电子产品的基本组件，在许多电路设计中发挥着重要作用。在将这些有源元件集成到电路中时，确保它们正常工作至关重要。因此，必须有一种可靠的方法来测试晶体管和二极管。

发表于 02-25 15:21 •235次阅读

一个<b class='flag-5'>简单</b><b class='flag-5'>而有效</b>的晶体管/二极管测试电路

LDO的低压差和小电流是其本身特性决定的吗？

我发现LDO手册中都强调很低的Dropout，而且LDO输出电流都很小。当我想要一款适用于大压差和高输出电流的电源时，LDO似乎并不能胜任。（DC/DC由于纹波电压过大，我还找不到一种方法来有效

发表于 01-08 08:01

LabVIEW进行癌症预测模型研究

LabVIEW进行癌症预测模型研究癌症是一种细胞异常增生的疾病。随着年龄的增长，细胞分裂速度放缓，但癌细胞会失去控制地不断分裂，形成可能良性或恶性的肿瘤。 2012年的国际癌症数据显示，新发癌症

发表于 12-13 19:04

一种简单的方法来将振荡器相位噪声转换为时间抖动

电子发烧友网站提供《一种简单的方法来将振荡器相位噪声转换为时间抖动.pdf》资料免费下载

发表于 11-23 15:15 •0次下载

<b class='flag-5'>一种</b><b class='flag-5'>简单</b>的<b class='flag-5'>方法来</b>将振荡器相位噪声<b class='flag-5'>转换</b>为时间抖动

开关电源传导EMI预测方法

PCB及其结构设计的基本原则。对开关电源EMI预测过程中需要注意的问题以及降低开关电源传导EMI的方法策略进行了分析和总结。

发表于 09-22 07:18

基于机器学习的车位状态预测方法

本发明公开一种基于机器学习的车位状态预测方法，基于历史数据，建立回归决策树模型进而构建改进决策树模型，对每个区域的停车率进行预测，基于停车率和用户喜好度为用户推荐相应的停车区域，获取相

发表于 09-21 07:24

基于DSP的全球定位系统软件接收机的实现方法

本文研究了一种基于软件无线电思想的全球定位系统(GPS)软件接收机的实现，重点在于其实现的整个过程都放在数字信号处理器(DSP)内采用全软件的方法来完成，从而有效地节省了硬件资源和成本，并且更加方便

发表于 09-20 06:01

情感语音识别技术及其应用

情感语音识别是一种利用人工智能技术来识别语音中的情感信息，并将其转换为情感标签的技术。该技术可以

发表于 06-24 03:24 •760次阅读

几种有效降低电源纹波噪声的方法

在应用电源模块常见的问题中，降低负载端的纹波噪声是大多数用户都关心的。下文结合纹波噪声的波形、测试方式，从电源设计及外围电路的角度出发，阐述几种有效降低输出纹波噪声的方法。

发表于 06-20 17:48 •1451次阅读

几种<b class='flag-5'>有效</b><b class='flag-5'>降低</b>电源纹波噪声的<b class='flag-5'>方法</b>

如何降低开发难度，有哪些难度

目前，机器人对比较复杂的视觉成像建模还不是很好用。主要难度是无法生成十个以上的复合型模型。视觉成像主要是计算亮度与光线源的夹角。并以固定模组来计算大小。亮度的大小就是光线夹角的模具数据。而一个

发表于 06-09 12:32

是否有一种简单的方法将esp连接到openhab并发送特殊命令？

嗨，（首先抱歉我的英语不好）一个月以来我一直在玩 ESP，我真的很喜欢它！但现在我想更进一步，将 ESP 连接到 Openhab 并控制灯、RGB-LED 等。所以我的问题：是否有一种

发表于 05-24 08:14

一种简单的报错设计，分享

一种简单的报错设计，可在次基础上增加。冲突阻挡重复不在工位不在岗计时不准范围外强停其它

发表于 05-20 20:07

是否有一种“简单”的方法来增加允许的“打开”文件的最大数量？

问题：是否有一种“简单”的方法来增加允许的“打开”文件的最大数量（=====>SPIFFS）我在 esp8266 HTML 页面上使用#include

发表于 05-15 07:21

nodemcu sdk 151如何添加一种方法来更改UART缓冲区大小？

nodemcu sdk 151 如何添加一种方法来更改 UART 缓冲区大小.. uart.set_buffer( id, bufsize ) eLUA 支持更改我需要大 Rx 和小 Tx。我

发表于 05-09 11:16

搜索历史

一种简单而有效的转换方法来降低预测情感标签的难度

评论