0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种新颖的标签驱动去噪框架(LDF)

深度学习自然语言处理 来源:南大NLP 作者:赵飞、沈禹辰 2022-11-01 10:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

01

研究动机

方面类别检测(简称ACD)是细粒度情感分析的一个重要子任务,旨在从一组预定义的方面类别中检测出评论句子中提到的方面类别。例如,给定句子”虽然房间很贵,但是服务很好.”,ACD 的任务是从句子中识别出两个方面类别,即”服务”和”价格”。显然,ACD 属于多标签分类问题。

最近,随着深度学习的发展,研究者们提出了大量用于 ACD 任务的神经网络模型[1, 2, 3]。所有这些模型的性能在很大程度上依赖于足够的标记数据。但是,ACD 任务中方面类别的注释非常昂贵。有限的标记数据严重限制了神经网络模型的有效性。为了缓解这个问题,Hu等人[4]参考了小样本学习 (FSL) 的思路[5, 6,7 ,8],将 ACD任务形式化为小样本学习问题 (FS-ACD),即使用少量的监督数据来判评论句子所属的方面类别。

表1: 3-way 2-shot 元任务的示例

810bab8e-591e-11ed-a3b6-dac502259ad0.png

FS-ACD 遵循元学习范式[9],构建了一个 N-way K-shot 的元任务集合。表1显示了一个 3-way 2-shot 的元任务,它由一个支持集和一个查询集组成。支持集随机采样三个类(即方面类别),每个类随机选择两个句子(即实例)。元任务旨在借助少量标记的支持集来推断查询集中句子所属的方面类别。

通过在训练阶段对不同的元任务进行采样,FS-ACD 可以在少样本场景中学习到很好的泛化能力,并且在测试阶段表现良好。为了执行 FS-ACD 任务,Hu等人[4]提出了一个基于注意力的原型网络Proto-AWATT。它首先利用注意力机制从支持集中的方面类别对应的句子中提取关键字,然后将它们聚合为证据为每个方面类别生成一个原型。

然后,查询集利用原型生成相应的查询表示。最后,通过测量每个原型表示与相应查询表示之间的距离来进行类别预测。

尽管取得了很好的效果,但是我们发现噪声仍然是 FS-ACD 任务的关键问题。原因来自两个方面:一方面,由于缺乏足够的监督数据,以前的模型很容易捕捉到与当前方面类别无关的噪声词,这在很大程度上影响了生成原型的质量。如图1所示,以方面类别 food_food_meat_burger的原型为例。

我们根据Proto-AWATT 的注意力权重突出显示其前 10 个单词。由于缺乏足够的监督数据,我们观察到模型倾向于关注那些常见但嘈杂的单词,例如“a”、“the”、“my”。这些嘈杂的词无法为每个方面生成具有代表性的原型,从而导致性能打折。另一方面,语义上接近的方面类别通常会产生相似的原型,这些语义接近的原型互为噪音,极大地混淆了分类器。

据统计,数据集中近 25% 的方面类别对具有相似的语义,例如表 1 中的 food_food_meat_burger 和 food_mealtype_lunch。显然,这些语义相近的方面类别生成的原型会相互干扰并严重混淆 FS-ACD的检测结果。

8119e8ca-591e-11ed-a3b6-dac502259ad0.png

图1:根据 Proto-AWATT 的注意力权重可视化方面类别 food_food_meat_burger 原型的前 10 个单词

为了解决上述问题,我们为 FS-ACD 任务提出了一种新颖的标签驱动去噪框架(LDF)。具体来说,对于第一个问题,方面类别的标签文本包含丰富的语义描述方面的概念和范围,例如方面类别restaurant_location的标签文本“restaurant“和”location”,它们可以帮助注意力机制更好地捕捉与标签相关的单词。

因此,我们提出了一种标签引导的注意力策略来过滤噪声词并引导 LDF 产生更好的方面原型。鉴于第二个问题,我们提出了一种有效的标签加权对比损失,它将支持集的类间关系合并到对比学习函数中,从而扩大了相似原型之间的距离。

02

贡献

1、据我们所知,我们是第一个利用方面类别的标签信息来解决FS-ACD任务中噪声问题的工作;

2、我们提出了一种新颖的标签驱动去噪框架(LDF),它包含一个标签引导的注意力策略来过滤嘈杂的单词并为每个方面生成一个有代表性的原型,以及一个标签加权的对比损失来避免为语义接近的方面类别生成相似的原型;

3、LDF框架具有良好的兼容性,可以很容易地扩展到现有模型。在这项工作中,我们将其应用于两个最新的FS-ACD模型,Proto-HATT[8]和Proto-AWATT[4]。三个基准数据集的实验结果证明了我们框架的优越性。

03

背景

在这项工作中,我们基于 Proto-AWATT[4]和 Proto-HATT[8]模型抽象了一个通用的架构,它们都实现了令人满意的性能,因此被选为我们工作的基础。

给定一个包含l个单词的实例,我们首先通过查找嵌入表将其映射到单词序列中。然后,我们使用卷积神经网络(CNN)将单词序列编码为上下文表示。接下来,注意力层为实例中的每个单词分配一个权重。最终实例表示由下式给出:

81367e9a-591e-11ed-a3b6-dac502259ad0.png

之后,我们聚合类n的所有实例表示来生成原型表示:

814ba9aa-591e-11ed-a3b6-dac502259ad0.png

在处理了支持集中的所有类之后,我们得到了N个原型表示。类似地,对于查询实例,我们首先利用注意力机制生成N个原型特定的查询表示。之后,我们计算每个原型与对应的原型特定查询表示之间的欧几里得距离(ED)。最后,我们对负欧几里得距离进行归一化以获得原型的排名,并使用阈值来选择方面类别:

815d4d72-591e-11ed-a3b6-dac502259ad0.png

最终的训练目标是均方误差(MSE)损失:

817f846e-591e-11ed-a3b6-dac502259ad0.png

04

解决方案

图 2 展示了 LDF 的整体架构,其中包含两个组件:标签引导的注意力策略和标签加权的对比损失。在标签信息的帮助下,前者可以更好地关注与方面类别相关的单词,从而为每个方面生成更准确的原型,后者利用支持集的类间关系避免生成相似的原型。

81975184-591e-11ed-a3b6-dac502259ad0.png

图2:标签驱动去噪框架(LDF)的整体架构

3.1 标签引导的注意力策略

由于缺乏足够的监督数据,公式1中的注意力权重通常会关注一些与当前类别无关的噪声词,导致原型变得不具有代表性。直觉上来说,每个类的标签文本都包含丰富的语义,可以为捕获方面类别相关的单词提供指导。因此,我们利用标签信息来解决上述问题并提出标签引导的注意力策略。

具体来说,我们首先计算标签文本与实例中每个单词的语义相似度来定位每个类的关键词:

81b92fa2-591e-11ed-a3b6-dac502259ad0.png

在标签信息的约束下,相似度权重倾向于关注与标签文本高度相关的少量单词,这样可能会忽略其它有信息量的词。因此,我们将其作为注意力权重的补充,以生成更全面、更准确的注意力权重:

81d4502a-591e-11ed-a3b6-dac502259ad0.png

然后,为了重新获得注意力分布,注意力权重被重新归一化为:

81e08c32-591e-11ed-a3b6-dac502259ad0.png

最后,我们将方程1中的注意力权重替换为方程8中新的注意力权重,从而获得支持集中每个类的代表性原型。

3.2 标签加权的对比损失

如前所述,语义上接近的方面类别通常会在支持集中生成相似的原型,它们互为噪声并严重混淆分类器。

直观地说,一种可行且自然的方法是利用有监督对比学习,它可以将不同类别的原型推开如下:

81f3f650-591e-11ed-a3b6-dac502259ad0.png

然而,有监督对比学习并不能很好地解决我们的问题,因为它在负集中平等地对待不同的原型,而我们的目标是鼓励越相似的原型相距越远。

例如,“food_food_meat_burger”在语义上比“room_bed”更接近“food_mealtype_lunch”。因此,“food_food_meat_burger”在负集中应该比“room_bed”更远离“food_mealtype_lunch”。

为了实现这一目标,我们再次利用标签信息并提出将类间关系合并到有监督的对比学习中,以自适应地区分负集中的相似原型:

8203e90c-591e-11ed-a3b6-dac502259ad0.png

其中 wmn表示负集中不同方面类别之间的 cos 相似度,计算如下:

822317aa-591e-11ed-a3b6-dac502259ad0.png

在标签加权的对比损失模块中,最终的损失函数为:

823755d0-591e-11ed-a3b6-dac502259ad0.png

05

实验

5.1 实验设置

我们在三个公开的数据集FewAsp(single)、FewAsp(multi)和FewAsp上进行了实验,它们共享相同的100个方面类别,其中64个方面用于训练,16个方面用于验证,20个方面用于测试。我们使用 Macro-F1 和 AUC 分数作为评估指标,并且 5-way 设置和 10-way 设置中的阈值分别设置为0.3和0.2。

为了验证LDF框架的优越性,我们选择了两个性能最好的主流模型作为我们工作的基础,即Proto-HATT[8]和Proto-AWATT[4]。换句话说,我们将LDF集成到Proto-HATT和Proto-AWATT中,得到最终模型LDF-HATT和LDF-AWATT。

5.2 主实验

从表2可以看出,LDF-HATT和LDF-AWATT在三个数据集上的性能始终优于其基础模型。值得一提的是LDF-HATT在Macro-F1和AUC分数上最多获得了5.62%和1.32%的提升。相比之下,LDF-AWATT最多比Proto-AWATT高3.17%和1.30%。这些结果表明我们的框架具有良好的兼容性。

事实上,LDF-AWATT的Macro-F1在大多数情况下提高了大约2%,而LDF-HATT的Macro-F1平均提高了大约3%。这与我们的预期一致,因为原始Proto-AWATT具有更强大的性能。LDF-HATT和LDF-AWATT在FewAsp(multi)数据集上比在FewAsp(single)数据集上表现更好。

一个可能的原因是FewAsp(multi)数据集中的每个类包含更多的实例,这使得LDF-HATT和LDF-AWATT在多标签分类中可以生成更准确的原型。

表2:主实验结果

824e320a-591e-11ed-a3b6-dac502259ad0.png

5.3 消融实验

在不失一般性的情况下,我们选择 LDF-AWATT模型进行消融实验,以研究LDF中单个模块对模型整体效果的影响。标签引导的注意力策略简称LAS,­标签加权的对比损失简称LCL,有监督的对比学习简称SCL。根据表3报告的结果,我们可以观察到以下几点:

表3:消融实验结果

8268b300-591e-11ed-a3b6-dac502259ad0.png

1、与基础模型Proto-AWATT相比, Proto-AWATT+LAS在三个数据集上取得了具有竞争力的性能,这验证了利用标签信息为每个类生成具有代表性原型的合理性;

2、将 LCL 集成到 Proto-AWATT+LAS后,LDF-AWATT 实现了 state-of-the-art 的性能,这表明 LCL 有利于区分相似的原型;

3、LAS 比 LCL 更有效。一个可能的原因是注意力机制是生成原型的核心因素。因此,它对我们的框架贡献更大;

4、Proto-AWATT+SCL 在FewAsp 数据集上的性能略好于Proto-AWATT,但它们的结果远低于 Proto-AWATT+LCL,这些结果进一步凸显了LCL的有效性;

5、将类间关系集成到Proto-AWATT+SCL后,Proto-AWATT+LCL取得了更好的性能,这表明类间关系在区分相似原型方面起着至关重要的作用;

06

案例分析

为了更好地理解我们框架的优势,我们从FewAsp 数据集中选择一些样本进行案例研究。具体来说,我们随机抽取 5 个类,然后为这5个类抽取 50 次 5-way 5-shot 元任务。最后对于每个类,我们得到 50 个原型向量。

82a10afc-591e-11ed-a3b6-dac502259ad0.png

图4:可视化Proto-AWATT、Proto-AWATT+LAS 和 LDF-AWATT 原型表示

6.1 Proto-AWATT vs. Proto-AWATT+LAS

如图4(a) 和图4(b) 所示,我们可以看到Proto-AWATT+LAS 学习到的每个类的原型表示显然比Proto-AWATT 更集中。这些观察表明Proto-AWATT+LAS确实可以为每个类生成更准确的原型。

6.2 Proto-AWATT+LAS vs. LDF-AWATT

如图4(b)和图4(c)所示,将LCL集成到Proto-AWATT+LAS后,LDF-AWATT学习到的food_mealtype_lunch和food_food_meat_burger的原型表示比Proto-AWATT+LAS更分离。这表明LCL确实可以区分相似的原型。

07

错误分析

为了分析我们框架的局限性,我们通过LDF-AWATT 从FewAsp 数据集中随机抽取 100 个错误案例,并将它们大致分为两类。表4显示了每个类别的比例和一些代表性示例。主要类别是”Complex”,主要包括需要深入理解的示例。

如示例(1)所示,与 restaurant_location 相关的单词片段“Chandler Downtown Serrano”在训练集中出现的次数不超过 5 次,这些表达的低频率使得我们的模型难以捕捉到它们的模式,因此给出正确的预测确实具有挑战性。

第二类是”No obvious clues”,主要包括信息不足的例子。如示例(2)所示,句子很短,无法提供足够的信息来预测真实标签。

表4:LDF-AWATT模型的错误样例

82aec7d2-591e-11ed-a3b6-dac502259ad0.png

08

总结

在本文中,我们提出了一种新颖的标签驱动去噪框架(LDF)来缓解 FS-ACD 任务的噪声问题。具体来说,我们设计了两个合理的方法:标签引导的注意力策略和标签加权的对比损失,旨在为每个类生成更好的原型并区分相似的原型。大量实验的结果表明,我们的框架 LDF 与其他最先进的方法相比实现了更好的性能。

论文链接:

https://arxiv.org/pdf/2210.04220.pdf

代码链接:

https://github.com/1429904852/LDF






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ACD
    ACD
    +关注

    关注

    0

    文章

    13

    浏览量

    11505
  • 分类器
    +关注

    关注

    0

    文章

    153

    浏览量

    13673
  • 卷积神经网络

    关注

    4

    文章

    371

    浏览量

    12719

原文标题:EMNLP'22 Findings | 用于多标签少样本方面类别检测的标签驱动去噪框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    一种适用于动态环境的自适应先验场景-对象SLAM框架

    由于传统视觉SLAM在动态场景中容易会出现严重的定位漂移,本文提出了一种新颖的基于场景-对象的可靠性评估框架,该框架通过当前帧质量指标以及相对于可靠参考帧的场景变化,全面评估SLAM的
    的头像 发表于 08-19 14:17 645次阅读
    <b class='flag-5'>一种</b>适用于动态环境的自适应先验场景-对象SLAM<b class='flag-5'>框架</b>

    PCB抗金属标签的应用

    PCB抗金属标签一种专门设计用于在金属表面或靠近金属环境使用的RFID标签。它通过特殊的天线设计和材料选择,克服了传统RFID标签在金属环境中无法正常工作的难题。PCB抗金属
    的头像 发表于 08-06 16:11 552次阅读
    PCB抗金属<b class='flag-5'>标签</b>的应用

    哪些场景要使用到RFID标签打印机?RFID标签打印机般多少钱?

    RFID标签打印机是一种将射频识别技术与打印技术相结合的设备,可实现对RFID标签的信息录入与表面信息打印,广泛应用于多个领域。以下是些常见的应用场景:1、物流管理:在货物的仓储、运
    的头像 发表于 07-15 15:44 688次阅读
    哪些场景要使用到RFID<b class='flag-5'>标签</b>打印机?RFID<b class='flag-5'>标签</b>打印机<b class='flag-5'>一</b>般多少钱?

    一种实时多线程VSLAM框架vS-Graphs介绍

    针对现有VSLAM系统语义表达不足、地图可解释性差的问题,本文提出vS-Graphs,一种实时多线程VSLAM框架。该方案显著提升了重建地图的语义丰富度、可解释性及定位精度。实验表明
    的头像 发表于 04-19 14:07 732次阅读
    <b class='flag-5'>一种</b>实时多线程VSLAM<b class='flag-5'>框架</b>vS-Graphs介绍

    一种高精度动态压电陶瓷驱动电源

    利用高压大带宽MOSFET运放和高精度运放组成复合式负反馈放大电路,设计了一种高精度动态压电陶瓷驱动电源电路图。
    发表于 04-14 17:31 5次下载

    RFID在防伪标签中的应用

    RFID是一种通过无线电波进行数据读写和物体识别的技术。它由电子标签、读写器和天线组成,能够实现非接触式的数据交互。相比传统的条形码技术,RFID具有更高的效率、更强的抗污染能力和更远的读取距离
    的头像 发表于 04-10 16:12 772次阅读
    RFID在防伪<b class='flag-5'>标签</b>中的应用

    RFID托盘标签的应用

    RFID托盘标签一种专门用于物流和仓储管理中托盘识别的电子标签。它通过无线电波进行数据读写和物体识别,能够实现非接触式的数据交互。与传统的条形码相比,RFID托盘标签具有更高的效率、
    的头像 发表于 04-08 17:13 598次阅读
    RFID托盘<b class='flag-5'>标签</b>的应用

    一种多模态驾驶场景生成框架UMGen介绍

    端到端自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成式模型为其提供了一种有效的技术架构。然而,现有的驾驶场景生成方法大多侧重于图像模态,忽略了其他关键模态的建模,如地图信息、智能交通参与者等,从而限制了其在真实驾驶场景中的适用性。
    的头像 发表于 03-24 15:57 1513次阅读
    <b class='flag-5'>一种</b>多模态驾驶场景生成<b class='flag-5'>框架</b>UMGen介绍

    北京迅为RK3568开发板OpenHarmony系统南向驱动开发内核HDF驱动框架架构

    北京迅为RK3568开发板OpenHarmony系统南向驱动开发内核HDF驱动框架架构
    的头像 发表于 03-11 14:13 1561次阅读
    北京迅为RK3568开发板OpenHarmony系统南向<b class='flag-5'>驱动</b>开发内核HDF<b class='flag-5'>驱动</b><b class='flag-5'>框架</b>架构

    免费分享篇《机械设计与制造》网络首发论文——一种光电吊舱转台电机驱动装置设计与实现

    这里基于某机电科技公司的永磁无刷直流力矩电机和Microchip公司 dsPIC30F4012芯片设计了一种光电吊舱转台电机驱动装置。点击附件查看详情!*附件:一种光电吊舱转台电机驱动
    发表于 03-10 16:23

    RFID扎带标签的概述

    RFID扎带标签,也被称为RFID绑带标签,是一种智能识别技术。它采用射频识别(RFID)技术,通过将标签绑在扎带上,实现对物品的追踪和管理。这种
    的头像 发表于 03-05 16:42 1159次阅读
    RFID扎带<b class='flag-5'>标签</b>的概述

    FPC柔性电子标签介绍和应用

    贴合在复杂表面或者需要轻量化的设备中。特别是对于些对体积和重量要求极高的场景,FPC标签无疑是一种理想的选择。RFID柔性电子标签的优势作为FPC
    的头像 发表于 03-03 14:40 1242次阅读
    FPC柔性电子<b class='flag-5'>标签</b>介绍和应用

    纳祥科技NX1722,一种带键盘扫描的8段4位 LED 驱动控制方案

    NX1722是一种带键盘扫描电路接口的 LED 驱动控制专用电路,内部集成有 MCU 输入输出控制数字接口、数据锁存器、LED 驱动、键盘扫描、辉度调节等电路。 NX1722性能稳定、质量可靠、抗干扰能力强,可适应于 24 小
    的头像 发表于 02-05 17:27 739次阅读
    纳祥科技NX1722,<b class='flag-5'>一种</b>带键盘扫描的8段4位 LED <b class='flag-5'>驱动</b>控制方案

    为电机体化应用提供一种大电流单通道集成电机驱动芯片

    电机驱动芯片 - SS6952T为电机体化应用提供一种大电流单通道集成电机驱动方案。SS6952T有路H桥
    的头像 发表于 12-18 09:34 889次阅读
    为电机<b class='flag-5'>一</b>体化应用提供<b class='flag-5'>一种</b>大电流单通道集成电机<b class='flag-5'>驱动</b>芯片

    SSM框架的源码解析与理解

    SSM框架(Spring + Spring MVC + MyBatis)是一种在Java开发中常用的轻量级企业级应用框架。它通过整合Spring、Spring MVC和MyBatis三个框架
    的头像 发表于 12-17 09:20 1420次阅读