0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于少数镜头命名实体识别的分解元学习

深度学习自然语言处理 来源:PaperWeekly 作者:回亭风 2022-07-05 14:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

论文标题:

Decomposed Meta-Learning for Few-Shot Named Entity Recognition

论文链接:

https://arxiv.org/abs/2204.05751

代码链接:

https://github.com/microsoft/vert-papers/tree/master/papers/DecomposedMetaNER

Abstract

少样本 NER 的系统目的在于通过很少的标注样本来识别新的命名实体类。本文提出了一个分解的元学习方法来解决小样本 NER,通过将原问题分解为小样本跨度预测和小样本实体分类两个过程。具体来说,我们将跨度预测当作序列标注问题并且使用 MAML 算法训练跨度预测器来找到更好的模型初始化参数并且使模型能够快速适配新实体。对于实体分类,我们提出 MAML-ProtoNet,一个 MAML 增强的原型网络,能够找到好的嵌入空间来更好的分辨不同实体类的跨度。在多个 benchmark 上的实验表明,我们的方法取得了比之前的方法更好的效果。

Intro

NER 目的在于定位和识别文本跨度中的预定义实体类诸如 location、organization。在标准的监督学习 NER 中深度学习的架构取得了很大的成功。然而,在实际应用中,NER 的模型通常需要迅速适配一些新的未见过的实体类,且通常标注大量的新样本开销很大。因此,小样本 NER 近年来得到了广泛的研究。 之前关于小样本 NER 的研究都是基于 token 级的度量学习,将每个查询 token 和原型进行度量上的比较,然后为每个 token 分配标签。最近的很多研究都转为跨度级的度量学习,能够绕过 token 对标签的以来并且明确利用短语的表征。 然而这些方法在遇到较大领域偏差时可能没那么有效,因为他们直接使用学习的度量而没有对目标域进行适配。换句话说,这些方法没有完全挖掘支持集数据的信息。现在的方法还存在以下限制: 1. 解码过程需要对重叠的跨度仔细处理; 2. 非实体类型“O”通常时噪声,因为这些词之间几乎没有共同点。 此外,当针对一个不同的领域时,唯一可用的信息仅仅是很少的支持样本,不幸的是,这些样本在之前的方法中仅仅被应用在推理阶段计算相似度的过程中。 为了解决这些局限性,本文提出了一种分解的元学习方法,将原问题分解为跨度预测和实体分类两个过程。具体来讲: 1. 对于小样本跨度预测来说,我们将其看作序列标注问题来解决重叠跨度的问题。这个过程目的在于定位命名实体并且是与类别无关的。然后我们仅仅对被标注出的跨度进行实体分类,这样也可以消除“O”类噪声的影响。当训练跨度检测模块时,我们采用的 MAML 算法来找到好的模型初始化参数,在使用少量目标域支持集样本更新后,能够快速适配新实体类。在模型更新时,特定领域的跨度边界信息能够被模型有效的利用,使模型能够更好的迁移到目标领域; 2. 对于实体分类,采用了 MAML-ProtoNet 来缩小源域和目标域的差距。 我们在一些 benchmark 上进行了实验,实验表明我们提出的框架比之前的 SOTA 模型表现更好,我们还进行了定性和定量的分析,不同的元学习策略对于模型表现的影响。

Method

本文遵循传统的 N-way-K-shot 的小样本设置,示例如下表(2-way-1-shot):

e74d80fa-fc23-11ec-ba43-dac502259ad0.png

下图为模型的总体结构:

e7728026-fc23-11ec-ba43-dac502259ad0.png

2.1 Entity Span Detection

跨度检测阶段不需要分类具体的实体类,因此模型的参数可以在不同的领域之间共享。基于此,我们采用 MAML 来促进领域不变的内部表征学习而不是针对特定领域特征的学习。这种方式训练的元学习模型对于目标域的样本更加敏感,因此只需要少量样本进行微调就能取得很好的效果而不会过拟合。 2.1.1 Basic Detector 基检测器是一个标准的序列标注任务,采用 BIOES 的标注策略,对于一个句子序列 {xi},使用一个编码器得到其上下文表征 h,然后通过 softmax 生成概率分布。

e7a4b1b8-fc23-11ec-ba43-dac502259ad0.png

▲ fθ:编码器

e7b0ed20-fc23-11ec-ba43-dac502259ad0.png

▲概率分布 模型的训练误差在交叉熵损失基础上添加了最大值项来缓解对于损失较高的 token 学习不足的问题:

e7cdece0-fc23-11ec-ba43-dac502259ad0.png

▲交叉熵损失 推理阶段采用了维特比解码,这里我们没有训练转移矩阵,简单的添加了一些限制保证预测的标签不违反 BIOES 的标注规则。 2.1.2 Meta-Learning Procedure 元训练过程具体来说,首先随机采样一组训练 episode:

e7f7b96c-fc23-11ec-ba43-dac502259ad0.png

使用支持集进行 inner-update 过程:

e81b8cac-fc23-11ec-ba43-dac502259ad0.png

其中 Un 代表 n 步梯度更新,损失采用上文所述的损失函数。然后使用更新后的参数 Θ' 在查询集上进行评估,将一个 batch 内的所有 episode 的损失求和,训练目标是最小化该损失:

e835bca8-fc23-11ec-ba43-dac502259ad0.png

用上述损失来更新模型的原参数 Θ,这里使用一阶导数来近似计算:

e8430d90-fc23-11ec-ba43-dac502259ad0.png

MAML 数学推导参考:MAML

https://zhuanlan.zhihu.com/p/181709693

在推理阶段先使用基模型中提到的交叉熵损失在支持集上微调,然后在查询集上使用微调后的模型进行测试。

2.2 Entity Typing

实体分类模块采用原型网络作为基础模型,使用 MAML 算法对模型进行增强,使模型得到一个更具代表性的嵌入空间来更好的区分不同的实体类。 2.2.1 Basic Model 这里使用了另一个编码器来对输入 token 进行编码,然后使用跨度检测模块输出的跨度 x[i,j],将跨度中所有的 token 表征取平均来代表此跨度的表征:

e862bbd6-fc23-11ec-ba43-dac502259ad0.png

e87639f4-fc23-11ec-ba43-dac502259ad0.png

遵循原型网络的设置,使用支持集中属于同一实体类的跨度的求和平均作为类原型的表示:

e88f60be-fc23-11ec-ba43-dac502259ad0.png

模型的训练过程先采用支持集计算每个类原型的表示,然后对于查询集中的每个跨度,通过计算其到某一类原型的距离来计算其属于该类的概率:

e8bd2454-fc23-11ec-ba43-dac502259ad0.png

模型的训练目标是一个交叉熵损失:

e8d8e84c-fc23-11ec-ba43-dac502259ad0.png

推理阶段就是简单的计算与哪一类原型距离最近即可:

e8f043f2-fc23-11ec-ba43-dac502259ad0.png

2.2.2 MAML Enhanced ProtoNet 这一过程的设置与跨度检测中应用的 MAML 一致,同样是使用 MAML 算法来找到一个更好的初始化参数,详细过程参考上文:

e8fcffca-fc23-11ec-ba43-dac502259ad0.png

e91e00bc-fc23-11ec-ba43-dac502259ad0.png

推理阶段也与上文一致,这里不详细说明了。

实验

3.1 数据集和设置

本文采用 Few-NERD,一个专门为 few-shot NER 推出的数据集以及 cross-dataset,四种不同领域的数据集的整合。对于 Few-NERD 使用 P、R、micro-F1 作为评价指标,cross-dataset 采用 P、R、F1 作为评价指标。文中两个编码器采用两个独立的 BERT,优化器使用 AdamW。

3.2 主实验

e93e4f0c-fc23-11ec-ba43-dac502259ad0.png

▲ Few-NERD

e9657b2c-fc23-11ec-ba43-dac502259ad0.png

▲Cross-Dataset

3.3 消融实验

e97dc34e-fc23-11ec-ba43-dac502259ad0.png

3.4 分析

对于跨度检测,作者用一个全监督的跨度检测器进行实验:

e99005d6-fc23-11ec-ba43-dac502259ad0.png

作者分析,未精调的模型预测的 Broadway 对于新实体类来说是一个错误的预测(Broadway 出现在了训练数据中),然后通过对该模型采用新实体类样本进行精调,可以看出模型能够预测出正确的跨度,但是 Broadway 这一跨度仍然被预测了。这表明传统的精调虽然可以使模型获取一定的新类信息,但是其还是存在很大偏差。 然后作者对比了 MAML 增强的模型和未使用 MAML 模型的 F1 指标:

e99f2ae8-fc23-11ec-ba43-dac502259ad0.png

MAML 算法可以更好的利用支持集的数据,找到一个更好的初始化参数,使模型能够快速适配到新域中。 然后作者分析了 MAML 如何提升原型网络,首先是指标上 MAML 增强的原型网络会有一定的提升:

e9c0b488-fc23-11ec-ba43-dac502259ad0.png

接着作者进行了可视化分析:

e9e0a00e-fc23-11ec-ba43-dac502259ad0.png

从上图可以看出,MAML 增强的原型网络能够更好的区分各个类原型。

Conclusion

本文提出了一个两阶段的模型,跨度检测和实体分类来进行小样本 NER 任务,两个阶段的模型均使用元学习 MAML 的方法来进行增强,获取了更好的初始化参数,能够使模型通过少量样本快速适配到新域中。本文也算是一篇启发性的文章,在指标上可以看出,元学习的方法对小样本 NER 任务有着巨大的提升。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51711
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123902

原文标题:ACL2022 | 分解的元学习小样本命名实体识别

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    电压放大器在全导波场图像目标识别的损伤检测实验的应用

    图像目标识别的智能损伤检测方法,通过结合超声导波检测技术与深度学习算法,系统探究了损伤引起的波场畸变特性及其识别机制。 测试设备:扫描激光多普勒测振仪、函数发生器、功率放大器ATA-2021H、压电换能器、反光膜、计算机数据处理
    的头像 发表于 12-02 11:37 67次阅读
    电压放大器在全导波场图像目标<b class='flag-5'>识别的</b>损伤检测实验的应用

    什么是变倍镜头

    什么是变倍镜头变倍镜头是一种可以连续调节放大倍率或视场范围的光学镜头。它通过内部光学组的相对移动,实现倍率/焦距的连续变化,而且需要保证在变倍过程中成像仍然清晰、畸变小。特点:适合需要多倍率观察
    的头像 发表于 12-01 15:31 84次阅读
    什么是变倍<b class='flag-5'>镜头</b>

    电能质量在线监测装置是如何实现对电压中断事件的识别的

    30137-2013/IEC 61000-4-30 标准的中断事件。具体实现流程可拆解为以下 6 个关键步骤,每个环节都有明确的技术逻辑和参数要求: 一、前置基础:明确识别的 “国标门槛”(统一判定标准) 装置首先内置电压中断的国标定义作为识别基准,避免因判定规则模糊导
    的头像 发表于 11-27 16:32 882次阅读
    电能质量在线监测装置是如何实现对电压中断事件的<b class='flag-5'>识别的</b>?

    Windows下解决OpenOCD找不到设备及串口无法识别的方法

    hbird_driver.exe驱动程序 - 连接开发板,打开设备管理器,为另一个未识别的端口手动安装FT2232串口驱动 - 重连开发板,程序可以正常烧写调试,串口也可以正常建立连接 详细图文流程
    发表于 10-20 11:25

    基于LockAI视觉识别模块:C++人脸识别

    是实现人脸识别的常用方法: 深度学习方法:现代的人脸识别系统大多采用深度学习方法,并结合大规模人脸数据库和高性能计算资源,实现了非常高的识别
    发表于 07-01 12:01

    基于LockAI视觉识别模块:手写数字识别

    1.1 手写数字识别简介 手写数字识别是一种利用计算机视觉和机器学习技术自动识别手写数字的过程。它通过图像预处理、特征提取和模型训练来实现高效准确的数字
    发表于 06-30 16:45

    顺络贴片电容规格都是怎么命名

    顺络贴片电容的规格命名通常包含一系列字符,这些字符用于标识电容的关键规格和属性。虽然不同制造商的命名规则可能有所不同,但一般来说,顺络贴片电容的命名规则可能包含以下参数: 1、尺寸:这
    的头像 发表于 04-29 15:31 809次阅读
    顺络贴片电容规格都是怎么<b class='flag-5'>命名</b>的

    PCB最全封装命名规范

    范围本规范适用于主流EDA软件在PCB设计前的封装建库命名。 获取完整文档资料可下载附件哦!!!!
    发表于 03-12 13:26

    ADS1274识别的信号可以小于噪声1000倍,是真的吗?

    据说Σ△型的AD可以识别的信号可以小于噪声1000倍,这个不知道是否属实,还有就是如果是的话,使用它是不是需要编写特别的驱动??好编写么···?大神指教
    发表于 01-23 08:37

    用于内窥镜镜头模组的环氧树脂封装胶

    用于内窥镜镜头模组的环氧树脂封装胶适用于内窥镜镜头模组的环氧树脂封装胶是一种高性能的胶粘剂,它结合了环氧树脂的优异特性和内窥镜镜头模组的特
    的头像 发表于 01-10 09:18 1017次阅读
    适<b class='flag-5'>用于</b>内窥镜<b class='flag-5'>镜头</b>模组的环氧树脂封装胶

    千万级 FA 镜头应用线路板缺陷检测

    FA 镜头即工业镜头,千万级则代表其具备千万像素级别的超高分辨率。在检测线路板时,镜头利用光学成像原理,将线路板上的细节清晰地投射到图像传感器上。
    的头像 发表于 01-06 14:23 949次阅读
    千万级 FA <b class='flag-5'>镜头</b>应用线路板缺陷检测

    【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

    语音命令Q 识别,适用于智能家居控制、玩具、人机交互等多个领域。该模块以其高识别率、低功耗和易于集成的特点受到广大开发者的青睐。 主要技术及功能有: 磁力搅拌、重量采集、语音识别
    发表于 01-02 18:15

    基于语音识别的智能会议系统具备哪些交互功能

    标贝科技专注智能语音交互领域多年,在语音识别和语音合成领域有着多项大型企业合作案例,标贝与多个智能会议系统厂商合作,成功将语音识别技术在智能会议系统中落地,并且随着语音识别技术的日趋成熟,智能会议系统的使用也将更加便利,那么标贝
    的头像 发表于 12-20 10:35 895次阅读

    【「嵌入式系统设计与实现」阅读体验】“基于车牌识别的自动地锁”案例学习

    这书中有非常非常多的优秀案例,我们一起来看一个来自东南大学沁恒赛题的精选案例。这一作品从选题到设计,再到展示,都体现了非常高的水准,值得我们深入学习与借鉴。 这个作品聚焦于住宅区车位管理问题,具体
    发表于 12-10 23:46

    如何提升人脸门禁一体机的识别准确率?

    准确率,可以从以下几个方面进行改进。一、优化算法与模型人脸识别的核心在于算法的优化和模型的调整,目前深度学习技术在图像识别中的应用取得了显著成效。通过采用更为先进
    的头像 发表于 12-10 15:05 1459次阅读
    如何提升人脸门禁一体机的<b class='flag-5'>识别</b>准确率?