0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于少数镜头命名实体识别的分解元学习

深度学习自然语言处理 来源:PaperWeekly 作者:回亭风 2022-07-05 14:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

论文标题:

Decomposed Meta-Learning for Few-Shot Named Entity Recognition

论文链接:

https://arxiv.org/abs/2204.05751

代码链接:

https://github.com/microsoft/vert-papers/tree/master/papers/DecomposedMetaNER

Abstract

少样本 NER 的系统目的在于通过很少的标注样本来识别新的命名实体类。本文提出了一个分解的元学习方法来解决小样本 NER,通过将原问题分解为小样本跨度预测和小样本实体分类两个过程。具体来说,我们将跨度预测当作序列标注问题并且使用 MAML 算法训练跨度预测器来找到更好的模型初始化参数并且使模型能够快速适配新实体。对于实体分类,我们提出 MAML-ProtoNet,一个 MAML 增强的原型网络,能够找到好的嵌入空间来更好的分辨不同实体类的跨度。在多个 benchmark 上的实验表明,我们的方法取得了比之前的方法更好的效果。

Intro

NER 目的在于定位和识别文本跨度中的预定义实体类诸如 location、organization。在标准的监督学习 NER 中深度学习的架构取得了很大的成功。然而,在实际应用中,NER 的模型通常需要迅速适配一些新的未见过的实体类,且通常标注大量的新样本开销很大。因此,小样本 NER 近年来得到了广泛的研究。 之前关于小样本 NER 的研究都是基于 token 级的度量学习,将每个查询 token 和原型进行度量上的比较,然后为每个 token 分配标签。最近的很多研究都转为跨度级的度量学习,能够绕过 token 对标签的以来并且明确利用短语的表征。 然而这些方法在遇到较大领域偏差时可能没那么有效,因为他们直接使用学习的度量而没有对目标域进行适配。换句话说,这些方法没有完全挖掘支持集数据的信息。现在的方法还存在以下限制: 1. 解码过程需要对重叠的跨度仔细处理; 2. 非实体类型“O”通常时噪声,因为这些词之间几乎没有共同点。 此外,当针对一个不同的领域时,唯一可用的信息仅仅是很少的支持样本,不幸的是,这些样本在之前的方法中仅仅被应用在推理阶段计算相似度的过程中。 为了解决这些局限性,本文提出了一种分解的元学习方法,将原问题分解为跨度预测和实体分类两个过程。具体来讲: 1. 对于小样本跨度预测来说,我们将其看作序列标注问题来解决重叠跨度的问题。这个过程目的在于定位命名实体并且是与类别无关的。然后我们仅仅对被标注出的跨度进行实体分类,这样也可以消除“O”类噪声的影响。当训练跨度检测模块时,我们采用的 MAML 算法来找到好的模型初始化参数,在使用少量目标域支持集样本更新后,能够快速适配新实体类。在模型更新时,特定领域的跨度边界信息能够被模型有效的利用,使模型能够更好的迁移到目标领域; 2. 对于实体分类,采用了 MAML-ProtoNet 来缩小源域和目标域的差距。 我们在一些 benchmark 上进行了实验,实验表明我们提出的框架比之前的 SOTA 模型表现更好,我们还进行了定性和定量的分析,不同的元学习策略对于模型表现的影响。

Method

本文遵循传统的 N-way-K-shot 的小样本设置,示例如下表(2-way-1-shot):

e74d80fa-fc23-11ec-ba43-dac502259ad0.png

下图为模型的总体结构:

e7728026-fc23-11ec-ba43-dac502259ad0.png

2.1 Entity Span Detection

跨度检测阶段不需要分类具体的实体类,因此模型的参数可以在不同的领域之间共享。基于此,我们采用 MAML 来促进领域不变的内部表征学习而不是针对特定领域特征的学习。这种方式训练的元学习模型对于目标域的样本更加敏感,因此只需要少量样本进行微调就能取得很好的效果而不会过拟合。 2.1.1 Basic Detector 基检测器是一个标准的序列标注任务,采用 BIOES 的标注策略,对于一个句子序列 {xi},使用一个编码器得到其上下文表征 h,然后通过 softmax 生成概率分布。

e7a4b1b8-fc23-11ec-ba43-dac502259ad0.png

▲ fθ:编码器

e7b0ed20-fc23-11ec-ba43-dac502259ad0.png

▲概率分布 模型的训练误差在交叉熵损失基础上添加了最大值项来缓解对于损失较高的 token 学习不足的问题:

e7cdece0-fc23-11ec-ba43-dac502259ad0.png

▲交叉熵损失 推理阶段采用了维特比解码,这里我们没有训练转移矩阵,简单的添加了一些限制保证预测的标签不违反 BIOES 的标注规则。 2.1.2 Meta-Learning Procedure 元训练过程具体来说,首先随机采样一组训练 episode:

e7f7b96c-fc23-11ec-ba43-dac502259ad0.png

使用支持集进行 inner-update 过程:

e81b8cac-fc23-11ec-ba43-dac502259ad0.png

其中 Un 代表 n 步梯度更新,损失采用上文所述的损失函数。然后使用更新后的参数 Θ' 在查询集上进行评估,将一个 batch 内的所有 episode 的损失求和,训练目标是最小化该损失:

e835bca8-fc23-11ec-ba43-dac502259ad0.png

用上述损失来更新模型的原参数 Θ,这里使用一阶导数来近似计算:

e8430d90-fc23-11ec-ba43-dac502259ad0.png

MAML 数学推导参考:MAML

https://zhuanlan.zhihu.com/p/181709693

在推理阶段先使用基模型中提到的交叉熵损失在支持集上微调,然后在查询集上使用微调后的模型进行测试。

2.2 Entity Typing

实体分类模块采用原型网络作为基础模型,使用 MAML 算法对模型进行增强,使模型得到一个更具代表性的嵌入空间来更好的区分不同的实体类。 2.2.1 Basic Model 这里使用了另一个编码器来对输入 token 进行编码,然后使用跨度检测模块输出的跨度 x[i,j],将跨度中所有的 token 表征取平均来代表此跨度的表征:

e862bbd6-fc23-11ec-ba43-dac502259ad0.png

e87639f4-fc23-11ec-ba43-dac502259ad0.png

遵循原型网络的设置,使用支持集中属于同一实体类的跨度的求和平均作为类原型的表示:

e88f60be-fc23-11ec-ba43-dac502259ad0.png

模型的训练过程先采用支持集计算每个类原型的表示,然后对于查询集中的每个跨度,通过计算其到某一类原型的距离来计算其属于该类的概率:

e8bd2454-fc23-11ec-ba43-dac502259ad0.png

模型的训练目标是一个交叉熵损失:

e8d8e84c-fc23-11ec-ba43-dac502259ad0.png

推理阶段就是简单的计算与哪一类原型距离最近即可:

e8f043f2-fc23-11ec-ba43-dac502259ad0.png

2.2.2 MAML Enhanced ProtoNet 这一过程的设置与跨度检测中应用的 MAML 一致,同样是使用 MAML 算法来找到一个更好的初始化参数,详细过程参考上文:

e8fcffca-fc23-11ec-ba43-dac502259ad0.png

e91e00bc-fc23-11ec-ba43-dac502259ad0.png

推理阶段也与上文一致,这里不详细说明了。

实验

3.1 数据集和设置

本文采用 Few-NERD,一个专门为 few-shot NER 推出的数据集以及 cross-dataset,四种不同领域的数据集的整合。对于 Few-NERD 使用 P、R、micro-F1 作为评价指标,cross-dataset 采用 P、R、F1 作为评价指标。文中两个编码器采用两个独立的 BERT,优化器使用 AdamW。

3.2 主实验

e93e4f0c-fc23-11ec-ba43-dac502259ad0.png

▲ Few-NERD

e9657b2c-fc23-11ec-ba43-dac502259ad0.png

▲Cross-Dataset

3.3 消融实验

e97dc34e-fc23-11ec-ba43-dac502259ad0.png

3.4 分析

对于跨度检测,作者用一个全监督的跨度检测器进行实验:

e99005d6-fc23-11ec-ba43-dac502259ad0.png

作者分析,未精调的模型预测的 Broadway 对于新实体类来说是一个错误的预测(Broadway 出现在了训练数据中),然后通过对该模型采用新实体类样本进行精调,可以看出模型能够预测出正确的跨度,但是 Broadway 这一跨度仍然被预测了。这表明传统的精调虽然可以使模型获取一定的新类信息,但是其还是存在很大偏差。 然后作者对比了 MAML 增强的模型和未使用 MAML 模型的 F1 指标:

e99f2ae8-fc23-11ec-ba43-dac502259ad0.png

MAML 算法可以更好的利用支持集的数据,找到一个更好的初始化参数,使模型能够快速适配到新域中。 然后作者分析了 MAML 如何提升原型网络,首先是指标上 MAML 增强的原型网络会有一定的提升:

e9c0b488-fc23-11ec-ba43-dac502259ad0.png

接着作者进行了可视化分析:

e9e0a00e-fc23-11ec-ba43-dac502259ad0.png

从上图可以看出,MAML 增强的原型网络能够更好的区分各个类原型。

Conclusion

本文提出了一个两阶段的模型,跨度检测和实体分类来进行小样本 NER 任务,两个阶段的模型均使用元学习 MAML 的方法来进行增强,获取了更好的初始化参数,能够使模型通过少量样本快速适配到新域中。本文也算是一篇启发性的文章,在指标上可以看出,元学习的方法对小样本 NER 任务有着巨大的提升。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3811

    浏览量

    52257
  • 深度学习
    +关注

    关注

    73

    文章

    5604

    浏览量

    124610

原文标题:ACL2022 | 分解的元学习小样本命名实体识别

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Maxim产品命名规则详解

    产品的命名规则,帮助大家更好地理解和应用这些产品。 文件下载: MAX31783ETM+T.pdf 一、专有零件的产品编号 Maxim大多数零件使用自己的编号系统,由基础零件编号、后缀以及可选的额外标识符组成。 1. 基础零件编号 基础零件编号用于
    的头像 发表于 04-03 16:50 620次阅读

    什么是变倍镜头

    变倍镜头是一种专门为精密检测设计的工业光学元件,一般应用于机器视觉与工业自动化领域。它可以在工作距离不变的情况下,通过调节内部的光学组件来改变光学放大倍率,从而实现不同倍率的切换,而不用更换镜头
    的头像 发表于 03-14 17:35 196次阅读
    什么是变倍<b class='flag-5'>镜头</b>?

    华秋输出的GERBER别的软件无法正确识别

    ,卡住了。 这个是华秋识别的,可以看到是正确的。 下面是AD,KICAD、工厂锡膏机识别的,都一样的,统一少了太多东东。
    发表于 12-17 10:46

    线扫镜头的选型指南

    线扫镜头(LineScanLens)是一种专为线扫描相机设计的光学组件,主要应用于工业自动化检测、印刷质量控制、纺织品检验以及医疗影像等领域。此类镜头通过捕捉连续移动物体的线性图像,实现高精度
    的头像 发表于 12-11 17:50 1140次阅读
    线扫<b class='flag-5'>镜头</b>的选型指南

    远心镜头核心技术解析与应用

    远心镜头(TelecentricLens)是一种专为精密光学成像设计的镜头系统,其核心在于消除传统镜头中常见的透视失真和放大倍率变化问题。该技术广泛应用于工业检测、计量测量和机器视觉等
    的头像 发表于 12-08 17:25 887次阅读
    远心<b class='flag-5'>镜头</b>核心技术解析与应用

    雷科电力-REKE2180带电电缆识别

    雷科电力-REKE2180带电电缆识别仪,又名电缆识别仪、多功能电缆识别仪、智能电缆识别仪,是为电力电缆工程师和电缆工解决电缆识别的技术问题
    的头像 发表于 12-04 17:28 1526次阅读
    雷科电力-REKE2180带电电缆<b class='flag-5'>识别</b>仪

    基于AIK-RA8D1的人脸识别的应用演示

    与Aizip人脸识别技术结合,实现高效且低功耗的人脸识别应用。人脸识别的优势传统的密码验证方式存在很多缺点。首先,密码容易泄露或被共享,可能导致未
    的头像 发表于 12-02 14:29 5643次阅读
    基于AIK-RA8D1的人脸<b class='flag-5'>识别的</b>应用演示

    电压放大器在全导波场图像目标识别的损伤检测实验的应用

    图像目标识别的智能损伤检测方法,通过结合超声导波检测技术与深度学习算法,系统探究了损伤引起的波场畸变特性及其识别机制。 测试设备:扫描激光多普勒测振仪、函数发生器、功率放大器ATA-2021H、压电换能器、反光膜、计算机数据处理
    的头像 发表于 12-02 11:37 369次阅读
    电压放大器在全导波场图像目标<b class='flag-5'>识别的</b>损伤检测实验的应用

    什么是变倍镜头

    什么是变倍镜头变倍镜头是一种可以连续调节放大倍率或视场范围的光学镜头。它通过内部光学组的相对移动,实现倍率/焦距的连续变化,而且需要保证在变倍过程中成像仍然清晰、畸变小。特点:适合需要多倍率观察
    的头像 发表于 12-01 15:31 769次阅读
    什么是变倍<b class='flag-5'>镜头</b>

    电能质量在线监测装置是如何实现对电压中断事件的识别的

    30137-2013/IEC 61000-4-30 标准的中断事件。具体实现流程可拆解为以下 6 个关键步骤,每个环节都有明确的技术逻辑和参数要求: 一、前置基础:明确识别的 “国标门槛”(统一判定标准) 装置首先内置电压中断的国标定义作为识别基准,避免因判定规则模糊导
    的头像 发表于 11-27 16:32 1308次阅读
    电能质量在线监测装置是如何实现对电压中断事件的<b class='flag-5'>识别的</b>?

    Windows下解决OpenOCD找不到设备及串口无法识别的方法

    hbird_driver.exe驱动程序 - 连接开发板,打开设备管理器,为另一个未识别的端口手动安装FT2232串口驱动 - 重连开发板,程序可以正常烧写调试,串口也可以正常建立连接 详细图文流程
    发表于 10-20 11:25

    基于LockAI视觉识别模块:C++人脸识别

    是实现人脸识别的常用方法: 深度学习方法:现代的人脸识别系统大多采用深度学习方法,并结合大规模人脸数据库和高性能计算资源,实现了非常高的识别
    发表于 07-01 12:01

    基于LockAI视觉识别模块:手写数字识别

    1.1 手写数字识别简介 手写数字识别是一种利用计算机视觉和机器学习技术自动识别手写数字的过程。它通过图像预处理、特征提取和模型训练来实现高效准确的数字
    发表于 06-30 16:45

    Arm产品命名体系的演变

    继 Arm 首席执行官 Rene Haas 宣布 Arm 推出新的产品命名体系后,本文将为你详解新的计算平台名称,以及新命名体系内的新 IP 名称标识。
    的头像 发表于 06-19 10:38 1088次阅读
    Arm产品<b class='flag-5'>命名</b>体系的演变

    顺络贴片电容规格都是怎么命名

    顺络贴片电容的规格命名通常包含一系列字符,这些字符用于标识电容的关键规格和属性。虽然不同制造商的命名规则可能有所不同,但一般来说,顺络贴片电容的命名规则可能包含以下参数: 1、尺寸:这
    的头像 发表于 04-29 15:31 1226次阅读
    顺络贴片电容规格都是怎么<b class='flag-5'>命名</b>的