0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

meta reweighting 策略来增强伪样本的效果

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-08-03 11:46 次阅读

自增强(self-augmentation)最近在提升低资源场景下的 NER 问题中得到了越来越多的关注,token 替换和表征混合是对于 NER 这类 token 级别的任务很有效的两种自增强方法。值得注意的是,自增强的方法得到的增强数据有潜在的噪声,先前的研究是对于特定的自增强方法设计特定的基于规则的约束来降低噪声。

本文提出了一个联合的 meta-reweighting 的策略来自然的进行整合。我们提出的方法可以很容易的扩展到其他自增强的方法中,实验表明,本文的方法可以有效的提升自增强方法的表现。

27892526-1258-11ed-ba43-dac502259ad0.png

命名实体识别旨在从非结构化文本中抽取预先定义的命名实体,是 NLP 的一个基础任务。近期,基于神经网络的方法推动 NER 任务不断取得更好的表现,但是其通常需要大规模的标注数据,这在真实场景中是不现实的,因此小样本设置的 NER 更符合现实需求。

数据自增强是一个小样本任务可行的解法,对于 token-level 的 NER 任务,token 替换和表征混合是常用的方法。但自增强也有局限性,我们需要为每种特定的自增强方法单独进行一些设计来降低自增强所带来的噪声,缓解噪声对效果的影响。本文提出了 meta-reweighting 框架将各类方法联合起来。

首先,放宽前人方法中的约束,得到更多伪样本。然而这样会产生更多低质量的增强样本,为此,我们提出 meta reweighting 策略来控制增强样本的质量。同时,使用 example reweighting 机制可以很自然的将两种方法结合在一起。实验表明,在小样本场景下,本文提出的方法可以有效提升数据自增强方法的效果,在全监督场景下本文的方法仍然有效。

27a37b9c-1258-11ed-ba43-dac502259ad0.png

Method

2.1 Baseline

本文的 basic 模型使用 BERT+BiLSTM+CRF 进行 NER 任务。首先给定输入序列 ,使用预训练的 BERT 得到每个 token 的表征。

27c1ad10-1258-11ed-ba43-dac502259ad0.png

然后使用 BiLSTM 进一步抽取上下文的特征:

27cc3f14-1258-11ed-ba43-dac502259ad0.png

最后解码过程使用 CRF 进行解码,先将得到的表征过一层线性层作为初始的标签分数,定义一个标签转移矩阵 T 来建模标签之间的依赖关系。对于一个标签序列 ,其分数 计算如下:

27d7cb86-1258-11ed-ba43-dac502259ad0.png

其中 W、b 和 T 是模型的参数,最后使用维特比算法得到最佳的标签序列。训练的损失函数采用句子级别的交叉熵损失,对于给定的监督样本对 (X, Y),其条件概率 P(Y|X) 计算如下:

27e5d0f0-1258-11ed-ba43-dac502259ad0.png

其中 为候选标签序列。

2.2 自增强方法

27eea55e-1258-11ed-ba43-dac502259ad0.png

2.2.1 Token Substitution(TS)

token 替换是在原始的训练文本中对部分 token 进行替换得到伪样本。本文通过构建同义词词典来进行 token 替换,词典中既包含实体词也包含大量的普通词。遵循前人的设置,我们将所有属于同一实体类型的词当作同义词,并且添加到实体词典中,作者将其称为 entity mention substitution (EMS)。同时,我们也将 token 替换扩展到了“O”类型中,作者将其称为 normal word substitution (NWS)。作者使用 word2vec 的方法,在 wikidata 上通过余弦相似度找到 k 个最近邻的词作为“O”类型词的同义词。这里作者设置了参数 (此参数代表 EMS 的占比)来平衡 EMS 和 NWS 的比率,在 entity diversity 和 context diversity 之间达到更好的 trade-off。

2.2.2 Mixup for CRF

不同于 token 替换在原始文本上做增强,mixup 是在表征上进行处理,本文将 mixup 的方法扩展到了 CRF 层。形式上,给定一个样本对 和 ,首先用 BERT 得到其向量表示 和 。然后通过参数 将两个样本混合:

2800a5b0-1258-11ed-ba43-dac502259ad0.png

其中,n 为 , 从 分布中采样。损失函数变为:

280c5248-1258-11ed-ba43-dac502259ad0.png

2.3 Meta Reweighting

有别于句子级的分类任务,NER 这类 token 级别的任务对于上下文高度敏感,一些低质量的增强数据会严重影响模型的效果。在本文中,作者使用 meta reweighting 策略为 mini batch 中的训练数据分配样本级的权重。

在少样本设置中,我们希望少量的标注样本能够引导增强样本进行模型参数更新。直觉上看,如果增强样本的数据分布和其梯度下降的方向与标注样本相似,说明模型能够从增强样本中学到更多有用的信息

算法流程如下:

2813ff66-1258-11ed-ba43-dac502259ad0.png

实验

3.1 实验设置

数据集采用 OntoNotes 4、OntoNotes 5、微博和 CoNLL03,所有数据集均采用 BIOES 标注方式。

283e17ba-1258-11ed-ba43-dac502259ad0.png

对于 NWS,使用在 wikipedia 上训练的 GloVe 获取词向量,取 top5 最近邻的词作为同义词, 取 0.2, 在 Beta (7, 7) 中进行采样,评价指标使用 F1 值。3.2 主实验本文在小样本设置和全监督设置下都做了实验,结果如下:

284dd362-1258-11ed-ba43-dac502259ad0.png

285dc22c-1258-11ed-ba43-dac502259ad0.png

287441aa-1258-11ed-ba43-dac502259ad0.png

3.3 分析

作者首先在 CoNLL03 5% 设置下做了增强数据量对实验结果的影响:

2887cdc4-1258-11ed-ba43-dac502259ad0.png

可以看出,在增强数据是原始训练数据的 5 倍之后,模型的效果就趋于平缓了,单纯的增加增强样本数并不能带来效果上持续的增长。

作者在三种小样本设置下对参数 的影响:

2894202e-1258-11ed-ba43-dac502259ad0.png

可以看出在 20% 时效果最好,而且相比之下,只使用 NWS 比只使用 EMS 效果更好。可能的一个原因是实体词在文本中是稀疏的,NWS 能够产生更多不同的伪样本。

接着作者分析了 mixup 参数 (Beta 分布参数 )的取值:

289edc08-1258-11ed-ba43-dac502259ad0.png

因为本文 Beta 分布的两个参数都取 ,其期望总是 0.5,当 增大时,分布的方差减小,采样更容易取到 0.5,实验结果表明当 取 7 时整体效果最好。最后作者还分析了 mixup 添加在不同位置的不同结果:

28b24428-1258-11ed-ba43-dac502259ad0.png

总结

本文提出了 meta reweighting 策略来增强伪样本的效果。是一篇很有启发性的文章,从梯度的角度出发,结合类似于 MAML 中 gradient by gradient 的思想,用标注样本来指导伪样本训练,为伪样本的损失加权,对伪样本的梯度下降的方向进行修正使其与标注样本更加相似。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4576

    浏览量

    98955
  • 数据
    +关注

    关注

    8

    文章

    6516

    浏览量

    87665
  • 解码
    +关注

    关注

    0

    文章

    171

    浏览量

    27160
收藏 人收藏

    评论

    相关推荐

    智能样本管理系统

    ` 智能样本管理系统,方便、快捷管理您的样本,在功能上可根据您的需求修改和增加功能,帮助您在使用上面更加人性化。我们还可根据您的需求制定一个属于您的管理系统。联系电话:010-68683182E-mail:service@hu
    发表于 10-20 09:18

    请问NRF24L01如何利用应答信号实现双工???

    想用增强型的收发模式,想利用接收端给发送端的应答信号传输自己想要传输的数据从而实现双工?请问这无线模块的应答信号是自己生成的么?我要去哪里可以更改这个应答信号?
    发表于 05-27 04:59

    大时代、大融合、大未来--META元宇宙颁奖盛典

    大时代、大融合、大未来--META元宇宙颁奖盛典META元宇宙元年颁奖盛典META2021 Metaverse First Year Awards CeremonyMETA2021元宇宙产业发展探索
    发表于 12-06 17:30

    如何使用meta-imx层中提供的tensorflow-lite编译图像?

    我们正在尝试使用 meta-imx 层中提供的 tensorflow-lite 编译图像。我们没有任何 自定义更改/bbappends (Highlight to read)sources
    发表于 05-29 06:55

    基于支持样本的快速增强学习算法

    针对确定性马尔克夫决策过程,本文提出了一种基于支持样本的快速增强学习算法。文章首先把学习问题形式化为一个确定性的马尔可夫决策过程,并对问题空间中每个状态的总
    发表于 01-22 12:18 5次下载

    样本支持向量机分类策略研究_胡红宇

    样本支持向量机分类策略研究_胡红宇
    发表于 03-19 11:28 0次下载

    Meta与DassaultSystèmes携手为Solidworks3DCAD软件提供增强现实支持

    Meta公司已与DassaultSystèmes开展合作,为后者的Solidworks3DCAD软件提供增强现实支持。 在推动Meta2成为正当工作场所工具的另一次尝试中,Meta
    发表于 02-08 07:25 1065次阅读

    Meta重金挖走微软40多名员工

    Facebook公司改名为Meta公司是为了更好地适应公司元宇宙的战略,随后就宣布大举进军元宇宙行业,并且根据外媒的消息报道称,Meta公司近期一直在抢夺有开发微软HoloLens增强现实头戴设备有经验的人。
    的头像 发表于 01-12 10:33 3552次阅读

    基于图像的数据增强方法发展现状综述

    基于图像的数据增强能够增加训练样本的多样性,如通过翻转、添加噪声等基础图像处理操作或根据现有数据生成新的样本进行数据集扩充、数据质量的增强。使用数据
    发表于 03-23 17:17 1514次阅读
    基于图像的数据<b class='flag-5'>增强</b>方法发展现状综述

    基于k近邻与高斯噪声的虚拟困难样本增强方法

    然而在无监督SimCSE中,作者仅使用dropout的方式进行了正样本增强,没有额外引入困难样本,这在一定程度上限制了模型的能力。基于这个动机,亚马逊提出了一种基于k近邻与高斯噪声的虚拟困难
    的头像 发表于 05-12 11:31 891次阅读

    一个联合的meta-reweighting策略来自然的进行整合

    增强所带来的噪声,缓解噪声对效果的影响。本文提出了 meta-reweighting 框架将各类方法联合起来。
    发表于 08-03 11:44 323次阅读

    yolov5和YOLOX正负样本分配策略

    整体上在正负样本分配中,yolov7的策略算是yolov5和YOLOX的结合。因此本文先从yolov5和YOLOX正负样本分配策略分析入手,后引入到YOLOv7的解析中。
    发表于 08-14 11:45 1792次阅读
    yolov5和YOLOX正负<b class='flag-5'>样本</b>分配<b class='flag-5'>策略</b>

    什么是零样本学习?为什么要搞零样本学习?

    样本分类的技术目前正处于高速发展时期, 所涉及的具体应用已经从最初的图像分类任务扩展到了其他计算机视觉任务乃至自然语言处理等多个相关领域。 对此, 本文将其称为广义零样本分类。 相应地, 我们将针对图像分类任务的零样本分类任务
    发表于 09-22 11:10 1108次阅读
    什么是零<b class='flag-5'>样本</b>学习?为什么要搞零<b class='flag-5'>样本</b>学习?

    Meta拒绝谷歌合作提议

    近日,科技巨头Meta拒绝与谷歌母公司Alphabet进行合作,原本的计划是将Meta的混合现实头显产品Quest搭载谷歌的Android XR平台。然而,尽管Meta作出了这一决定,谷歌方面依然保持开放态度,显示出其在市场竞争
    的头像 发表于 03-06 10:27 268次阅读

    高通与Meta合作优化Meta Llama 3,实现终端侧运行

    高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉表示:“我们对Meta开放Meta Llama 3的策略表示赞赏,高通与Meta均致力于赋能开发者,推动AI创新。
    的头像 发表于 04-22 09:51 149次阅读