0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

文本噪声标签在预训练语言模型(PLMs)上的特性

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-10-12 09:50 次阅读

数据的标签错误随处可见,如何在噪声数据集上学习到一个好的分类器,是很多研究者探索的话题。在 Learning With Noisy Labels 这个大背景下,很多方法在图像数据集上表现出了非常好的效果。

而文本的标签错误有时很难鉴别。比如对于一段文本,可能专家对于其主旨类别的看法都不尽相同。这些策略是否在语言模型,在文本数据集上表现好呢?本文探索了文本噪声标签在预训练语言模型(PLMs)上的特性,提出了一种新的学习策略 SelfMix,并机器视觉上常用的方法应用于预训练语言模型作为 baseline。

为什么选 PLMs

我们对于常见语言分类模型在带噪文本数据集上做了一些前期实验,结果如下:

26bb6bd2-497f-11ed-a3b6-dac502259ad0.png

首先,毫无疑问,预训练模型(BERT,RoBERTa)的表现更好。其次,文章提到,预训练模型已经在大规模的预训练语料上获得了一定的类别先验知识。故而在有限轮次训练之后,依然具有较高的准确率,如何高效利用预训练知识处理标签噪声,也是一个值得探索的话题。

预训练模型虽然有一定的抗噪学习能力,但在下游任务的带噪数据上训练时也会受到噪声标签的影响,这种现象在少样本,高噪声比例的设置下更加明显。

26d1e2ae-497f-11ed-a3b6-dac502259ad0.png

方法

由此,我们提出了 SelfMix,一种对抗文本噪声标签的学习策略。

基础模型上,我们采用了 BERT encoder + MLP 这一常用的分类范式。

270fa0da-497f-11ed-a3b6-dac502259ad0.png

针对带噪学习策略,主要可以分为两个部分

Sample Selection

Semi-supervised Learning

Sample Selection

Sample Selection 部分对于原始数据集 ,经过模型的一次传播,根据每个样本对应的 loss,通过 2 核的 GMM 拟合将数据集分为干净和带噪声的两个部分,分别为 和 。因为其中 被认为是噪声数据集,所以其标签全部被去除,认为是无标签数据集。

这里的 GMM,简单的来讲其实可以看作是根据整体的 loss 动态拟合出一个阈值(而不是规定一个阈值,因为在训练过程中这个阈值会变化),将 loss 位于阈值两边的分别分为 clean samples 和 noise samples。

Semi-supervised Learning

关于 Semi-supervised Learning 部分,SelfMix 首先利用模型给给无标签的数据集打伪标签(这里采用了 soft label 的形式),得到 。因为打伪标签需要模型在这个下游任务上有一定的判别能力,所以模型需要预先 warmup 的少量的步数。

Textual Mixup」:文中采用了句子 [CLS] embedding 做 mixup。Mixup 也是半监督和鲁棒学习中经常采用的一个策略。

27757996-497f-11ed-a3b6-dac502259ad0.png

「Pseudo-Loss」:文中的解释比较拗口,其实本质也是一种在半监督训练过程中常用的对模型输出墒的约束。

27a9d40c-497f-11ed-a3b6-dac502259ad0.png

「Self-consistency Regularization」:其他的很多带噪学习方法大都是多模型集成决策的想法,但我们认为可以利用 dropout 机制来使得单个模型做自集成。噪声数据因为与标签的真实分布相悖,往往会导致子模型之间产生很大的分歧,我们不希望在高噪声环境下子模型的分歧越来越大,故而采用了 R-Drop 来约束子模型。具体的做法是,计算两次传播概率分布之间的 KL 散度,作为 loss 的一部分,并且消融实验证明这个方法是十分有效的。

27c65db6-497f-11ed-a3b6-dac502259ad0.png

实验

我们在 IDN (Instance-Dependent Noise) 和 Asym (Asymmetric Noise) 做了实验,并且对数据集做了切分来拟合数据充分和数据补充的情况,并设置了不同比例的标签噪声来拟合微量噪声至极端噪声下的情况,上图!

ASYM 噪声实验结果

ASYM 噪声按照一个特定的噪声转移矩阵将一个类别样本的标签随机转换为一个特定类别的标签,来形成类别之间的混淆。

27e07714-497f-11ed-a3b6-dac502259ad0.png

IDN 噪声实验结果

为了拟合基于样本特征的错标情况,我们训练了一个LSTM文本分类,对于一个样本,将LSTM对于其预测结果中更容易错的类别作为其可能的噪声标签。

27ff3d48-497f-11ed-a3b6-dac502259ad0.png

其他的一些讨论

GMM 是否有效:从 a-c, d-f 可看出高斯混合模型能够比较充分得拟合 clean 和 noise 样本的 loss 分布。

SelfMix 对防止模型过拟合噪声的效果是否明显:d, h 两张图中,BERT-base 和 SelfMix 的 warmup 过程是完全一致的,warmup 过后 SelfMix 确实给模型的性能带来了一定的提升,并且趋于稳定,有效避免了过拟合噪声的现象。285999be-497f-11ed-a3b6-dac502259ad0.png

考虑到模型最终的优化目标包括三个项,我们做了消融实验,分别去掉其中一个约束来看看模型表现如何,最终证明每个约束确实对于处理噪声标签有帮助。

287fbe82-497f-11ed-a3b6-dac502259ad0.png

审核编辑:彭静

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 噪声
    +关注

    关注

    13

    文章

    1070

    浏览量

    47063
  • 语言模型
    +关注

    关注

    0

    文章

    435

    浏览量

    10047
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24353

原文标题:COLING'22 | SelfMix:针对带噪数据集的半监督学习方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一文详解知识增强的语言训练模型

    随着预训练语言模型(PLMs)的不断发展,各种NLP任务设置上都取得了不俗的性能。尽管PLMs可以从大量语料库中学习一定的知识,但仍旧存在很
    的头像 发表于 04-02 17:21 8918次阅读

    【书籍评测活动NO.30】大规模语言模型:从理论到实践

    多种形式和任务。这个阶段是从语言模型向对话模型转变的关键,其核心难点在于如何构建训练数据,包括训练数据内部多个任务之间的关系、
    发表于 03-11 15:16

    Protel *** 2004 面板标签在哪里恢复???

    哪位英雄知道Protel *** 2004 面板标签在哪里可以恢复?我不小心关闭了!
    发表于 09-13 22:58

    在Ubuntu使用Nvidia GPU训练模型

    问题最近在Ubuntu使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:解决方案自动风扇控制在
    发表于 01-03 08:24

    基于LSTM的表示学习-文本分类模型

    分类的关键。为了获得妤的文本表示,提高文本分类性能,构建了基于LSTM的表示学习-文本分类模型,其中表示学习模型利用
    发表于 06-15 16:17 18次下载

    如何向大规模预训练语言模型中融入知识?

    本文关注于向大规模预训练语言模型(如RoBERTa、BERT等)中融入知识。
    的头像 发表于 06-23 15:07 3601次阅读
    如何向大规模预<b class='flag-5'>训练</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>中融入知识?

    一种基于乱序语言模型的预训练模型-PERT

    由于乱序语言模型不使用[MASK]标记,减轻了预训练任务与微调任务之间的gap,并由于预测空间大小为输入序列长度,使得计算效率高于掩码语言模型
    的头像 发表于 05-10 15:01 1225次阅读

    基于Zero-Shot的多语言抽取式文本摘要模型

    抽取式文本摘要目前在英文上已经取得了很好的性能,这主要得益于大规模预训练语言模型和丰富的标注语料。但是对于其他小语种语言,目前很难得到大规模
    的头像 发表于 07-08 10:49 1246次阅读

    CogBERT:脑认知指导的预训练语言模型

    另一方面,从语言处理的角度来看,认知神经科学研究人类大脑中语言处理的生物和认知过程。研究人员专门设计了预训练模型来捕捉大脑如何表示语言的意
    的头像 发表于 11-03 15:07 754次阅读

    训练数据大小对于预训练模型的影响

    BERT类模型的工作模式简单,但取得的效果也是极佳的,其在各项任务上的良好表现主要得益于其在大量无监督文本上学习到的文本表征能力。那么如何从语言学的特征角度来衡量一个预
    的头像 发表于 03-03 11:20 973次阅读

    大型语言模型能否捕捉到它们所处理和生成的文本中的语义信息

      大型语言模型能否捕捉到它们所处理和生成的文本中的语义信息?这一问题在计算机科学和自然语言处理领域一直存在争议。然而,MIT的一项新研究表明,仅基于
    的头像 发表于 05-25 11:34 485次阅读
    大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>能否捕捉到它们所处理和生成的<b class='flag-5'>文本</b>中的语义信息

    NLP中的迁移学习:利用预训练模型进行文本分类

    迁移学习彻底改变了自然语言处理(NLP)领域,允许从业者利用预先训练模型来完成自己的任务,从而大大减少了训练时间和计算资源。在本文中,我们将讨论迁移学习的概念,探索一些流行的预
    发表于 06-14 09:30 311次阅读

    基于预训练模型语言增强的零样本视觉学习

    Stable Diffusion 多模态预训练模型 考虑多标签图像分类任务——每幅图像大于一个类别 如果已有图文对齐模型——能否用文本特征
    的头像 发表于 06-15 16:36 324次阅读
    基于预<b class='flag-5'>训练</b><b class='flag-5'>模型</b>和<b class='flag-5'>语言</b>增强的零样本视觉学习

    训练语言模型带来的硬件挑战

    生成式AI和大语言模型(LLM)正在以难以置信的方式吸引全世界的目光,本文简要介绍了大语言模型训练这些
    的头像 发表于 09-01 17:14 1117次阅读
    <b class='flag-5'>训练</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>带来的硬件挑战

    语言模型简介:基于大语言模型模型全家桶Amazon Bedrock

    本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶:Bedrock对大语言模型进行介绍。大语言模型
    的头像 发表于 12-04 15:51 407次阅读