0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种为小样本文本分类设计的结合数据增强的元学习框架

深度学习自然语言处理 来源:南大NLP 作者:孙鹏飞 2021-05-19 15:54 次阅读

01

研究背景及动机

近些年,元学习已经成为解决小样本问题的主流技术,并且取得不错的成果。然而,由于现有的元学习方法大多数集中在图像分类上,而对文本分类上的关注比较少。与图像不同,同一类别中文本具有多种表达方式,这使得当前元学习方法的性能更容易受到每个类别样本数(即shot的数量)的影响。因此,现有的元学习方法很难在小样本文本分类上取得令人满意的结果。

为了解决这个问题,我们在元学习中引入了数据增强,它带来的好处是我们可以产生增强样本以增加新类别的样本数量,并使训练样本多样化。然而,这带来了一个新的挑战,如何在小样本的情况下产生置信度高的样本?

为此,我们提出了一种新颖的数据增强方法,称为Ball generator,图1给出了一个简单的例子。首先,我们计算支持集的最小包围球,并在该球中合成样本。我们认为该球中的样本具有较高的置信度,因为所有支持集样本都包含在该球中,并且它们与球心的最远距离最小。

其次,为避免合成样本偏差的影响,我们引入了变换模块,以使合成样本靠近自己的球心,并远离其他球心。此外,我们还提出了一个新的基于数据增强的元学习框架(MEta-Learning with Data Augmentation,MEDA),以联合训练ball generator和meta-learner,使二者协同进化。与普通元学习相比,通过增加新类别的样本数量,有效地提高了meta-learning在小样本情况下的泛化能力。

950a13b4-b4a6-11eb-bf61-12bb97331649.png

图1:Ball generator示例

02

MEDA

MEDA的框架如图2所示。它是两模块组成:一个是ball generator模块,它负责利用支持集生成增强支持集,并得到扩展支持集。另一个模块是meta-learner,它在给定了扩展支持集的条件下计算每个查询实例在类别上的概率分布,表示为。而不同的meta-learner的区别在于如何实现。这里我们选择原型网络和关系网络作为MEDA的meta-learner。

9536f29e-b4a6-11eb-bf61-12bb97331649.png

图2: MEDA

其中,ball generator是一种特征空间数据增强方法。它的核心思想是在特征空间中进行样本的合成,并对合成的样本进行调整。因此,整个ball generator由两个子模块组成:合成模块和变换模块。

合成模块利用空间采样算法获得相应的合成样本。具体是将采样空间限制为支持集的最小包围球,这里是球心,是半径。然后,通过如下公式计算得到合成样本:

95bedefc-b4a6-11eb-bf61-12bb97331649.png

这里,和。

变换模块,它是为了进一步避免合成样本偏差的影响,在特征空间中对合成的样本进行变换操作,使合成样本更接近自己类别的球心,而远离其他球心。因此,我们将变换操作写成函数,该函数以合成样本作为输入,产生一个增强样本作为输出。

03

实验

本文的实验是在SNIPS和ARSC数据集上进行的。我们将MEDA与三组baseline模型进行了比较。第一组是数据增强的模型;第二组是传统的元学习模型;第三组是最新的小样本文本分类的SOTA模型。实验结果如表1和2所示。

表1:SNIPS实验结果

9634ec8c-b4a6-11eb-bf61-12bb97331649.png

表2: ARSC实验结果

967c6e36-b4a6-11eb-bf61-12bb97331649.png

从实验结果上来看,由于通过数据增强获得更多的训练样本,使得MEDA在两个数据集上都取得一致且显著的提升。

为了更进一步说明模型的shot数量对模型的影响,我们设计相应的实验。如图3所示,我们可以观察到MEDA在所有设置中都取得了最好的表现。特别地,MEDA的准确率随着shot数量的减少而增加(间距变大),这表明当shot数相对较小时,模型效果的提升更明显。

96bf7cc6-b4a6-11eb-bf61-12bb97331649.png

图3: 不同shot数量对模型准确率的影响

此外,我们还研究了模型的准确性如何随着增强样本数量的变化而变化。我们画出不同模型在SNIPS数据集上的准确率变化情况。如图4所示:

970f03f4-b4a6-11eb-bf61-12bb97331649.png

图4: 不同模型的平均准确率随增强样本数量的变化而变化

可以看到,随着增强样本数量的增加,模型的准确率有所提高。同时,我们比较5-shot和10-shot的实验设置,我们发现通过模型增强5个样本与使用5个真实样本的效果几乎相同,这意味着我们的MEDA不是简单地复制样本,而是为模型生成有意义的样本。

04

总结

在本文中,我们提出了一种新颖的数据增强方法,称为ball generator,以增加新类别的样本数量。此外,我们还提出了一个新的框架MEDA,该框架联合优化了ball generator和meta-learner,从而使ball generator可以学习生成最适合meta-learner的增强样本。更多的细节、结果以及分析请参考原论文。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6511

    浏览量

    87600
  • 函数
    +关注

    关注

    3

    文章

    3868

    浏览量

    61309

原文标题:IJCAI2021论文:MEDA:一种为小样本文本分类设计的结合数据增强的元学习框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    求助,为什么在CAN数据库(.dbc文本文件)中找不到报文?

    我有CAN数据库(dbc文件)。这是文本文件。此文件的扩展名为 dbc。在Vector CANdb++编辑器中打开它时,将填充J1939报文和CAN ID。 但是,在.dbc文本文
    发表于 01-23 06:28

    人工智能中文本分类的基本原理和关键技术

    本文中,我们全面探讨了文本分类技术的发展历程、基本原理、关键技术、深度学习的应用,以及从RNN到Transformer的技术演进。文章详细介绍了各种模型的原理和实战应用,旨在提供对文本分类
    的头像 发表于 12-16 11:37 549次阅读
    人工智能中<b class='flag-5'>文本分类</b>的基本原理和关键技术

    什么是偏流?什么是偏流噪声?结合数据手册这两个指标在哪里可以查到呢?

    什么是偏流?什么是偏流噪声?结合数据手册这两个指标在哪里可以查到?
    发表于 11-13 10:48

    什么是零样本学习?为什么要搞零样本学习

    样本分类的技术目前正处于高速发展时期, 所涉及的具体应用已经从最初的图像分类任务扩展到了其他计算机视觉任务乃至自然语言处理等多个相关领域。 对此, 本文将其称为广义零样本分类。 相应
    发表于 09-22 11:10 1054次阅读
    什么是零<b class='flag-5'>样本</b><b class='flag-5'>学习</b>?为什么要搞零<b class='flag-5'>样本</b><b class='flag-5'>学习</b>?

    视觉深度学习迁移学习训练框架Torchvision介绍

    Torchvision是基于Pytorch的视觉深度学习迁移学习训练框架,当前支持的图像分类、对象检测、实例分割、语义分割、姿态评估模型的迁移学习
    的头像 发表于 09-22 09:49 450次阅读
    视觉深度<b class='flag-5'>学习</b>迁移<b class='flag-5'>学习</b>训练<b class='flag-5'>框架</b>Torchvision介绍

    机器学习模型类型分类

    。Y = f (X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。 有监督学习可以被分为两类:
    的头像 发表于 09-05 11:45 1346次阅读
    机器<b class='flag-5'>学习</b>模型类型<b class='flag-5'>分类</b>

    深度学习框架是什么?深度学习框架有哪些?

    深度学习框架是什么?深度学习框架有哪些?  深度学习框架
    的头像 发表于 08-17 16:03 1778次阅读

    yolov5和YOLOX正负样本分配策略

    整体上在正负样本分配中,yolov7的策略算是yolov5和YOLOX的结合。因此本文先从yolov5和YOLOX正负样本分配策略分析入手,后引入到YOLOv7的解析中。
    发表于 08-14 11:45 1770次阅读
    yolov5和YOLOX正负<b class='flag-5'>样本分</b>配策略

    华为云ModelArts入门开发(完成物体分类、物体检测)

    利用ModelArts框架可以完成图像分类、物体检测、预测分析、声音分类文本分类等功能。介绍如何使用ModelArts完成图像分类、物体检
    的头像 发表于 07-10 16:26 1303次阅读
    华为云ModelArts入门开发(完成物体<b class='flag-5'>分类</b>、物体检测)

    如何在缺陷样本少的情况下实现高精度的检测

    样本少的情况下实现高精度的检测呢?目前有两种方法,一种小样本学习,另一种是用GAN。本文将介绍
    的头像 发表于 06-26 09:54 778次阅读
    如何在缺陷<b class='flag-5'>样本</b>少的情况下实现高精度的检测

    基于GAN的零缺陷样本产品表面缺陷检测

    少的情况下实现高精度的检测呢?目前有两种方法,一种小样本学习,另一种是用GAN。本文将介绍一种
    的头像 发表于 06-26 09:49 620次阅读
    基于GAN的零缺陷<b class='flag-5'>样本</b>产品表面缺陷检测

    小样本学习领域的未来发展方向

    什么是小样本学习?它与弱监督学习等问题有何差异?其核心问题是什么?来自港科大和第四范式的这篇综述论文提供了解答。 数据是机器学习领域的重要资
    的头像 发表于 06-14 09:59 607次阅读
    <b class='flag-5'>小样本</b><b class='flag-5'>学习</b>领域的未来发展方向

    NLP中的迁移学习:利用预训练模型进行文本分类

    迁移学习彻底改变了自然语言处理(NLP)领域,允许从业者利用预先训练的模型来完成自己的任务,从而大大减少了训练时间和计算资源。在本文中,我们将讨论迁移学习的概念,探索一些流行的预训练模型,并通过实际示例演示如何使用这些模型进行
    发表于 06-14 09:30 311次阅读

    PyTorch教程4.3之基本分类模型

    电子发烧友网站提供《PyTorch教程4.3之基本分类模型.pdf》资料免费下载
    发表于 06-05 15:43 0次下载
    PyTorch教程4.3之基<b class='flag-5'>本分类</b>模型

    机器学习相关介绍:支持向量机(低维到高维的映射)

    根据机器学习相关介绍(9)——支持向量机(线性不可分情况),通过引入松弛变量δi将支持向量机推广至解决非线性可分训练样本分类的方式不能解决所有非线性可分训练样本分类问题。因此,支持向
    的头像 发表于 05-16 11:20 1424次阅读
    机器<b class='flag-5'>学习</b>相关介绍:支持向量机(低维到高维的映射)