0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种为小样本文本分类设计的结合数据增强的元学习框架

深度学习自然语言处理 来源:南大NLP 作者:孙鹏飞 2021-05-19 15:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

01

研究背景及动机

近些年,元学习已经成为解决小样本问题的主流技术,并且取得不错的成果。然而,由于现有的元学习方法大多数集中在图像分类上,而对文本分类上的关注比较少。与图像不同,同一类别中文本具有多种表达方式,这使得当前元学习方法的性能更容易受到每个类别样本数(即shot的数量)的影响。因此,现有的元学习方法很难在小样本文本分类上取得令人满意的结果。

为了解决这个问题,我们在元学习中引入了数据增强,它带来的好处是我们可以产生增强样本以增加新类别的样本数量,并使训练样本多样化。然而,这带来了一个新的挑战,如何在小样本的情况下产生置信度高的样本?

为此,我们提出了一种新颖的数据增强方法,称为Ball generator,图1给出了一个简单的例子。首先,我们计算支持集的最小包围球,并在该球中合成样本。我们认为该球中的样本具有较高的置信度,因为所有支持集样本都包含在该球中,并且它们与球心的最远距离最小。

其次,为避免合成样本偏差的影响,我们引入了变换模块,以使合成样本靠近自己的球心,并远离其他球心。此外,我们还提出了一个新的基于数据增强的元学习框架(MEta-Learning with Data Augmentation,MEDA),以联合训练ball generator和meta-learner,使二者协同进化。与普通元学习相比,通过增加新类别的样本数量,有效地提高了meta-learning在小样本情况下的泛化能力。

950a13b4-b4a6-11eb-bf61-12bb97331649.png

图1:Ball generator示例

02

MEDA

MEDA的框架如图2所示。它是两模块组成:一个是ball generator模块,它负责利用支持集生成增强支持集,并得到扩展支持集。另一个模块是meta-learner,它在给定了扩展支持集的条件下计算每个查询实例在类别上的概率分布,表示为。而不同的meta-learner的区别在于如何实现。这里我们选择原型网络和关系网络作为MEDA的meta-learner。

9536f29e-b4a6-11eb-bf61-12bb97331649.png

图2: MEDA

其中,ball generator是一种特征空间数据增强方法。它的核心思想是在特征空间中进行样本的合成,并对合成的样本进行调整。因此,整个ball generator由两个子模块组成:合成模块和变换模块。

合成模块利用空间采样算法获得相应的合成样本。具体是将采样空间限制为支持集的最小包围球,这里是球心,是半径。然后,通过如下公式计算得到合成样本:

95bedefc-b4a6-11eb-bf61-12bb97331649.png

这里,和。

变换模块,它是为了进一步避免合成样本偏差的影响,在特征空间中对合成的样本进行变换操作,使合成样本更接近自己类别的球心,而远离其他球心。因此,我们将变换操作写成函数,该函数以合成样本作为输入,产生一个增强样本作为输出。

03

实验

本文的实验是在SNIPS和ARSC数据集上进行的。我们将MEDA与三组baseline模型进行了比较。第一组是数据增强的模型;第二组是传统的元学习模型;第三组是最新的小样本文本分类的SOTA模型。实验结果如表1和2所示。

表1:SNIPS实验结果

9634ec8c-b4a6-11eb-bf61-12bb97331649.png

表2: ARSC实验结果

967c6e36-b4a6-11eb-bf61-12bb97331649.png

从实验结果上来看,由于通过数据增强获得更多的训练样本,使得MEDA在两个数据集上都取得一致且显著的提升。

为了更进一步说明模型的shot数量对模型的影响,我们设计相应的实验。如图3所示,我们可以观察到MEDA在所有设置中都取得了最好的表现。特别地,MEDA的准确率随着shot数量的减少而增加(间距变大),这表明当shot数相对较小时,模型效果的提升更明显。

96bf7cc6-b4a6-11eb-bf61-12bb97331649.png

图3: 不同shot数量对模型准确率的影响

此外,我们还研究了模型的准确性如何随着增强样本数量的变化而变化。我们画出不同模型在SNIPS数据集上的准确率变化情况。如图4所示:

970f03f4-b4a6-11eb-bf61-12bb97331649.png

图4: 不同模型的平均准确率随增强样本数量的变化而变化

可以看到,随着增强样本数量的增加,模型的准确率有所提高。同时,我们比较5-shot和10-shot的实验设置,我们发现通过模型增强5个样本与使用5个真实样本的效果几乎相同,这意味着我们的MEDA不是简单地复制样本,而是为模型生成有意义的样本。

04

总结

在本文中,我们提出了一种新颖的数据增强方法,称为ball generator,以增加新类别的样本数量。此外,我们还提出了一个新的框架MEDA,该框架联合优化了ball generator和meta-learner,从而使ball generator可以学习生成最适合meta-learner的增强样本。更多的细节、结果以及分析请参考原论文。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93962
  • 函数
    +关注

    关注

    3

    文章

    4406

    浏览量

    66827

原文标题:IJCAI2021论文:MEDA:一种为小样本文本分类设计的结合数据增强的元学习框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    发布服务配置内容分级

    ”。 8.如果您最终选择的年龄分级3、8或者12,点击“提交”后,您还需再次确认您的服务是否仅面向儿童。 选择“是”:如果服务分类是儿童类,点击“确认”成功提交分级;如果
    发表于 11-21 11:29

    发布服务配置应用分类、标签和资质信息(仅分发手表设备)

    ,参考华为应用市场应用分类规则,选择服务分类。 5.点击“管理标签”,选择服务的标签。 最多可以选择5个标签,且必须设置其中个为主标签
    发表于 10-30 17:47

    发布服务配置应用分类、标签和资质信息

    联。 说明 暂不支持“分类标签和资质管理”菜单的存量非手表服务,可参考仅分发手表设备分别前往应用信息和版本信息页面,分开配置应用分类标签与版权信息。 若您也希望这部分
    发表于 10-29 16:47

    模板驱动 无需训练数据 SmartDP解决小样本AI算法模型开发难题

    。但是这个平台不适用于小样本AI模型开发,特别是些特殊行业,数据本来就不多,但又有着需求,因此陷于两难。面临这种市场困境,慧视光电推出了个全新的AI平台Sma
    的头像 发表于 09-09 17:57 1158次阅读
    模板驱动  无需训练<b class='flag-5'>数据</b>  SmartDP解决<b class='flag-5'>小样本</b>AI算法模型开发难题

    一种适用于动态环境的自适应先验场景-对象SLAM框架

    由于传统视觉SLAM在动态场景中容易会出现严重的定位漂移,本文提出了一种新颖的基于场景-对象的可靠性评估框架,该框架通过当前帧质量指标以及相对于可靠参考帧的场景变化,全面评估SLAM的
    的头像 发表于 08-19 14:17 641次阅读
    <b class='flag-5'>一种</b>适用于动态环境的自适应先验场景-对象SLAM<b class='flag-5'>框架</b>

    HarmonyOS NEXT意图框架习惯推荐场景说明

    、概述 意图框架是HarmonyOS系统级的意图标准体系。将应用和服务的业务功能智慧分发给不同的系统入口,以“音乐播放”例,HarmonyOS将业务分发给“小艺建议”,提供了桌面
    发表于 06-18 15:06

    嵌入式AI技术漫谈:怎么训练AI模型采集样本数据

    多少数据,才能形成合适的样本集,进而开始训练模型呢? 此时,回答“按需提供”或者“先试试看”似乎会变成句车轱辘话,看似回答了问题,但客户还是无从下手。 AI数据
    的头像 发表于 06-11 16:30 1073次阅读

    宽调速范围低转矩脉动的一种新型内置式永磁同步电机的设计与分析

    摘要:宽调速范围与低转矩脉动直是设计电动汽车用内置式永础同步电机时所追求的重要目标。设计了一种转子结构胃的新型内置式永础同步电机,并进行了绕组结构优化与性能分析。利用有限分析法,
    发表于 06-06 14:13

    一种实时多线程VSLAM框架vS-Graphs介绍

    针对现有VSLAM系统语义表达不足、地图可解释性差的问题,本文提出vS-Graphs,一种实时多线程VSLAM框架。该方案显著提升了重建地图的语义丰富度、可解释性及定位精度。实验表明
    的头像 发表于 04-19 14:07 721次阅读
    <b class='flag-5'>一种</b>实时多线程VSLAM<b class='flag-5'>框架</b>vS-Graphs介绍

    嵌入式AI技术之深度学习数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据次抽象,多层神经网络构成深度学习框架,可以深度理解
    的头像 发表于 04-02 18:21 1280次阅读

    xgboost在图像分类中的应用

    XGBoost(eXtreme Gradient Boosting)是一种高效的机器学习算法,它基于梯度提升框架,通过构建多个弱学习器(通常是决策树)来提高模型的性能。XGBoost因
    的头像 发表于 01-19 11:16 1556次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    理和理解这些数据。在自然语言处理中,Embedding常用于将文本数据中的单词、句子或文档映射固定长度的实数向量,这些向量包含了丰富的语义信息。RAG技术是一种
    发表于 01-17 19:53

    BSDF数据导入与拟合

    (BSDF)。Scale 是BSDF数据的尺度因子。 文本文件余下的行由两个组成,指明镜像方向相对应的散射数据,以及3个组构成的散射方向和BSDF值。正确的
    发表于 12-23 19:35

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    问题,当步幅2时,添加了深度卷积和逐点卷积来整合不同的信道信息(图 a)。GhostNet 的作者提出了一种新的 Ghost 模块,该模块可以用更少的参数生成更多的特征图,以提高网络的学习能力。在步幅
    发表于 12-19 14:33

    BSDF数据导入与拟合

    (BSDF)。Scale 是BSDF数据的尺度因子。 文本文件余下的行由两个组成,指明镜像方向相对应的散射数据,以及3个组构成的散射方向和BSDF值。正确的
    发表于 12-13 10:05