0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习:小样本学习下的多标签分类问题初探

深度学习自然语言处理 来源:深度学习自然语言处理 作者:侯宇泰 2021-01-07 14:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

摘要

小样本学习(Few-shot Learning)近年来吸引了大量的关注,但是针对多标签问题(Multi-label)的研究还相对较少。在本文中,我们以用户意图检测任务为切入口,研究了的小样本多标签分类问题。对于多标签分类的SOTA方法往往会先估计标签-样本相关性得分,然后使用阈值来选择多个关联的标签。

为了在只有几个样本的Few-shot场景下确定合适的阈值,我们首先在数据丰富的多个领域上学习通用阈值设置经验,然后采用一种基于非参数学习的校准(Calibration)将阈值适配到Few-shot的领域上。为了更好地计算标签-样本相关性得分,我们将标签名称嵌入作为表示(Embedding)空间中的锚点,以优化不同类别的表示,使它们在表示空间中更好的彼此分离。在两个数据集上进行的实验表明,所提出的模型在1-shot和5-shot实验均明显优于最强的基线模型(baseline)。

1.Introduction

1.1 背景一:用户意图识别

用户意图识别是任务型对话理解的关键组成部分,它的任务是识别用户输入的话语属于哪一个领域的哪一种意图 [1]。

当下的用户意图识别系统面临着两方面的关键挑战:

频繁变化的领域和任务需求经常导致数据不足

用户在一轮对话中经常会同时包含多个意图 [2,3]

a1b2d2a6-5036-11eb-8b86-12bb97331649.png

图1. 示例:意图理解同时面领域繁多带来数据不足和多标签的挑战

1.2 背景二:多标签分类 & 小样本学习

小样本学习(Few-shot Learning)旨在像人一样利用少量样本完成学习,近年来吸引了大量的关注 [4,5]。

但是针对多标签问题的小样本学习研究还相对较少。

1.3 本文研究内容

本文以用户意图检测任务为切入口,研究了的小样本多标签分类问题,并提出了Meta Calibrated Threshold (MCT) 和 Anchored Label Reps (ALR) 从两个角度系统地为小样本多标签学习提供解决方案。

2. Problem Definition

2.1 多标签意图识别

如图2所示,目前State-of-the-art多标签意图识别系统往往使用基于阈值(Threshold)的方法 [3,6,7],其工作流程可以大致分为两步:

计算样本-标签类别相关性分数

然后用预设或从数据学习的阈值选择标签

2.2小样本多标签用户意图识别

观察一个给定的有少量样例的支持集(Support Set)

预测未见样本(Query Instance)的意图标签

a1e07080-5036-11eb-8b86-12bb97331649.png

图2. 小样本多标签意图识别框架概览

3. 方法

a20ccd1a-5036-11eb-8b86-12bb97331649.png

图3. 我们提出的小样本多标签识别模型

3.1 阈值计算

(1)挑战:

多标签分类任务在小样本情景下主要面临如下挑战:

a. 因为要从数据中学习阈值,现有方法只适用于数据充足情况。小样本情景下,模型很难从几个样本中归纳出阈值;

b. 此外,不同领域间阈值无法直接迁移,难以利用先验知识。

(2)解决方案:

为了解决上述挑战,我们提出Meta Calibrated Threshold (MCT),具体可以分为两步(如图3左边所示):

a. 首先在富数据领域,学习通用的thresholding经验

a28d7ee2-5036-11eb-8b86-12bb97331649.png

b. 然后在Few-shot领域上,用Kernel Regression 来用领域内的知识矫正阈值 (Calibration)

a2c75306-5036-11eb-8b86-12bb97331649.png

这样,我们在估计阈值时,既能迁移先验知识,又能利用领域特有的知识:

a2e9003c-5036-11eb-8b86-12bb97331649.png

3.2 样本-标签类别相关度计算

(1)挑战:

如图4所示,经典的小样本方法利用相似度计算样本-标签类别相关性,这在多标签场景下会失效。

a315937c-5036-11eb-8b86-12bb97331649.png

图4. 经典的基于相似度的小样本学习模型:原型网络

如图3所示,例子中,time和location两个标签因为support example相同,导致这两个类别由样本得到的表示相同不可分,进而无法进行基于相似度的样本-类别标签相关度计算。

(2)解决方案:

为了解决上述挑战,我们提出了Anchored Label Reps (ALR)。具体的,如图三右边所示,我们

a. 利用标签名作为锚点来优化Embedding空间学习

b. 利用标签名语义来分开多标签下的类别表示

4. 实验

4.1 主实验结果

实验结果显示,我们的方法在两个数据集上显著的优于最强baseline。同时可以看到,我们的方法很多时候只用小的预训练模型就超过了所有使用大预训练模型的baseline,这在计算资源受限的情景下格外有意义。

a33248fa-5036-11eb-8b86-12bb97331649.png

表1. 主实验结果。+E 代表使用 Electra-small (14M);+B为 BERT-base (110M)

4.2 实验分析

图5的消融实验显示所提出的ALR和MCT都对最终的效果产生了较大的贡献。

a3a1d42c-5036-11eb-8b86-12bb97331649.png

图5. 消融实验

在图6中,我们对Meta Calibrated Threshold中各步骤对最终标签个数准确率的影响进行了探索。结果显示Meta学习和基于Kernel Regression的Calibration过程都会极大地提升最终模型的准确率。

a3b775a2-5036-11eb-8b86-12bb97331649.png

图6. 标签个数准确率结果

参考文献

[1] Young, S.; Gasiˇ c, M.; Thomson, B.; and Williams, J. D. ´ 2013. Pomdp-based statistical spoken dialog systems: A review. In Proc. of the IEEE, volume 101, 1160–1179. IEEE.

[2] Xu, P.; and Sarikaya, R. 2013. Exploiting shared information for multi-intent natural language sentence classification. In Proc. of Interspeech, 3785–3789.

[3]Qin, L.; Xu, X.; Che, W.; and Liu, T. 2020. TD-GIN: Token-level Dynamic Graph-Interactive Network for Joint Multiple Intent Detection and Slot Filling. arXiv preprint arXiv:2004.10087 .

[4] Vinyals, O.; Blundell, C.; Lillicrap, T.; Kavukcuoglu, K.; and Wierstra, D. 2016. Matching networks for one shot learning. In Proc. of NeurIPS, 3630–3638.

[5] Bao, Y.; Wu, M.; Chang, S.; and Barzilay, R. 2020. Few-shot Text Classification with Distributional Signatures. In Proc. of the ICLR.

[6] Xu, G.; Lee, H.; Koo, M.-W.; and Seo, J. 2017. Convolutional neural network using a threshold predictor for multilabel speech act classification. In IEEE international conference on big data and smart computing (BigComp), 126–130.

[7]Gangadharaiah, R.; and Narayanaswamy, B. 2019. Joint Multiple Intent Detection and Slot Labeling for GoalOriented Dialog. In Proc. of the ACL, 564–569.

责任编辑:xj

原文标题:【赛尔AAAI2021】小样本学习下的多标签分类问题初探

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296681
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123911

原文标题:【赛尔AAAI2021】小样本学习下的多标签分类问题初探

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督学习:无需缺陷样本即可训练高精度检测模型 持续更新:
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    学习模型DLL 硬件联动:支持工业相机硬触发、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督学习:无
    发表于 12-03 13:50

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于
    的头像 发表于 11-27 10:19 55次阅读

    超高频(UHF)标签RFID读取器(面向项目落地的深度指南)

    超高频(UHF)标签RFID读取器:一次能读多张,怎么做到?怎么用好?(面向工程与落地的深度指南)这篇文章把“原理、设备要点、部署细节”都说清楚了,既有技术维度,也有落地建议。
    的头像 发表于 11-01 11:37 173次阅读
    超高频(UHF)<b class='flag-5'>多</b><b class='flag-5'>标签</b>RFID读取器(面向项目落地的<b class='flag-5'>深度</b>指南)

    发布元服务配置应用分类标签和资质信息

    分类标签和资质管理”菜单选择元服务归属的类别和标签,同时将所需的资质文件提交给华为运营人员审核。资质文件审核通过后,您选择的标签才能生效,之后才可选择生效
    发表于 10-29 16:47

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概
    的头像 发表于 09-10 17:38 693次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供了从数据感知到智能决策的全链路升级能力。以下从技术赋能、场景突破
    的头像 发表于 08-20 14:56 760次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    持续讨论。特别是在自动驾驶领域,部分厂商开始尝试将模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与实际落地路径等维度来看,Transforme
    的头像 发表于 08-13 09:15 3919次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    B10 BMS技术知识初探(上、

    绍相关电子元器件分类,引导课程B15深入学习 适应对象: 所有关注电池、新能源行业发展的朋友们。 课程时长: 90 分钟
    发表于 05-02 11:04

    嵌入式AI技术之深度学习:数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据做一次抽象,多层神经网络构成深度学习的框架,可以深度理解数据中所要表示的规律。从原理上看,使用
    的头像 发表于 04-02 18:21 1284次阅读

    如何排除深度学习工作台上量化OpenVINO™的特定层?

    无法确定如何排除要在深度学习工作台上量化OpenVINO™特定层
    发表于 03-06 07:31

    军事应用中深度学习的挑战与机遇

    人工智能尤其是深度学习技术的最新进展,加速了不同应用领域的创新与发展。深度学习技术的发展深刻影响了军事发展趋势,导致战争形式和模式发生重大变化。本文将概述
    的头像 发表于 02-14 11:15 819次阅读

    BP神经网络与深度学习的关系

    BP神经网络与深度学习之间存在着密切的关系,以下是对它们之间关系的介绍: 一、BP神经网络的基本概念 BP神经网络,即反向传播神经网络(Backpropagation Neural Network
    的头像 发表于 02-12 15:15 1341次阅读

    AI自动化生产:深度学习在质量控制中的应用

    随着科技的飞速发展,人工智能(AI)与深度学习技术正逐步渗透到各个行业,特别是在自动化生产中,其潜力与价值愈发凸显。深度学习软件不仅使人工和基于规则的算法难以胜任的大量生产任务得以自动
    的头像 发表于 01-17 16:35 1212次阅读
    AI自动化生产:<b class='flag-5'>深度</b><b class='flag-5'>学习</b>在质量控制中的应用

    传统机器学习方法和应用指导

    用于开发生物学数据的机器学习方法。尽管深度学习(一般指神经网络算法)是一个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比
    的头像 发表于 12-30 09:16 1982次阅读
    传统机器<b class='flag-5'>学习</b>方法和应用指导