0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种处理多标签文本分类的新颖推理机制

深度学习自然语言处理 来源:南大NLP 作者:南大NLP 2021-02-05 09:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

研究动机

标签文本分类(multi-label text classification, 简称MLTC)的目的是在给定文本后要求模型预测其多个非互斥的相关标签。该任务在许多自然语言处理任务上都有体现。如在表1中,需要给该文档打上标签:basketball、NBA、sport。

表1多标签文本分类的例子

文本 This article is about a game between Houston Rockets and Los Angeles Lakers.
相关标签 basketball, NBA, sport
不相关标签 football

一种处理MLTC的简单方法是将其转换为多个独立的二分类问题。该方法被称为BinaryRelevance (BR),由于其简单性而被大规模使用。但该方法的弊端也十分明显,即该方法完全忽略了标签之间的相关信息。直觉上,知道一些标签——如上例中的basketball及NBA——会使得预测其他标签(如sport)更加简单。研究者指出对于多标签分类任务而言,有效利用标签之间的相关性是有益的、甚至是必要的。为此,涌现出许多利用标签关系的算法,其中最知名的就是算法Classifier Chains(CC)。该算法将多个二分类器串联起来,其中每个分类器使用之前分类器的预测结果作为额外的输入。该方法将潜在的标签依赖纳入考虑,但该问题的最大缺陷在于不同的标签顺序会产生天壤之别的性能。同时,CC算法的链式结构使得算法无法并行,在处理大规模数据集时效率低下。

近年来,也有学者将标签集合视作标签序列,并使用基于神经网络的端到端模型(seq2seq)来处理该任务。相较于CC预测所有标签,这类seq2seq的模型只预测相关标签。因此该类模型的决策链条长度更短,性能更优。但这类模型的性能强烈依赖于标签的顺序。在多标签数据集中,标签本质上是无序的集合,未必可以线性排列。学者们指出不同的标签顺序对于学习和预测有着重大影响。举例来说,对于表1中的例子,如果标签序列以sport开始,则对于预测其他相关标签的帮助不大。

02

解决方案

为了处理上述问题,我们提出了Multi-Label Reasoner(ML-Reasoner),一个基于推理机制的算法。ML-Reasoner的框架如图1所示,我们为每一个标签分配一个二分类器,它们同时预测所有标签以满足标签的无序性质。这样的话,ML-Reasoner可以同时计算每一个标签相关的概率。例如在处理上例时,ML-Reasoner可能认为标签NBA相关的概率为0.9,basketball的为0.7,sport为0.55,football为0.3.这样,ML-Reasoner就完全避免依赖标签顺序。同时为了有效利用标签的相关性,我们设置了一种新颖的迭代推理机制,即将上一轮对所有标签相关的预测作为下一次迭代的额外特征输入。这种方法使得ML-Reasoner可以在每一轮的迭代中完善预测结果。举例来说,考虑到标签NBA与basketball相关的概率较高,模型可以在后续迭代中,将标签sport的概率调高。

274e6dc8-603e-11eb-8b86-12bb97331649.png

图1 Multi-Label Reasoner整体框架图

具体到Reasoner的实现,我们将其划分为五个组件,其相关交互关系见图2。

2a98ed0a-603e-11eb-8b86-12bb97331649.png

图2多标签文本分类的Reasoner模块

- Text Encoder将词语序列转换为稠密的向量表示,主要负责抽取文本特征;

- Label Encoder将上一轮次所有标签的相关概率转换为相应的标签表示;

- Attention模块负责计算文本与不同标签之间的相关性;

- Combiner则将文本的原始特征与标签特征进行整合;

- 具有相同结构但不同参数的Classifier则预测各个标签的相关性。

至于损失函数,我们选择了Binary Cross Entropy (BCE)。更具体的设置请参见原文。

03

实验

我们在两个常用的多标签文本分类数据集Arxiv Acadmeic Paper Dataset(AAPD)及Reuters Corpus Volum I (RCV1-V2)上进行了实验。AAPD数据量更少、标签密度更大,分类难度更大。评价指标则选用了hamming loss,micro-precision,micro-recall及micro-F1;其中hamming loss越低越好,其他则越高越好。至于基准模型,我们选用了经典模型如BR、CC、LP,也有性能优越的seq2seq模型如CNN-RNN、SGM,还有其他一些表现卓越的多标签文本分类模型如LSAN,之外也将seq2set纳入进来作为比较。seq2set使用强化学习算法来缓解seq2seq模型对于标签顺序的依赖程度。同时,为了验证ML-Reasoner在不同文本编码器上能带来的性能提升,我们分别使用了CNN、LSTM及BERT作为ML-Reasoner框架中的Text Encoder模块。实验结果如表2所示。

表2 ML-Reasoner及基准模型在两个数据集上的性能

2dc99416-603e-11eb-8b86-12bb97331649.png

从表中可以看出,ML-Reasoner在两个数据集上均达到了SOTA水准,且在三种不同文本编码器上都能带来显著提升。

为了验证ML-Reasoner可以完全避免对标签顺序的依赖,我们随机打乱AAPD数据集的标签顺序,并进行了测试;各个模型的性能如表3所示。从表中可以看到,CC及seq2seq模型的性能受标签顺序的剧烈影响;seq2set可以显著缓解seq2seq的问题;而ML-Reasoner则完全不受标签顺序的影响。

表3各模型在标签打乱的AAPD数据集上的性能

31375fac-603e-11eb-8b86-12bb97331649.png

我们也通过烧蚀实验(见图3),确定了推理机制确实是性能提升的关键。

317b44e2-603e-11eb-8b86-12bb97331649.png

图3 ML-Reasoner(T=1,2,5)及CNN-Round(T=1,2,5)在AAPD测试集上的性能雷达图

我们也探究了迭代次数对模型性能的影响,由图4可知,进行了一次推理就可以带来显著提升;而推理次数的再次提高并不能带来更多的提升。这可能是因为模型及数据集的选择导致的。

31f4a364-603e-11eb-8b86-12bb97331649.png

图4不同迭代轮数下的ML-Reasoner在AAPD测试集上的性能雷达图

为了进一步理解Reasoner发挥作用的机制,我们从数据集中选取了一些典型示例(见表4)。在第一个例子中,模型通过推理将相关标签math.OC添上;模型处理第二个例子时,则将无关标签cs.LO剔除;有时添加与删除的动作也会同时发生(见第三个例子)。当然,推理偶尔也会使预测结果变差(见第四、第五个例子)。

表4 AAPD测试集中一些由于推理机制预测结果出现变化的实例

32b5cb2a-603e-11eb-8b86-12bb97331649.png

为了验证上述例子的变化确实是因为考虑了标签之间的相关性,我们进一步统计模型在添加或删除某个标签时与其他标签的共现频率。从图5中,可以观察到模型往往在添加某个标签时,其共现频率(第二行)与真实共现频率接近(第一行);而删除某个标签时,其共现频率(第三行)与真实共现频率(第一行)则相差较远。

3333a39c-603e-11eb-8b86-12bb97331649.png

图5 AAPD标签的共现频率图

04

结论

在本文中,我们提出了算法ML-Reasoner。该算法可以同时预测所有标签进而避免了对标签顺序的依赖;之外,他通过新颖的推理机制利用了标签之间的高阶关系。实验结果表明了ML-Reasoner在捕获标签依赖之间的有效性;进一步的分析验证了其确实未对标签顺序产生依赖。一些经验性试验也揭示了该算法发挥作用的机制。由于ML-Reasoner未显式利用标签之间的关系,如层次结构等,如何将这些信息纳入考虑是值得进一步探索的。

原文标题:【IPM2020】一种处理多标签文本分类的新颖推理机制

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261514
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23191

原文标题:【IPM2020】一种处理多标签文本分类的新颖推理机制

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    发布元服务配置应用分类标签和资质信息(仅分发手表设备)

    ,参考华为应用市场应用分类规则,选择元服务分类。 5.点击“管理标签”,选择元服务的标签。 最多可以选择5个标签,且必须设置其中
    发表于 10-30 17:47

    发布元服务配置应用分类标签和资质信息

    ”按钮查看已上传的资质文件。 9.资质与标签审核通过后,点击“添加标签”,选择已生效的标签。选择多个标签时,需点击”设置主标签”,将其中
    发表于 10-29 16:47

    RFID电子标签的工作原理与分类

    RFID电子标签如同物品的"数字身份证",是一种精巧的数据载体。它不仅能像海绵吸水般存储海量信息,还能敏锐地感知读写器发出的电磁场信号,如同位训练有素的舞者,在接收到指令后立即
    的头像 发表于 09-24 11:30 1057次阅读
    RFID电子<b class='flag-5'>标签</b>的工作原理与<b class='flag-5'>分类</b>

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    释来自这些不同数据源的信息。 1)训练大型模态模型的步骤 步骤: 2)大型模态模型中的模态转换 在大型模态模型中,一种数据模态可以用另一种
    发表于 09-18 15:31

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    加载 → 图片预处理 → 用户交互 → 推理输出”的核心流程,支持图文体的模态对话,适配轮问答、视觉问答等典型场景。 具体运行
    发表于 09-05 17:25

    RFID标签在垃圾分类的应用

    二、RFID标签在垃圾分类中的优势高效率:RFID可以快速批量读取垃圾信息,大幅缩短操作时间,提高垃圾分类效率。准确性:RFID减少了人工操作的错误率,提高了垃圾分类的准确性和可靠性。
    的头像 发表于 07-31 16:48 629次阅读
    RFID<b class='flag-5'>标签</b>在垃圾<b class='flag-5'>分类</b>的应用

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第章读后心得

    分析(趋势分析、数据可视化 ),辅助决策流程 自然语言处理 :语言理解(文本分类、意图识别等 )、翻译(多语言 )、转换(文体、格式转换 )、文本生成(文案、故事、诗歌文学创作 ),处理
    发表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理模态分析(文本/图像/语音)和实时交互能力,能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其
    发表于 07-16 15:29

    大模型推理显存和计算量估计方法研究

    方法。 、引言 大模型推理是指在已知输入数据的情况下,通过深度学习模型进行预测或分类的过程。然而,大模型的推理过程对显存和计算资源的需求较高,这给实际应用带来了以下挑战: 显存不足:
    发表于 07-03 19:43

    详解 LLM 推理模型的现状

    领域的最新研究进展,特别是自DeepSeekR1发布后兴起的推理时间计算扩展相关内容。在LLM中实施和改进推理简单来说,基于LLM的推理模型是一种旨在通过生成中间
    的头像 发表于 04-03 12:09 1241次阅读
    详解 LLM <b class='flag-5'>推理</b>模型的现状

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本处理能力的模态人工智能模型,能够理解并生成与视觉内容相关的自然语言。以下
    的头像 发表于 03-17 15:32 7577次阅读
    ​VLM(视觉语言模型)​详细解析

    如何使用摄像头作为OpenVINO™推理的输入?

    无法确定如何使用摄像头作为OpenVINO™推理的输入
    发表于 03-06 07:30

    DeepSeek推出NSA机制,加速长上下文训练与推理

    近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度致,并且具备本机可训练
    的头像 发表于 02-19 14:01 919次阅读

    文详解视觉语言模型

    视觉语言模型(VLM)是一种模态、生成式 AI 模型,能够理解和处理视频、图像和文本
    的头像 发表于 02-12 11:13 3241次阅读
    <b class='flag-5'>一</b>文详解视觉语言模型

    k230如何将yolo分类视频流推理后的视频结果保存到本地?

    请问k230如何将yolo分类视频流推理后的视频结果保存到本地?
    发表于 02-08 08:09