0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习:基于语境的文本分类弱监督学习

深度学习自然语言处理 来源:深度学习自然语言处理 作者:丁磊 2021-01-18 16:04 次阅读

高成本的人工标签使得弱监督学习备受关注。seed-driven 是弱监督学习中的一种常见模型。该模型要求用户提供少量的seed words,根据seed words对未标记的训练数据生成伪标签,增加训练样本。

但是由于一词多义现象的存在,同一个seed word会出现在不同的类别中,从而增加生成正确伪标签的难度;同时,单词w在语料库中的所有位置都使用一个的词向量,也会降低分类模型的准确性。

而本篇论文主要贡献有:

开发一种无监督的方法,可以根据词向量和seed words,解决语料库中单词的一词多义问题。

设计一种排序机制,消除seed words中一些无效的单词;并将有效的单词扩充进seed words中。

模型整体结构为:

23886e4c-58b3-11eb-8b86-12bb97331649.png

第一步:使用聚类算法解决语料库中单词的一词多义问题

对于每一个单词 w, 假设w出现在语料库的n个不同位置, 分别为 ,使用K-Means算法将分成K类,这里K可理解为单词w的K个不同解释。

用下列公式计算K的值:

23bb05f0-58b3-11eb-8b86-12bb97331649.png

其中代表第i个聚类中心的向量。的计算方法如下:

240a0f10-58b3-11eb-8b86-12bb97331649.png

这里s表示一个seed word,且表示s在语料库第i次出现,对应的词向量为。

sim() 表示余弦函数,median( )表示取中位数。

则对于任意,有

24453194-58b3-11eb-8b86-12bb97331649.png

综上,一词多义问题解决算法如下:

249a483c-58b3-11eb-8b86-12bb97331649.png

使用上面算法,我们就可以将原始语料库转变为基于语境下的语料库:

24f7145e-58b3-11eb-8b86-12bb97331649.png

第二步:对未标记的训练数据生成伪标签令表示文档d的伪标签;表示类别为的seed word 集合;表示单词w出现在文档d的词频

2578e2f4-58b3-11eb-8b86-12bb97331649.png

第三步:使用基于语境下的语料库进行文档分类

本篇论文使用Hierarchical Attention Networks (HAN) 进行文本分类。

25a2678c-58b3-11eb-8b86-12bb97331649.png

第四步:设计排序函数,更新seed words我们设计出一个打分函数,用于表示单词w仅高频的出现在类别为的文档。分值越高,表示单词w对类别越重要。我们可以选择分值最高的前几个单词作为新的seed word。也可以剔除一些不重要的seed word。

264f65a4-58b3-11eb-8b86-12bb97331649.png

其中:

268ed78e-58b3-11eb-8b86-12bb97331649.png

表示类别为的文档的数量。表示类别为且含有单词w的文档的数量。表示在类别为的文档中,单词w的词频。

n为语料库D的文档总数目表示语料库D中含有单词w的文档的数量。

结果

我们的完整模型称为 ConWea,

而 ConWea-NoCon是 ConWea确实缺少第一步的变体。

ConWea-NoExpan是 ConWea确实缺少第四步的变体。

ConWea-WSD是将 ConWea第一步的方法换成Lesk算法。

271870fc-58b3-11eb-8b86-12bb97331649.png

责任编辑:xj

原文标题:【ACL2020】基于语境的文本分类弱监督学习

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 文本分类
    +关注

    关注

    0

    文章

    18

    浏览量

    7260
  • 机器学习
    +关注

    关注

    66

    文章

    8134

    浏览量

    130577
  • 深度学习
    +关注

    关注

    73

    文章

    5239

    浏览量

    119922

原文标题:【ACL2020】基于语境的文本分类弱监督学习

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    人工智能中文本分类的基本原理和关键技术

    在本文中,我们全面探讨了文本分类技术的发展历程、基本原理、关键技术、深度学习的应用,以及从RNN到Transformer的技术演进。文章详细介绍了各种模型的原理和实战应用,旨在提供对文本分类
    的头像 发表于 12-16 11:37 555次阅读
    人工智能中<b class='flag-5'>文本分类</b>的基本原理和关键技术

    基于transformer和自监督学习的路面异常检测方法分享

    铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法,有助于定位异常区域。
    的头像 发表于 12-06 14:57 808次阅读
    基于transformer和自<b class='flag-5'>监督学习</b>的路面异常检测方法分享

    深度学习的由来 深度学习的经典算法有哪些

    深度学习作为机器学习的一个分支,其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的
    发表于 10-09 10:23 365次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>的由来 <b class='flag-5'>深度</b><b class='flag-5'>学习</b>的经典算法有哪些

    机器学习模型类型分类

    。Y = f (X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。 有监督学习可以被分为两类: 分类问题:预测某一样本所属的类别(离散的)。比如判断性别,是否健康等。 回归问题:预测某一样本的所对应的实数输出(连续的)。
    的头像 发表于 09-05 11:45 1368次阅读
    机器<b class='flag-5'>学习</b>模型类型<b class='flag-5'>分类</b>

    适用于任意数据模态的自监督学习数据增强技术

    本文提出了一种适用于任意数据模态的自监督学习数据增强技术。   自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的,但是在具体操作上是基于特定的数据
    的头像 发表于 09-04 10:07 788次阅读
    适用于任意数据模态的自<b class='flag-5'>监督学习</b>数据增强技术

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    有许多不同的类型和应用。根据机器学习的任务类型,可以将其分为几种不同的算法类型。本文将介绍机器学习的算法类型以及分类算法和预测算法。 机器学习的算法类型 1.
    的头像 发表于 08-17 16:30 1410次阅读

    机器学习深度学习的区别

    的区别。 1. 机器学习 机器学习是指通过数据使机器能够自动地学习和改进性能的算法。机器学习是人工智能的一个重要分支,它通过一系列的训练样本,让机器从数据中
    的头像 发表于 08-17 16:11 3398次阅读

    深度学习框架和深度学习算法教程

    了基于神经网络的机器学习方法。 深度学习算法可以分为两大类:监督学习和无监督学习监督学习的基本
    的头像 发表于 08-17 16:11 727次阅读

    深度学习框架是什么?深度学习框架有哪些?

    深度学习框架是什么?深度学习框架有哪些?  深度学习框架是一种软件工具,它可以帮助开发者轻松快速
    的头像 发表于 08-17 16:03 1787次阅读

    什么是深度学习算法?深度学习算法的应用

    什么是深度学习算法?深度学习算法的应用 深度学习算法被认为是人工智能的核心,它是一种模仿人类大脑
    的头像 发表于 08-17 16:03 1489次阅读

    深度学习算法简介 深度学习算法是什么 深度学习算法有哪些

    深度学习算法简介 深度学习算法是什么?深度学习算法有哪些?  作为一种现代化、前沿化的技术,
    的头像 发表于 08-17 16:02 6840次阅读

    基于深度学习的点云分割的方法介绍

    基于视图和投影的方法、基于体素的方法、无序点云的方法、有序点云的方法以及无监督学习的方法,并简要评述;最后分析各类方法优劣并展望未来研究趋势。
    发表于 07-20 15:23 0次下载

    NLP中的迁移学习:利用预训练模型进行文本分类

    迁移学习彻底改变了自然语言处理(NLP)领域,允许从业者利用预先训练的模型来完成自己的任务,从而大大减少了训练时间和计算资源。在本文中,我们将讨论迁移学习的概念,探索一些流行的预训练模型,并通过实际示例演示如何使用这些模型进行文本分类
    发表于 06-14 09:30 312次阅读

    MATLAB深度学习简介电子书

    深度学习是机器学习的一个类型,该类型的模型直接从图像、文本或声音中学习执行分类任务。通常使用神经
    发表于 05-29 09:16 1次下载

    机器学习步骤详解,一文了解全过程

    调整,使其生成正确的输出。在其他情况下,则实行无监督学习,由系统负责梳理数据来发现以前未知的模式。大多数机器学习模型都是遵循这两种范式(监督学习与无监督学习)。
    的头像 发表于 05-16 09:55 4188次阅读
    机器<b class='flag-5'>学习</b>步骤详解,一文了解全过程