0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习:基于语境的文本分类弱监督学习

深度学习自然语言处理 来源:深度学习自然语言处理 作者:丁磊 2021-01-18 16:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

高成本的人工标签使得弱监督学习备受关注。seed-driven 是弱监督学习中的一种常见模型。该模型要求用户提供少量的seed words,根据seed words对未标记的训练数据生成伪标签,增加训练样本。

但是由于一词多义现象的存在,同一个seed word会出现在不同的类别中,从而增加生成正确伪标签的难度;同时,单词w在语料库中的所有位置都使用一个的词向量,也会降低分类模型的准确性。

而本篇论文主要贡献有:

开发一种无监督的方法,可以根据词向量和seed words,解决语料库中单词的一词多义问题。

设计一种排序机制,消除seed words中一些无效的单词;并将有效的单词扩充进seed words中。

模型整体结构为:

23886e4c-58b3-11eb-8b86-12bb97331649.png

第一步:使用聚类算法解决语料库中单词的一词多义问题

对于每一个单词 w, 假设w出现在语料库的n个不同位置, 分别为 ,使用K-Means算法将分成K类,这里K可理解为单词w的K个不同解释。

用下列公式计算K的值:

23bb05f0-58b3-11eb-8b86-12bb97331649.png

其中代表第i个聚类中心的向量。的计算方法如下:

240a0f10-58b3-11eb-8b86-12bb97331649.png

这里s表示一个seed word,且表示s在语料库第i次出现,对应的词向量为。

sim() 表示余弦函数,median( )表示取中位数。

则对于任意,有

24453194-58b3-11eb-8b86-12bb97331649.png

综上,一词多义问题解决算法如下:

249a483c-58b3-11eb-8b86-12bb97331649.png

使用上面算法,我们就可以将原始语料库转变为基于语境下的语料库:

24f7145e-58b3-11eb-8b86-12bb97331649.png

第二步:对未标记的训练数据生成伪标签令表示文档d的伪标签;表示类别为的seed word 集合;表示单词w出现在文档d的词频

2578e2f4-58b3-11eb-8b86-12bb97331649.png

第三步:使用基于语境下的语料库进行文档分类

本篇论文使用Hierarchical Attention Networks (HAN) 进行文本分类。

25a2678c-58b3-11eb-8b86-12bb97331649.png

第四步:设计排序函数,更新seed words我们设计出一个打分函数,用于表示单词w仅高频的出现在类别为的文档。分值越高,表示单词w对类别越重要。我们可以选择分值最高的前几个单词作为新的seed word。也可以剔除一些不重要的seed word。

264f65a4-58b3-11eb-8b86-12bb97331649.png

其中:

268ed78e-58b3-11eb-8b86-12bb97331649.png

表示类别为的文档的数量。表示类别为且含有单词w的文档的数量。表示在类别为的文档中,单词w的词频。

n为语料库D的文档总数目表示语料库D中含有单词w的文档的数量。

结果

我们的完整模型称为 ConWea,

而 ConWea-NoCon是 ConWea确实缺少第一步的变体。

ConWea-NoExpan是 ConWea确实缺少第四步的变体。

ConWea-WSD是将 ConWea第一步的方法换成Lesk算法。

271870fc-58b3-11eb-8b86-12bb97331649.png

责任编辑:xj

原文标题:【ACL2020】基于语境的文本分类弱监督学习

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 文本分类
    +关注

    关注

    0

    文章

    18

    浏览量

    7476
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137420
  • 深度学习
    +关注

    关注

    73

    文章

    5614

    浏览量

    124748

原文标题:【ACL2020】基于语境的文本分类弱监督学习

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深度学习为什么还是无法处理边缘场景?

    [首发于智驾最前沿微信公众号]虽然自动驾驶车辆已经完成了数百万公里的行驶测试,深度学习也已被普遍应用,但依然会在一些看似简单的场景中犯下低级错误。比如在遇到一些从未见到过的边缘场景时,系统可能会
    的头像 发表于 05-04 10:16 2265次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>为什么还是无法处理边缘场景?

    《多模态大模型 前沿算法与实战应用 第一季》精品课程简介

    ,同时用路径规划模块生成安全行驶轨迹。 三、全栈开发的关键挑战与解决方案 1. 数据标注与对齐 不同模态的数据标注成本差异大(如图像标注成本远高于文本),可采用监督学习: 跨模态对比学习
    发表于 05-01 17:46

    人工智能-Python深度学习进阶与应用技术:工程师高培解读

    深度学习的工程化落地,早已不是纸上谈兵的事。从卷积神经网络到Transformer,从目标检测到大模型私有化部署,技术栈不断延伸,工程师面临的知识体系也越来越庞杂。现根据中际赛威工程师培训老师的一份
    的头像 发表于 04-21 11:01 467次阅读
    人工智能-Python<b class='flag-5'>深度</b><b class='flag-5'>学习</b>进阶与应用技术:工程师高培解读

    算法工程师需要具备哪些技能?

    :自动化任务(如数据预处理、模型训练调度)。Git版本控制:团队协作开发(如分支管理、代码合并)。 机器学习监督学习:线性回归、逻辑回归、决策树、SVM等。无监督学习:聚类(K-Means)、降维
    发表于 02-27 10:53

    机器学习特征工程:分类变量的数值化处理方法

    编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的
    的头像 发表于 02-10 15:58 525次阅读
    机器<b class='flag-5'>学习</b>特征工程:<b class='flag-5'>分类</b>变量的数值化处理方法

    强化学习会让自动驾驶模型学习更快吗?

    是一种让机器通过“试错”学会决策的办法。与监督学习不同,监督学习是有人提供示范答案,让模型去模仿;而强化学习不会把每一步的“正确答案”都告诉你,而是把环境、动作和结果连起来,让机器自己探索哪个行为长期看起来更有利
    的头像 发表于 01-31 09:34 935次阅读
    强化<b class='flag-5'>学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    机器学习深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 410次阅读
    机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督学习:无需缺陷样本即可训练高精度检测模型 持续更新:课程内容持续更新,已
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    、GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督学习:无需缺陷样本即可训练高精度检测模型 持续更新:课程内容持续更新,已
    发表于 12-03 13:50

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于
    的头像 发表于 11-27 10:19 400次阅读

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,强化学习没有一一对应的“正确答案”给它看,而是靠与环境交互、自我探索来发现
    的头像 发表于 10-23 09:00 1005次阅读
    自动驾驶中常提的“强化<b class='flag-5'>学习</b>”是个啥?

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概
    的头像 发表于 09-10 17:38 1129次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    深度学习对工业物联网有哪些帮助

    、实施路径三个维度展开分析: 一、深度学习如何突破工业物联网的技术瓶颈? 1. 非结构化数据处理:解锁“沉睡数据”价值 传统困境 :工业物联网中70%以上的数据为非结构化数据(如设备振动波形、红外图像、日志文本),传统方法难以
    的头像 发表于 08-20 14:56 1316次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4455次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    的基本理论。了解监督学习、无监督学习和强化学习的基本原理。例如,在监督学习中,理解如何通过标注数据来训练模型进行分类或回归任务,像通过大量的
    发表于 07-08 17:44