0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么要引入远程监督方法?

深度学习自然语言处理 来源:AI自然语言处理与知识图谱 作者:AI自然语言处理与 2021-04-02 09:59 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从早期到现在来看关系抽取任务的话,基本的做法包括基于规则匹配、监督学习、半监督学习、无监督学习以及远程监督学习等方法,上篇文章《从头来看关系抽取》已经介绍了监督学习早期的一些开山之作,而今天的主人公是远程监督来做关系抽取,那么为什么要引入远程监督的方法,什么是远程监督的方法,基于远程监督的关系抽取的方法从古至今是怎么演变发展的,带着这些疑问,我们简单了解一下。

为什么要引入远程监督方法?

监督学习

监督学习是利用标注好的训练数据,传统的机器学习模型或者是深度学习算法构建网络模型,老生常谈的问题,这种方法的问题在于虽然能够利用标注质量高的数据获取很好的效果,但是获取高质量的标注数据需要花费昂贵的人力、物力,因此引出很多其他的学习方式,比如半监督、无监督、远程监督、迁移学习等等。

半监督学习

半监督学习是解决获取大量高质量标注数据难问题的一种解决方式,利用少部分高质量标注数据,通过相关算法学习,常用的是Bootstrapping learning 以及远程监督方法。对于关系抽取任务来说,Bootstrapping 算法的输入少量实体关系数据作为种子,找到更多有某种关系的相关数据。但是我们可以想到一个问题就是利用少量的种子数据在大规模数据中搜寻出来的结果,是否是我们真正想要的,会不会存歧义的数据,毕竟利用一点种子就想达到我们的目标,肯定是存在某些问题的,这也是 Bootstraping 算法的语义漂移问题。

远程监督学习

远程监督学习很早之前就被提出来了,但是应用在关系抽取任务上面应该是2009年的一篇论文,作为远程监督学习在关系抽取的开山之作,下面会介绍这个工作。简单来说,远程监督关系抽取是通过将大规模非结构化文本中的语料与知识库对齐,这样便可以获取大量训练数据供模型训练。远程监督关系抽取的工作可以分为两阶段,其中后期以及目前的发展都集中在神经网络提取特征信息结合多实例学习思想。

开山燎原-2009-ACL

论文题目:Distant supervision for relation extraction without labeled data

论文地址:https://www.aclweb.org/anthology/P09-1113.pdf

这篇文章应该是最早的将远程监督学习用于关系抽取,是一篇开山之作。

文中提出了一个强有力的假设:如果两个实体在已知知识库中存在,并且两者有相对应的某种关系,那么当这两个实体在其他非结构化文本中存在的时候也能够表达这种关系。基于这种强有力的假设,远程监督算法可以利用已有的知识库,给外部非结构化文本中的句子标注某种关系标签,相当于自动语料标注,能够获取大量的标注数据供模型训练。

训练阶段

文中所采用的知识库为Freebase,非结构化文本采用的是维基百科等数据。既然是要判定句子中的实体是否在知识库中存在,那么必然要识别出对应的实体,识别实体部分文中依赖NER标注工具。如果句子中的两个实体存在于知识库中且具有某种关系,便从句子中抽取出特征(很多特征),并把具有这种关系的多个句子中特征拼接作为这个关系的某一特征向量,从不同的句子中抽取出的特征拼接,会让后面的分类器获取更多的信息。

特征

训练的分类器需要很多的特征,2009年的时候还在大量的构造特征工程,因此构造的也正也几乎完全是词典或者语法特征,主要包括以下:

Lexical features

1、Thesequenceofwordsbetweenthetwoentities 2、Thepart-of-speechtagsofthesewords 3、Aflagindicatingwhichentitycamefirstinthesentence 4、AwindowofkwordstotheleftofEntity1andtheirpart-of-speechtags 5、AwindowofkwordstotherightofEntity2andtheirpart-of-speechtags

另外还有关系依存句法树以及实体类别特征等。

测试阶段

在测试阶段中,将再次使用NER工具识别实体,句子中一起出现的每一对实体都被认为是一个潜在的关系实例,当这些实体同时出现便从句子中提取特征添加到该实体对的特征向量中。例如在测试集中10个句子中出现了一对实体,每个句子提取3个特征,那么这个实体对将有30个相关特征,对测试语料库中每个句子的每个实体对进行特征提取,分类器根据实体对出现的所有特征为每个实体对预测关系。

问题

1、文中提出的假设太过强横,必然会出现大量的badcase,比如句子中出现的两个实体刻画的并非实体库中对应的关系描述,这样会引入噪音脏数据,影响最终的结果。例如,创始人(乔布斯,苹果)和ceo(乔布斯,苹果)都是正确的。

2、文中依赖于NER工具、以及构造词典语法句法等特征,也会存在错误传播问题。

多实例学习-2011-ACL

论文题目:Knowledge-Based Weak Supervision for Information Extraction of Overlapping Relations

论文地址:https://www.aclweb.org/anthology/P11-1055.pdf

本文针对上篇文章中的强假设导致的badcase,采用多实例学习的思想,减少远程监督噪音数据的影响。提出新的模型MULTIR,引入多实例学习的概率图形模型,从而解决重叠关系抽取问题,重叠关系问题指的是同一对实体之间的存在多种不同类型的关系,同时结合句子级别和文档级别的特征进行关系抽取,MULTIR在计算推理上面具有很高的效率。

多实例学习可以被描述为:假设训练数据集中的每个数据是一个包(Bag),每个包都是一个示例(instance)的集合,每个包都有一个训练标记,而包中的示例是没有标记的;如果包中至少存在一个正标记的示例,则包被赋予正标记;而对于一个有负标记的包,其中所有的示例均为负标记。(这里说包中的示例没有标记,而后面又说包中至少存在一个正标记的示例时包为正标记包,是相对训练而言的,也就是说训练的时候是没有给示例标记的,只是给了包的标记,但是示例的标记是确实存在的,存在正负示例来判断正负类别)。通过定义可以看出,与监督学习相比,多示例学习数据集中的样本示例的标记是未知的,而监督学习的训练样本集中,每个示例都有一个一已知的标记;与非监督学习相比,多示例学习仅仅只有包的标记是已知的,而非监督学习样本所有示例均没有标记。但是多示例学习有个特点就是它广泛存在真实的世界中,潜在的应用前景非常大。from http://blog.csdn.net/tkingreturn/article/details/39959931

经典-2015-EMNLP

论文题目:Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

论文地址:https://www.aclweb.org/anthology/D15-1203.pdf

上面的几篇文章已经提出了远程监督学习在关系抽取的开山之作,以及后面会通过多实例学习(Multi Instance Learning, MIL)来减少其中的噪音数据,这篇文章也是在前人的基础之上去做的工作,主要有两部分,其中之一是提出piece-wise卷积神经网络自动抽取句子中的特征信息,从而替换之前设计的特征工程;另外和之前一样,采用多实例学习思想来减缓错误的badcase数据,既这篇文章将多实例学习整合到卷积神经网络中来完成关系抽取任务。

ad567324-8e8e-11eb-8b86-12bb97331649.png

Piecewise-CNN

Vector representation

上图是PCNN针对bags中的一个句子编码的情况,主要分为几部分,其中向量表示部分也和之前我们介绍过的几篇一样,采用的预训练的word embedding以及句子中词和两个实体之间的相对距离向量,下图中再对这个解释一下,图中 son 对两个实体的相对距离分为是-2和3,到时候会把这些均转换为向量表示,采用随机初始化的方式。

ad9c5c68-8e8e-11eb-8b86-12bb97331649.png

Convolution

卷积部分从图中便可以看出采用的是多卷积核操作,文中的Zero Padding值为1 , 卷积核的长为向量矩阵的长,宽为3,从上到下,单向滑动。

Piecewise max pooling

这部分也是之前介绍过的一篇论文中的类似做法,根据实体的位置将句子分为左中右三部分,对左中右三部分分别max-pooling,最后将所有的结果拼接,过softmax层,图中的一个细节就是分段pooling的时候并没有丢失两个实体,而是将两个实体划分在在左中两段中,这是一个细节,图中也很明显给画出来了。

MIL-PCNN

上面的PCNN网络结构展示的是多实例学习中一个bag(包)中的一个instance(句子)的情况,而多实例学习的输入到网络中的是一个包,里面包含了很多句子。假设我们存在 个bags {},每个bag包含个句子 。多实例学习的目的是预测看不见的袋子的标签。在本文中,bag中的所有实例都是独立考虑的,并且bag中的instance是没有label的,只有bag中才有label,因此只需要关注bag的label即可。

模型图中经过softmax得到的是bag中的一个instance的关系类别概率,而非bag的,因此重新定义了基于bag的损失函数,文中采取的措施是At-Least-One的假设,每个bag中至少有一个标注正确的instance,这样就可以找到bag中置信度得分最高的instance,代表当前bag的结果。定义如下的目标函数

adf9db4a-8e8e-11eb-8b86-12bb97331649.png

2016-ACL

论文题目:Neural Relation Extraction with Selective Attention over Instances

论文地址:https://www.aclweb.org/anthology/P16-1200.pdf

这篇文章是在上一篇文章PCNN的基础之上进行的改进,主要是因为PCNN在多实例学习部分采用的是选取bag中置信度最高的instance(句子)作为bag的标签,这样的做法可能会丢失太多的信息,因为一个bag中正负样本的数量是不定的,可能存在多个正样本或者多个负样本。这篇文章为了充分利用bag中的所有instance信息,利用注意力机制充分利用instance信息,减弱噪音的影响。模型的整体结构如下图。

ae482642-8e8e-11eb-8b86-12bb97331649.png

模型的整体结构也是分为两大部分

Sentence Encoder:句子编码部分采用的方式和上文的PCNN一样,包括输入部分的词向量和位置向量,卷积神经网络,以及分段max-pooling,这部分的方式没有区别,这部分的模型结构如下图所示。

aea13dd6-8e8e-11eb-8b86-12bb97331649.png

Selective Attention over Instances:这部分是文章的重点,改进的地方主要是在这里,利用注意力机制对bag中的instance进行加权,得到bag的最终向量表示,,其中 是权重,文中具体的有两种计算权重的方式。

Average: 将bag中所有instance的重要程度都等同看待,即,这会放大instance的噪音影响,文中将其作为对比实验的一个baseline。

Selective Attention: 这部分attention的目的是加强正样本的instance、弱化负样本instance的噪音影响。具体的计算公式见下面,其中 代表的是句子句子和关系 的相关程度, 为attention的对角矩阵,这样就可以得到加权后的bag向量表示 。

aee67cb6-8e8e-11eb-8b86-12bb97331649.png

af257bbe-8e8e-11eb-8b86-12bb97331649.png

2016-COLING

论文题目:Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks

论文地址:https://www.aclweb.org/anthology/C16-1139.pdf

这篇文章也是在PCNN的基础之上进行的改进,主要有两方面,其一也是和上文一样认为PCNN的at-least-once假设太过强硬,应该充分利用bag中的所有instance信息,另外是评估了数据集中存在18.3%的重叠关系数据,因此之前的单标签是不合理的,所以这篇文章针对这两部分进行了改进,模型的整体结构如下图。

af9c1954-8e8e-11eb-8b86-12bb97331649.png

Sentence-level Feature Extraction:这部分和之前的PCNN一样,Embedding (word + position) -> CNN -> 分段最大池化获取每一个instance的句子表示。

Cross-sentence Max-pooling:这篇文章融合bag中所有instance信息的方法和上文不一样,不是采用的注意力机制,而是采用了非常简单直观或者说粗暴的方式,将bag中每个instance的句子信息取每一维度的最大值,获取bag的向量表示,就如图中中间部分所示。

Multi-label Relation Modeling:之前的方式都是采用softmax多标签分类的方式,而这篇文章为了解决重叠关系问题,将不在采用softmax,而是对每一个 relation 做 sigmoid ,然后根据阈值来判定该instance是否应该包含这个 relation 。

2017-AAAI

论文题目:Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions

论文地址:https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/download/14491/14078

这篇文章的关键点主要也是两部分,其一也是考虑了at-least-once的假设太多强硬,需要采用注意力机制考虑bag中更多的instance信息,另外一个是之前的方法都过多关注实体本身,而忽略了实体背后的文本描述信息,因此,这篇文章的将实体链接到实体描述文本上面获取很多的信息表达,文章的主要结构如下。

aff7c7ae-8e8e-11eb-8b86-12bb97331649.png

主要包括三部分

(a) PCNNs Module:这部分还是和之前一样,完全延续了 PCNN 的模型结构,采用word + position -> CNN -> Piecewise Max-pooling获取文中的 bag 中的句子信息表达。

(b) Sentence-level Attention Module:这部分类似之前的Selective Attention,也是计算 bag 中每个 instance 与 relation 的相关性,这里关系的向量采用的是 两个实体信息来表达,然后计算相关的权重(如下),最后通过加权的方式获取 bag 的向量表达,然后过线性层和softmax层做多分类,没有考虑重叠关系。

b147ce24-8e8e-11eb-8b86-12bb97331649.png

Entity Descriptions:这部分是将实体的文本描述信息编码,采用的是简单的CNN + max-pooling 获取实体描述文本的向量表达,文中提出,为了尽可能使实体的向量表达与实体描述文本的向量表达在语义空间中接近,直接定义了一个距离公式计算loss, ,然后和上面判别关系的loss结合, ,两个损失函数联合训练。

b1abf0fc-8e8e-11eb-8b86-12bb97331649.png

2018-EMNLP

论文题目:Hierarchical Relation Extraction with Coarse-to-Fine Grained Attention

论文地址:https://www.aclweb.org/anthology/D18-1247.pdf

这篇文章主要考虑到之前的关系抽取方法中,没有考虑到关系之间是存在语义依赖关系的,而且,知识库的关系中很多都是带有层级结构的,另外,之前的方法没有对关系的长尾分布问题进行仔细的考量,易导致关系数量多的则准确率更高,关系数量极少的准确率堪忧,针对上面的问题,这篇文章提出了在多实例学习中采用注意力机制的思想,提出层次化注意力机制来做具有层级的关系抽取问题,而且对于长尾分布的关系抽取也有很明显的改善。

b21b1c2a-8e8e-11eb-8b86-12bb97331649.png

b2762764-8e8e-11eb-8b86-12bb97331649.png

2018-EMNLP

论文题目:RESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side Information

论文地址:https://www.aclweb.org/anthology/D18-1157.pdf

这篇文章主题思想还是远程监督的思想,考虑到知识库中除了实体关系之外,还有很多其他的信息可以加以利用,因此在模型中考虑了这部分特征信息,比如关系的别名信息以及实体的类别信息。另外,之前看到的很多文章都是采用了CNN的网络结构,但是本文不同,摒弃了之前的CNN网络结构,而是采用Bi-GRU以及GCN的文本编码方式,考虑到采用GCN的编码方式还是考量了Bi-GRU对文本的长距离信息依赖。文章的模型结构如下。

b289c38c-8e8e-11eb-8b86-12bb97331649.png

总结

以上是几篇远程监督关系抽取的论文,从09年的开山之作,到前两年的一些工作,文中的工作虽然没有覆盖全部,但是基本的方法已有大概的脉络梳理,总体来说,输入表示部分基本都是词向量与位置编码结合,获取句子语义部分采用CNN,Piecewise max-pool池化较多,当然也有采用GRU/GCN等,另外大多数工作基本都是多实例学习 + 注意力机制的改进与创新,其他的一些涉及到重叠关系、长尾分布等相关处理。除了前几年的一些工作之外,最近也有远程监督关系抽取的一些工作。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106797
  • 分类器
    +关注

    关注

    0

    文章

    153

    浏览量

    13671
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233

原文标题:【关系抽取】从头来看关系抽取-远程监督来袭

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    电能质量在线监测装置远程能校准谐波精度吗?

    电能质量在线监测装置能远程校准谐波精度,但需满足特定技术条件并采用标准化流程 。这种远程校准方式可显著提升运维效率,减少现场工作量,已在电力行业得到实际应用。 一、远程校准谐波精度的核心方法
    的头像 发表于 12-05 14:52 129次阅读
    电能质量在线监测装置<b class='flag-5'>远程</b>能校准谐波精度吗?

    信号发生器远程控制LabVIEW自动化方法技巧

    信号发生器在现代电子工程与测试测量中扮演着重要角色,而通过LabVIEW实现其远程控制,则进一步提高了测试的灵活性和效率。以下是几种关键的自动化方法技巧,以帮助工程师们更好地实现这一目标。   首先
    的头像 发表于 09-23 18:05 525次阅读
    信号发生器<b class='flag-5'>远程</b>控制LabVIEW自动化<b class='flag-5'>方法</b>技巧

    德国莫尔利用全新的在线配置器改进了电缆引入装置设计流程

    在线产品,为定制电缆引入装置设定了新的基准。murrplastik高级产品经理Till Bergmann表示:莫尔是完全根据客户要求生产多种结构电缆引入装置的公司,特别是机器人和能源链应用领域
    发表于 08-20 14:29

    请问console线连接怎么才进行配置呢?

    如上图,请问console线连接怎么才进行配置呢? 还有为什么我的设备里面,云远程管理平台一直启用不起来是怎么回事?
    发表于 08-05 08:21

    ESP32通过OTA无线局域网远程升级下载程序

    本文介绍了ESP32通过OTA无线局域网远程升级固件的基本方法
    的头像 发表于 07-22 13:21 1476次阅读
    ESP32通过OTA无线局域网<b class='flag-5'>远程</b>升级下载程序

    无线远程模块:工业/农业/物流的“远程遥控”已就位

    无线远程模块 是一种能够扩展设备通信能力,实现远程监测和控制的设备。它利用无线技术(如达泰全数字加密无线传输方式等)进行数据传输,使得设备之间的通信不再受物理连线的限制。达泰 无线远程模块 在多个
    的头像 发表于 05-27 15:07 428次阅读
    无线<b class='flag-5'>远程</b>模块:工业/农业/物流的“<b class='flag-5'>远程</b>遥控”已就位

    使用MATLAB进行无监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1178次阅读
    使用MATLAB进行无<b class='flag-5'>监督</b>学习

    LTspice里压敏电阻MOV怎么引入?

    LTspice里压敏电阻MOV怎么引入
    发表于 04-28 08:26

    矿山泵站远程监控物联网方案

    随着矿山行业的快速发展,传统的泵站运维管理模式已无法满足现代化矿山的高效、安全、环保需求。矿山泵站作为矿山生产的重要基础设施,其运行状态直接影响到整个矿山的生产效率和安全性。因此,引入一套矿山泵站
    的头像 发表于 03-20 11:13 526次阅读
    矿山泵站<b class='flag-5'>远程</b>监控物联网方案

    皮带秤PLC数据采集远程监控系统方案

    一、系统概述 皮带秤PLC数据采集远程监控系统主要针对皮带秤位置分散、计量监督管理难、称重数据传输滞后、计量数据误差大等问题,通过集成PLC数据采集、无线通信技术、云计算和大数据分析等技术,实现
    的头像 发表于 03-14 14:02 651次阅读
    皮带秤PLC数据采集<b class='flag-5'>远程</b>监控系统方案

    设备远程维护如何实现?远程维护平台的功能特点

    随着工业智能化和数字化转型的快速推进,设备远程维护已成为企业提升运营效率、降低维护成本的重要手段。通过远程维护平台,企业能够实时监控设备状态,快速响应故障,实现设备的高效管理和维护。本文将详细探讨
    的头像 发表于 02-21 15:50 1128次阅读
    设备<b class='flag-5'>远程</b>维护如何实现?<b class='flag-5'>远程</b>维护平台的功能特点

    plc远程控制模块是什么

    PLC远程控制模块是什么?PLC(ProgrammableLogicController,可编程逻辑控制器)远程控制模块是用于实现远程监控和控制PLC系统的设备,也可以被视作PLC网关。 PLC
    的头像 发表于 02-12 17:20 1447次阅读

    远程hyper-v,配置远程Hyper-V的步骤

    的维护,远程Hyper-V都能发挥关键作用。    远程Hyper-V的应用场景    企业远程办公:在企业中,员工可能需要在家或外出时管理公司的虚拟机。比如,运维人员
    的头像 发表于 02-10 10:25 719次阅读
    <b class='flag-5'>远程</b>hyper-v,配置<b class='flag-5'>远程</b>Hyper-V的步骤

    AMC1200BDUBR在工作时引入了112MHz和132MHz的EMC噪声,怎么消除?

    请问前辈,我用的TI芯片:AMC1200BDUBR 在工作时引入了112MHz和132MHz的EMC 噪声。请问电路怎么改进才能消除这个噪声?望前辈能帮忙推荐解决方法 不胜感激!
    发表于 12-23 07:31

    如何远程登录路由器

    当路由器放置在机房、弱电箱等不方便直接操作的位置,或当网络出现故障或者需要远程协助时远程登录路由器可以极大的解决问,本期重点说明远程登录路由器的方法,供各位参考使用: 首先 ,需要确保
    的头像 发表于 12-18 12:01 1559次阅读
    如何<b class='flag-5'>远程</b>登录路由器