深度学习：远程监督在关系抽取中的应用-电子发烧友网

什么是关系抽取

知识就是力量。使人类及机器能够更好地利用知识是提升工作效率及实现人工智能的关键所在，也催生了包括知识表示、知识推理在内的一系列研究。作为一切对知识的利用的基础，我们首先要获取知识，即知识抽取。

与我们一般通过阅读书籍来获取知识一样，知识抽取的主要数据来源是文本（如新闻、小说、维基百科等）。通常来讲，我们可以直接从文本中获取的知识包含两类：实体 (entity) 和关系 (relation) [1]，这也对应了两类知识抽取任务：实体识别 (entity recognition) 和关系抽取 (relation extraction)。下表给出了一个从句子中进行知识抽取的示例。在本文中，我们将主要关注「关系抽取」。

ID	文本	实体	关系
1	北京是中国的首都，具有悠久的历史。	北京，中国	首都
2	比尔盖茨是微软的创始人。	比尔盖茨，微软	创始人
3	合肥位于安徽中部，是安徽省会。	合肥，安徽	位于，是省会

顾名思义，关系抽取的目的就是从文本数据中抽取出关系。直观来讲，关系必然存在于两个（或多个实体）之间，比如在“合肥位于安徽中部”这一文本中，“位于”是“合肥”和“安徽”之间的关系，而撇开实体或者单看某单一实体时不会有关系这一概念的出现。从上表第三个例子又可以看出，”合肥“和”安徽“之间同时具有”位于“和”省会“两个关系，即一个文本中的实体对之间事实上可以存在多个不同的关系。因此，在不考虑发现未知的新关系时，我们可以将关系抽取定义成一个「给定实体对」情况下的「多标签分类」(multi-label classification) 任务，其中的标签即为实体对之间的关系。

关系抽取的难点

从上一节对关系抽取任务的定义可以看出，要训练一个关系抽取模型，数据中应同时包含对实体对和关系的标注。实体的标注对应了实体识别任务，目前可以通过较为成熟的命名实体识别 (NER) 等技术来进行高质量自动标注。但关系的标注通常较为困难，一些句子中甚至不会显式的出现定义好的关系的相近描述。如“合肥是安徽的省会”一句中事实上是蕴含了“位于”这一关系，但句子中并没有显式地出现“位于”的相关描述，我们需要通过一些人类的常识进行推断。因此，在构建精确标注的关系抽取数据集时，大量人工标注通常是必不可少的，这就导致数据集的构建成本非常高昂。

此外，如 Mintz 等人指出，在特定领域的语料上进行关系标注而训练得到的关系抽取模型通常具有偏置 (bias) [2]。比如，发表于 ACL2020 的一篇文章 [3] 中对关系抽取中存在的性别偏见 (Gender Bias) 进行了讨论，感兴趣的读者可以去读一下这篇文章。

在上文中我们提到了仅利用给定语料上精确标注数据集进行关系抽取模型训练存在的两个问题，即「标注成本高」和存在「偏置」。那么该怎样解决这些问题呢？

标注成本高问题

如果我们继续采用监督学习 (supervised learning) 来对模型进行训练，那这个问题就很难回避。尽管我们可以通过少样本学习 (few shot learning) 等技术来充分利用已有的少量精确标注数据，但这些标注本身就更容易产生偏置，这就会导致第二个问题变得更加突出。

因此，要想从根本上缓解标注成本高问题，我们应该考虑放弃监督学习，转而采用弱监督、无监督，或者探索一种新的学习方式。

偏置问题

偏置问题产生的主要原因是在若干个特定领域的标注语料库上进行训练，因此解决偏置问题最简单粗暴的做法自然是选择覆盖面较广的数据。幸运地是，我们并不缺少这种数据：现在网络、书刊等媒体上充斥着大量文本，这些文本获取成本低且覆盖领域广，如果能够有效利用这些数据，那偏置问题将在很大程度上得到缓解。然而，这些数据又转而面临标注成本高问题。

远程监督

为同时解决以上两个问题，Mintz 等人于 2009 年提出一种能够在未经精确标注的文本上进行关系抽取的新学习框架---「远程监督」(distant supervision) [2]。

何为远程监督

远程监督通过文本之外的、由大量实体对与关系构成的知识库来对文本进行关系标注。其中，“远程”可以理解为利用了文本之外的知识库，而“监督”可以理解为提供了关系标签（即监督信息）。

远程监督的基本假设

远程监督具有如下假设 [2]：

「如果一对实体之间具有某种关系，那么所有包含这对实体的句子都将表达这个关系的含义。」

因此，对于一个已经识别出某实体对的句子，知识库中所有该实体对之间具有的关系都可以被看成句子的标签。

远程监督的基本流程

从上文介绍中可以看出，利用远程监督进行关系抽取模型的学习，我们只需要收集文本，在文本中识别实体对，然后与知识库中进行比对以标注关系即可。需要注意，根据远程监督的基本假设，实体对之间所有能够成立的关系都会成为句子的标签。其基本流程可用下例来表示。

很明显，远程监督方法极大地扩充了关系抽取能够利用的数据量，其标注成本极低，覆盖面可以极广。如果标注的每个句子都是正确的，那么问题就归结于一个相对较为简单的文本分类任务。

但是，细心的读者可能已经发现了，我们假定存在给定实体对的句子就能表示这对实体之间的所有关系，这势必会「引入错误的标注」。如“合肥”和“安徽”之间同时存在“位于”、“是省会”两个关系，那对于“合肥位于安徽”这一句子，我们也会同时给他标注“位于”和“是省会”两个关系。但很明显，这句话并没有表达”是省会“这一关系的含义。如果模型在这错误的标注上进行训练并将这个模式“记住”，即”A位于B“蕴含了A是B的省会，那在遇到”黄山位于安徽“这一句子时，它就会认为”黄山“和”安徽“之间也具有”是省会“这一关系，这明显是不合理的。因此，利用远程监督进行关系抽取的关键在于「如何消除错误标注样本对模型训练的影响」。

远程监督关系抽取模型

为了消除错误标注样本的影响，远程监督关系抽取模型主要采用了两种方法：错误标注样本「筛除」法和错误标注样本「转正确标注」法。

在本节中，我们将从上述两种方法出发简单介绍几个经典的模型。受篇幅限制，我们在本文中仅介绍这些模型的核心思路，技术细节请参照原文。因此类模型大都考虑句子级文本，在下文中涉及到数据的描述时我们不再对“句子”和“文本”进行区分。

错误标注样本筛除

PCNN

可以设想，在远程监督框架下，如果我们每次都将一个带标注的句子作为模型训练的样本，那甚至可以说训练过程中所使用的大部分样本都是被错误标注的，这将会极大地影响模型在实际应用中的效果。

因此，Zeng 等在 PCNN [4] 一文中提出将多实例学习 (multi-instance learning) 应用于远程监督中。其采用 expressed-at-least-once [5] 假设：

「当一对实体之间存在某个关系，那么包含这对实体的句子中至少有一个能够表达这个关系。」

在上述假设下，Zeng 等不再将带标注的句子逐个送入模型进行训练，而是将具有相同实体对和关系标注的所有（也可以是一部分，但直观上来讲越多越好）句子看成一个整体，称为「包 (bag)」，然后将标注的关系作为整个包的标签进行训练。如下图

这样一来，即便存在句子是被错误标注为了某关系的，但包中有这么多句子，我们总能找到一个句子是具有这个关系的吧！再退一步，就算包中所有句子都不表达所标注的关系，那结果也不会变得更坏了。因此从整体上来看，错误标注的几率被降低。

显然，接下来的工作就是如何「从包中选择」出那个被正确标注的样本来进行接下来的训练了。PCNN 一文中采取的方式是挑选使得条件概率 p(包的标签|句子) 最大的那个句子作为正确标注样本，具体实现细节在此不再赘述。

其他模型

PCNN 每次只选取包中一个句子作为正确标注样本的做法存在一个问题：如果包中有多个句子是被正确标注的，那么它们中的大部分都将被舍弃，从而造成了数据的浪费。为此，一系列基于「注意力机制」(attention mechanism) 的模型被提出 [6,7,8]，它们通过对包中的句子进行注意力权重的分配来同时选择多个句子。若包中存在多个被正确标注的句子，那么它们的注意力权重都会较高，从而都会在最终关系预测中发挥作用；此外，被正确标注的置信度（即注意力权重）越高，发挥的作用将越大。这种软选择 (soft selection) 机制有效地缓解了 PCNN 中硬选择 (hard selection) 带来的数据浪费问题，从而可能在相同样本量的情况下达到更高的性能。

错误标注样本转正确标注

无论怎样进行样本的筛选，部分确定被错误标注的样本总是可以被看成在数据集中剔除掉了。那么，这些错误标注的样本真的对远程监督关系抽取不起作用吗？（此句借用了 Shang 等论文 [9] 的题目）至少在一些论文的作者看来，答案是否定的。

比如，Shang 等 [9] 利用无监督聚类的方法来为错误标注的样本重新分配新的标签；而 Wu 等 [10] 认为每个句子的现有标注和其应有标注之间存在映射关系，于是通过学习转移矩阵来模拟该映射，进而将每个句子的标注都转换成其应有标注。

通过将错误标注样本转换为正确标注，此类模型在一定程度上扩充了数据量，也为提升关系抽取的质量提供了新的可能性。但要注意的是，转换后的样本标注可能还是错的，有时仍需要进行进一步的筛选。

总结

在不考虑发现未知的新关系时，关系抽取本质上是一个多标签分类任务。但因任务的特殊性，关系抽取常面临标注数据不足等问题。远程监督的提出在一定程度上解决了这些问题，但它同时也引入了错误标注样本。因此，如何在存在错误标注样本的数据上学习一个优秀的分类器成为远程监督关系抽取模型的关键。

[1] Ji, S., Pan, S., Cambria, E., Marttinen, P., & Yu, P. S. (2020). A Survey on Knowledge Graphs: Representation, Acquisition and Applications. arXiv preprint arXiv:2002.00388.

[2] Mintz, M., Bills, S., Snow, R., & Jurafsky, D. (2009). Distant supervision for relation extraction without labeled data. Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2 - ACL-IJCNLP ’09, 2(2005), 1003.

[3] Gaut, A., Sun, T., Tang, S., Huang, Y., Qian, J., ElSherief, M., Zhao, J., Mirza, D., Belding, E., Chang, K.-W., & Wang, W. Y. (2020). Towards Understanding Gender Bias in Relation Extraction. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 1(1), 2943–2953.

[4] Zeng, D., Liu, K., Chen, Y., & Zhao, J. (2015). Distant supervision for relation extraction via Piecewise Convolutional Neural Networks. Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing, September, 1753–1762.

[5] Riedel, S., Yao, L., & McCallum, A. (2010). Modeling relations and their mentions without labeled text. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 6323 LNAI(PART 3), 148–163.

[6] Lin, Y., Shen, S., Liu, Z., Luan, H., & Sun, M. (2016). Neural relation extraction with selective attention over instances. 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Long Papers, 4, 2124–2133.

[7] Han, X., Yu, P., Liu, Z., Sun, M., & Li, P. (2018). Hierarchical relation extraction with coarse-to-fine grained attention. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018, 2236–2245.

[8] Ye, Z.-X., & Ling, Z.-H. (2019). Distant Supervision Relation Extraction with Intra-Bag and Inter-Bag Attentions. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1, 2810–2819.

[9] Shang, Y., Huang, H.-Y., Mao, X.-L., Sun, X., & Wei, W. (2020). Are Noisy Sentences Useless for Distant Supervised Relation Extraction? Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 8799–8806.

[10] Wu, S., Fan, K., & Zhang, Q. (2019). Improving Distantly Supervised Relation Extraction with Neural Noise Converter and Conditional Optimal Selector. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 7273–7280.

作者简介：张占秋，2018年毕业于中国科学技术大学数学科学学院，获得理学学士学位。现于中国科学技术大学电子工程与信息科学系的 MIRA Lab 实验室攻读博士生，师从王杰教授。研究兴趣包括知识图谱与自然语言处理。

责任编辑：xj

原文标题：远程监督在关系抽取中的应用

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43766

浏览量
230551
机器学习

机器学习

+关注

关注
66

文章
8105

浏览量
130540
深度学习

深度学习

+关注

关注
73

文章
5232

浏览量
119888

原文标题：远程监督在关系抽取中的应用

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

FPGA在深度学习应用中或将取代GPU

硬件公司供货的不断增加，GPU 在深度学习中的市场需求还催生了大量公共云服务，这些服务为深度学习

发表于 03-21 15:19

动态场景下的自监督单目深度估计方案

自监督单目深度估计的训练可以在大量无标签视频序列来进行，训练集获取很方便。但问题是，实际采集的视频序列往往会有很多动态物体，而自监督训练本身就是基于静态环境假设，动态环境下会失效。

发表于 11-28 09:21 •270次阅读

动态场景下的自<b class='flag-5'>监督</b>单目<b class='flag-5'>深度</b>估计方案

一种利用几何信息的自监督单目深度估计框架

本文方法是一种自监督的单目深度估计框架，名为GasMono，专门设计用于室内场景。本方法通过应用多视图几何的方式解决了室内场景中帧间大旋转和低纹理导致自监督深度估计困难的挑战。

发表于 11-06 11:47 •183次阅读

一种利用几何信息的自<b class='flag-5'>监督</b>单目<b class='flag-5'>深度</b>估计框架

深度学习的由来深度学习的经典算法有哪些

深度学习作为机器学习的一个分支，其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的

发表于 10-09 10:23 •351次阅读

<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的由来 <b class='flag-5'>深度</b><b class='flag-5'>学习</b>的经典算法有哪些

TUM&谷歌提出md4all：挑战性条件下的单目深度估计

在这些情况下, 传感器自带的噪声、无纹理的黑暗区域和反光等不利因素都违反了基于监督和自监督学习方法的训练假设。自监督方法无法建立学习深度所需

发表于 09-04 16:14 •396次阅读

TUM&谷歌提出md4all：挑战性条件下的单目<b class='flag-5'>深度</b>估计

深度学习在医学图像分割与病变识别中的应用实战

来源：易百纳技术社区基于深度学习的医学图像分割与病变识别随着人工智能技术的不断发展，其在医疗领域的应用越来越受到关注。其中，基于深度学习

发表于 09-04 11:11

深度学习和机器学习的定义和优缺点深度学习和机器学习的区别

　　深度学习和机器学习是机器学习领域中两个重要的概念，都是人工智能领域非常热门的技术。两者的关系十分密切，然而又存在一定的区别。下面从定义、

发表于 08-21 18:27 •2135次阅读

机器学习和深度学习的区别

机器学习和深度学习的区别随着人工智能技术的不断发展，机器学习和深度学习已经成为大家熟知的两个术

发表于 08-17 16:11 •3365次阅读

深度学习框架和深度学习算法教程

了基于神经网络的机器学习方法。深度学习算法可以分为两大类：监督学习和无监督学习。监督学习的基本

发表于 08-17 16:11 •703次阅读

深度学习框架是什么？深度学习框架有哪些？

深度学习框架是什么？深度学习框架有哪些？深度学习框架是一种软件工具，它可以帮助开发者轻松快速

发表于 08-17 16:03 •1721次阅读

什么是深度学习算法？深度学习算法的应用

什么是深度学习算法？深度学习算法的应用深度学习算法被认为是人工智能的核心，它是一种模仿人类大脑

发表于 08-17 16:03 •1459次阅读

深度学习算法简介深度学习算法是什么深度学习算法有哪些

深度学习算法简介深度学习算法是什么?深度学习算法有哪些? 作为一种现代化、前沿化的技术，

发表于 08-17 16:02 •6743次阅读

基于深度学习的点云分割的方法介绍

　　摘要：点云分割是点云数据理解中的一个关键技术，但传统算法无法进行实时语义分割。近年来深度学习被应用在点云分割上并取得了重要进展。综述了近四年来基于深度学习的点云分割的最新工作，按

发表于 07-20 15:23 •0次下载

004. 任务4：深度学习在计算机视觉中的应用 #眼图

机器学习深度学习

充八万
发布于 :2023年06月21日 17:20:22

智造之眼丨深度学习应用

智造之眼®科学设计深度学习各应用流程，在尽量简化前期准备工作的基础上为客户提供稳定且准确的深度学习解决方案。

发表于 05-04 16:55 •460次阅读

搜索历史

深度学习：远程监督在关系抽取中的应用

评论

FPGA在深度学习应用中或将取代GPU

动态场景下的自监督单目深度估计方案

一种利用几何信息的自监督单目深度估计框架

深度学习的由来深度学习的经典算法有哪些

TUM&谷歌提出md4all：挑战性条件下的单目深度估计

深度学习在医学图像分割与病变识别中的应用实战

深度学习和机器学习的定义和优缺点深度学习和机器学习的区别

机器学习和深度学习的区别

深度学习框架和深度学习算法教程

深度学习框架是什么？深度学习框架有哪些？

什么是深度学习算法？深度学习算法的应用

深度学习算法简介深度学习算法是什么深度学习算法有哪些

基于深度学习的点云分割的方法介绍

004. 任务4：深度学习在计算机视觉中的应用 #眼图

智造之眼丨深度学习应用