0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开放域信息抽取和文本知识结构化的3篇论文详细解析

深度学习自然语言处理 来源:复旦DISC 作者:深度学习自然语言 2021-04-26 14:44 次阅读

引言

2020年,自然语言处理领域顶级的国际学术会议EMNLP(Conference on Empirical Methods in Natural Language Processing)共录取论文751篇

开放域信息抽取是信息抽取任务的另一个分支任务,其中抽取的谓语和实体并不是特定的领域,也并没有提前定义好实体类别。更一般的,开放域信息抽取的目的是抽取出所有输入的文本中的形如 《主语,谓语,宾语》 的三元组。开放域信息抽取对于知识的构建至关重要,可以减少人工标注的成本和时间。

本次Fudan DISC实验室将分享EMNLP2020中关于开放域信息抽取和文本知识结构化的3篇论文,介绍最新的开放域信息抽取的研究。

文章概览

关于开放域信息抽取神经网络结构和训练方式的系统比较 (Systematic Comparison of Neural Architectures and Training Approaches for Open Information Extraction)

该文将神经网络基础的OpenIE框架系统分解为三个基本模块:嵌入块、编码块和预测模块。在探究各种组合时,他们发现:pre-training的语言模型+Transformer编码器+LSTM预测层在OpenIE2016基准上有了巨大的改进(提升200%)。此外,他们还提到,NLL损失函数可能更偏向浅层预测。

OpenIE6:开放域信息的迭代网格标记抽取以及并列短语分析 (OpenIE6: Iterative Grid Labeling and Coordination Analysis for Open Information Extraction)

该文将OpenIE任务的三元组抽取构建为2-D(#extraction #words)网格标记任务,使得通过迭代抽取可以将一个句子中的所有三元组都有概率被模型识别出来。该文将他们的抽取方式称为IGL(Iterative Grid Labeling),并在计算损失函数的时候加4种入关于词性的软约束,并在最终的loss计算时加起来作为约束惩罚项。实验结果表明了他们模型的有效。

DualTKB: 在文本和知识库之间进行双重学习 (DualTKB: A Dual Learning Bridge between Text and Knowledge Base)论文地址:https://www.aclweb.org/anthology/2020.emnlp-main.694.pdf

该文建立了多个任务将某些文本(选项A)或KB中的路径三元组(选项B)作为输入,然后两个解码器分别生成文本(A)或另一个三元组(B)。也就是说,你可以有多种路线,例如A-B(从文本中提取三元组)或B-B(知识图谱补全)等。重复这个过程,你可以从文本中迭代提取更多三元组,或者对知识图谱反向解码为文本。

论文细节

1

d21e98d6-a643-11eb-aece-12bb97331649.png

任务定义

现有的OpenIE的任务定义主要分为两种:1)序列标注、2)子序列提取

其中序列标注框架最为常见,下图为用序列标注任务设定的开放域信息抽取。例子中一共有7类标签

d26eb0e6-a643-11eb-aece-12bb97331649.png

子序列通过模型生成大量的可能的子序列三元组组合,模型负责给这些候选组合进行打分,并选出概率最高的几个三元组作为抽取结果。

作者通过比较这两种任务设定,总结出统一的OpenIE的任务设定:OpenIE任务将每一个问题定义为一个元组《X,Y》,其中将一个句子表示成有很多个词语的序列,定义了一个合法的抽取结果集合。如果是建模为序列标注问题,则是BIO标签;如果看作子序列提取问题,则是子序列集合。

方法

模型结构:文中对神经网络OpenIE的方法进行全方位的总结,作者将目前的框架分为了三个模块:1)Embedding Module;2)Encoding Module;3)Prediction Module;各模块的种类如下图。

d279c062-a643-11eb-aece-12bb97331649.png

作者针对以上三个模块进行了不同组合,做了很多实验进行比较哪种组合方式是最好的。

训练方法:在进行训练的时候会遇到标签分类负样本标签的数量远远大于其他标签数量的情况,作者对这个问题提出了三种解决方案。如下图所示,第一种解决方案是在计算损失函数时不计算预测出标签的数据;第二种是计算预测出标签和非标签的边缘部分的损失函数;第三种是只计算边缘部分的非部分的损失函数值。

d28fad50-a643-11eb-aece-12bb97331649.png

数据集和评价指标数据集来自于OIE16的benchmark 数据集,评价指标采用F1值和AUC-PR。

实验结果

d29a5aac-a643-11eb-aece-12bb97331649.png

从主实验可以看出最优的组合是 ALBERT+Transformer+LSTM,并且用最后一种训练方式训练的模型。

作者对每个模块和训练方式还进行了消融实验如下。

d2cf5072-a643-11eb-aece-12bb97331649.png

该实验说明,embedding层使用Transformer效果最好。

d2f9be20-a643-11eb-aece-12bb97331649.png

该实验说明,预测层使用LSTM效果最好。

d317c762-a643-11eb-aece-12bb97331649.png

该实验说明,使用最后一种训练方式的效果是最好的。

2

论文动机

文中介绍了目前OpenIE最主流的两种框架:1)生成类的系统(通过迭代多次编码输入的文本,以进行多次抽取);2)序列标注系统。这两种框架都存在弊端:1)生成系统多次重复encoding输入的文本,会造成抽取速度慢,并不能很好的适应大数据时代的大量网页抽取场景;2)而序列标注系统,对于每个抽取都是独立的,并不能获取其他抽取内容的信息。

任务定义

给定一句话作为输入,然后抽取出一个集合作为抽取的结果,其中每个是一个的三元组。由于一句话中可能含有多个可抽取的三元组,如下图。

d3b3b53c-a643-11eb-aece-12bb97331649.png

作者将这个任务建模为一个在2-D网格上进行迭代抽取的任务,网格的大小为,横坐标为句子分词,纵坐标为抽取出的结果。例如,坐标为的网格代表第n个词的第m次的预测标签,如下图。

d3d969b2-a643-11eb-aece-12bb97331649.png

方法

模型(Iterative Grid Labeling)

作者提出了一个迭代网格抽取方法,去完成这个网格抽取任务,其实就是利用迭代抽取,然后将上一节定义的的网格填满预测标签,模型图如下:

d3fcc7ea-a643-11eb-aece-12bb97331649.png

该结构一共迭代M次,每一次词向量都需要经过一个相同结构的模块如上图,模块中包含一个transformer 编码器的self-att层、一个又多层感知机组成的标签分类器和一个标签嵌入层。每次迭代后词向量编码器的输出会加入下一次的输入中去,以达到迭代信息传递的作用。文中作者将该方法称做IGL-OIE,训练得到的损失函数为。

网格约束

在进行抽取的时候,作者提出了四种软约束来限制抽取的结果,一共有四种:1)POS Coverage(POSC);2)Head Verb Coverage(HVC);3)Head Verb Exclusivitu(HVE);4)Extraction Count(EC)。POSC约束了句子中的每个名词、动词、形容词和副词至少有一个要出现在抽取结果中;HVC约束了句中每一个头动词(有意义的动词)至少出现在其中一个抽取结果的关系中;HVE约束了每个抽取结果的关系只能有一个动词;EC约束了所有抽取结果的数量要少于句中所有头动词的数量。作者根据以上定义的约束,制定了以下四种损失函数惩罚项:

将以上约束和抽取训练的loss加起来得到总的损失:

并列连词检测

作者利用网格抽取和前人的并列连词抽取工具,设计了并列连词检测的方法称做IGL-CA,如下图

d4238b64-a643-11eb-aece-12bb97331649.png

真正训练的时候先用IGL-CA将长句根据并列连词位置拆成简单句,再进行IGL-OIE进行抽取。

数据集和实验准备

训练数据集来自于Open-IE4,同时也是用来训练IMoJIE的数据集。用于比较的模型有IMoJIE、RnnOIE、SenceOIE、SpanOIE、MinIE、ClasusIE、OpenIE4和OpenIE5。实验评价在CaRB、CaRB(1-1)、OIE6-C和Wire57-C上,并以F1和AUC作为评价指标。

实验结果

d436100e-a643-11eb-aece-12bb97331649.png

从实验结果看出本文提出的OpenIE6在三个评价数据集上都取得了最好的成绩,而且当加入了软约束后速度加快了5倍,该模型在准确率不降的基础上,加快了推理速度。

d491ba62-a643-11eb-aece-12bb97331649.png

作者还分析了各约束间的关系,发现最有用的是POSC约束。

3

d4cfe2b0-a643-11eb-aece-12bb97331649.png

动机和贡献

构建知识图谱是一项很费人力的事情,这项工作提出了一种知识的转换器,用于转换纯文本和知识图。换句话说,如果给模型很多句子,模型就可以把这些句子变成一个图存储成知识图谱。反过来,给模型一个图,可以利用图中节点和边的关系,将图还原成带有知识的句子。

任务定义

任务1(文本路径):

给定一句话,然后生成一个具有格式正确的实体和关系的路径,该路径和实体可以属于已经构造的KB,也可以以一种实际有意义的方式对其进行扩展。此条件生成被构造为称为的翻译任务,其中。

任务2(路径文本):

给定KB路径,则生成描述性句子,将路径中的实体和关系连贯地合并。此条件生成是称为的翻译任务,其中。

下图给定了一些标记符号:

d4f59226-a643-11eb-aece-12bb97331649.png

方法

d51f7b40-a643-11eb-aece-12bb97331649.png

由于缺少KB和文本对应的数据集,所以作者首先想到了采用自编吗器的方式设计了四个无监督的任务:(1)文本到文本(AA)(2)图到图(BB)(3)文本到图到文本(ABA)(4)图到文本到图(BAB)。这四个任务分别对应上图的、、和。计算公式如下:

由于作者采用的数据集是ConceptNet,然后作者找到了构建ConceptNet的语料集合,然后作者采用实体和关系在文本中进行模糊匹配的方式对齐了一些图路径和文本的训练对,由于这个转换是不准确的所以只能是弱监督学习,在模型图中对应的任务是(1)图到文本(BA)和(2)文本到图(AB),损失函数如下:

实验设计

本文的实验选取了常识领域的文本数据OMCS,和常识知识图谱ConceptNet(CN600K)。因为CN600K中的部分三元组是从OMCS中抽取得来,所以部分文本和路径所表达的知识是相同的。对于弱监督数据,文中使用Fuzzy Matching的方式对齐文本和路径。需要注意的是,因为对齐的数据是基于路径和文本之间的相似度进行选择的,所以对齐的数据是有噪声的。

文中涉及文本生成任务和知识图谱补全任务,所以评价指标根据任务的不同有着变化。总体来说,生成任务包括BLEU2、BLEU3、Rougel和F1;知识图谱补全任务采用了常用的MRR和HITS@N指标。由于作者还设计了一个通过一堆句子生成新图的任务,所以需要一个指标来评价新图和原来的图有多少不同,因此引入了图编辑距离(GED)来评价这个任务。

实验结果

文本路径互转的性能

d52934f0-a643-11eb-aece-12bb97331649.png

从文本到文本的效果很好,但是如果通过中间图转化的话效果就会差很多,说明跨模态的知识迁移能力需要提高。

d534c040-a643-11eb-aece-12bb97331649.png

如果直接用路径生成文本,效果就更差了,但是本文提出了一种新颖的思想。

知识图谱补全任务

d55b4ae4-a643-11eb-aece-12bb97331649.png

在知识图谱补全任务上,本文提出的模型优于前人的baseline,值得注意的是,代表了弱监督的比例,从实验结果来看,并不是弱监督越多越好,因为带有很多噪音。因此作者还对应该加入多少弱监督进行了探索,实验结果如下:

d5afb3a4-a643-11eb-aece-12bb97331649.png

发现大致是加入0.5比例的监督效果是在最好的模型上表现提升较多。
编辑:lyn

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98743
  • LSTM
    +关注

    关注

    0

    文章

    42

    浏览量

    3681
收藏 人收藏

    评论

    相关推荐

    什么是结构化网络布线?结构化网络布线有哪些好处?

    是由 EIA/TIA TR42 委员会指定的通信布线的标准化架构和组件,并被制造商用作确保互操作性的自愿标准。 如果你查看 TIA TR42,可能会发现 TIA 568 在技术上对结构化布线进行了更加详细的定义和概述,但你可能会遇到大量冗长且技术性很强的语言。
    的头像 发表于 04-11 11:54 171次阅读

    结构化布线的好处多吗

    结构化布线是网络系统中的重要组成部分,因为它为数据传输提供了强大、可扩展且可靠的基础。通过遵守全球公认的标准,结构化布线可促进高速连接、简化故障排除并确保未来的可扩展性。考虑到这些优势,企业应优先
    的头像 发表于 04-07 11:15 130次阅读

    知识图谱基础知识应用和学术前沿趋势

    知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取
    的头像 发表于 01-08 10:57 435次阅读
    <b class='flag-5'>知识</b>图谱基础<b class='flag-5'>知识</b>应用和学术前沿趋势

    CFD 设计利器:结构化和非结构化网格的组合使用

    在CFD的发展历史中,结构化网格出现最早,至今仍在使用。结构化网格有几个主要优点,如精度高、生成速度快、单元分布均匀。有些工具擅长绘制这类网格,例如CadenceFidelityAutomesh
    的头像 发表于 12-23 08:12 399次阅读
    CFD 设计利器:<b class='flag-5'>结构化</b>和非<b class='flag-5'>结构化</b>网格的组合使用

    使用关系数据库中的半结构化数据

    NoSQL革命已经进入了关系世界。您可能正在使用关系数据库,但仍必须查询和理解隐藏在文本列、JSON或 XML文档中的半结构化数据。
    的头像 发表于 12-20 10:46 267次阅读
    使用关系数据库中的半<b class='flag-5'>结构化</b>数据

    对与性能比较低的51单片机,结构化编程性能提升多少?

    对与性能比较低的51单片机,结构化编程性能提升多少
    发表于 10-26 06:21

    【KV260视觉入门套件试用体验】七、VITis AI字符和文本检测(OCR&amp;Textmountain)

    ?filename=xilinx-kv260-dpu-v2022.2-v3.0.0.img.gz 镜像下载地址 1.2、SD卡系统烧录 balenaEtcher软件 二、字符和文本检测介绍 字符和文本检测是计算机
    发表于 09-26 16:31

    一种结构化道路环境中的视觉导航系统详解

    根据结构化道路环境的特点提出了一种将边沿检测和道路环境知识相结合的机器视觉算法 , 并结合基于行为响应的路径规划方法和智能预瞄控制方法 , 实现了一套基本的机器人视觉导航系统 . 在自主机器人实验
    发表于 09-25 07:23

    如何利用大模型构建知识图谱?如何利用大模型操作结构化数据?

    上图是之前,我基于大语言模型构建知识图谱的成品图,主要是将金融相关的股票、人物、涨跌幅之类的基金信息抽取出来。
    的头像 发表于 08-24 16:56 8638次阅读
    如何利用大模型构建<b class='flag-5'>知识</b>图谱?如何利用大模型操作<b class='flag-5'>结构化</b>数据?

    通过循环训练实现忠实的低资源数据文本生成

    结构化数据中自然语言生成(NLG)往往会产生多种错误,从而限制了这些模型在面向客户的应用中的实用性。当NLG 模型在生成的输出文本时注入与输入结构化数据无关的无意义词语或信息就会产生
    的头像 发表于 08-24 14:53 265次阅读
    通过循环训练实现忠实的低资源数据<b class='flag-5'>文本</b>生成

    大型语言模型与知识图谱:机遇与挑战

    这对知识表示领域来说是一个巨大的步骤。长时间以来,人们关注的是明确的知识,例如嵌入在文本中的知识,有时也被称为非结构化数据,以及以
    的头像 发表于 08-24 14:50 425次阅读
    大型语言模型与<b class='flag-5'>知识</b>图谱:机遇与挑战

    面向结构化数据的文本生成技术研究

    今天我们要讲的文本生成是现在最流行的研究领域之一。文本生成的目标是让计算机像人类一样学会表达,目前看基本上接近实现。这些突然的技术涌现,使得计算机能够撰写出高质量的自然文本,满足特定的需求。
    的头像 发表于 06-26 14:39 345次阅读
    面向<b class='flag-5'>结构化</b>数据的<b class='flag-5'>文本</b>生成技术研究

    Macaw-LLM:具有图像、音频、视频和文本集成的多模态语言建模

    尽管指令调整的大型语言模型 (LLM) 在各种 NLP 任务中表现出卓越的能力,但它们在文本以外的其他数据模式上的有效性尚未得到充分研究。在这项工作中,我们提出了 Macaw-LLM,一种新颖的多模式 LLM,它无缝集成了视觉、音频和文本
    的头像 发表于 06-19 10:35 944次阅读
    Macaw-LLM:具有图像、音频、视频<b class='flag-5'>和文本</b>集成的多模态语言建模

    西门子博途S7-SCL结构化控制语言编程

    最近几年结构化文本编程已经越来越盛行,使用结构化文本语言编程的人数已经超过了使用梯形图编程的人数,大量的PLC工程师从中受益。
    发表于 06-11 11:05 579次阅读
    西门子博途S7-SCL<b class='flag-5'>结构化</b>控制语言编程

    KUKA机器人-结构化机器人程序V5.9

    机器人程序的结构是体现其使用价值的一个十分重要的因数。程序结构化越规范,程序就越易于理解、执行效果越好、越便于读取、越经济。为了使程序得到结构化设计,可以使用以下技巧
    的头像 发表于 05-10 11:45 752次阅读
    KUKA机器人-<b class='flag-5'>结构化</b>机器人程序V5.9