0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开放域信息抽取和文本知识结构化的3篇论文详细解析

深度学习自然语言处理 来源:复旦DISC 作者:深度学习自然语言 2021-04-26 14:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引言

2020年,自然语言处理领域顶级的国际学术会议EMNLP(Conference on Empirical Methods in Natural Language Processing)共录取论文751篇

开放域信息抽取是信息抽取任务的另一个分支任务,其中抽取的谓语和实体并不是特定的领域,也并没有提前定义好实体类别。更一般的,开放域信息抽取的目的是抽取出所有输入的文本中的形如 《主语,谓语,宾语》 的三元组。开放域信息抽取对于知识的构建至关重要,可以减少人工标注的成本和时间。

本次Fudan DISC实验室将分享EMNLP2020中关于开放域信息抽取和文本知识结构化的3篇论文,介绍最新的开放域信息抽取的研究。

文章概览

关于开放域信息抽取神经网络结构和训练方式的系统比较 (Systematic Comparison of Neural Architectures and Training Approaches for Open Information Extraction)

该文将神经网络基础的OpenIE框架系统分解为三个基本模块:嵌入块、编码块和预测模块。在探究各种组合时,他们发现:pre-training的语言模型+Transformer编码器+LSTM预测层在OpenIE2016基准上有了巨大的改进(提升200%)。此外,他们还提到,NLL损失函数可能更偏向浅层预测。

OpenIE6:开放域信息的迭代网格标记抽取以及并列短语分析 (OpenIE6: Iterative Grid Labeling and Coordination Analysis for Open Information Extraction)

该文将OpenIE任务的三元组抽取构建为2-D(#extraction #words)网格标记任务,使得通过迭代抽取可以将一个句子中的所有三元组都有概率被模型识别出来。该文将他们的抽取方式称为IGL(Iterative Grid Labeling),并在计算损失函数的时候加4种入关于词性的软约束,并在最终的loss计算时加起来作为约束惩罚项。实验结果表明了他们模型的有效。

DualTKB: 在文本和知识库之间进行双重学习 (DualTKB: A Dual Learning Bridge between Text and Knowledge Base)论文地址:https://www.aclweb.org/anthology/2020.emnlp-main.694.pdf

该文建立了多个任务将某些文本(选项A)或KB中的路径三元组(选项B)作为输入,然后两个解码器分别生成文本(A)或另一个三元组(B)。也就是说,你可以有多种路线,例如A-B(从文本中提取三元组)或B-B(知识图谱补全)等。重复这个过程,你可以从文本中迭代提取更多三元组,或者对知识图谱反向解码为文本。

论文细节

1

d21e98d6-a643-11eb-aece-12bb97331649.png

任务定义

现有的OpenIE的任务定义主要分为两种:1)序列标注、2)子序列提取

其中序列标注框架最为常见,下图为用序列标注任务设定的开放域信息抽取。例子中一共有7类标签

d26eb0e6-a643-11eb-aece-12bb97331649.png

子序列通过模型生成大量的可能的子序列三元组组合,模型负责给这些候选组合进行打分,并选出概率最高的几个三元组作为抽取结果。

作者通过比较这两种任务设定,总结出统一的OpenIE的任务设定:OpenIE任务将每一个问题定义为一个元组《X,Y》,其中将一个句子表示成有很多个词语的序列,定义了一个合法的抽取结果集合。如果是建模为序列标注问题,则是BIO标签;如果看作子序列提取问题,则是子序列集合。

方法

模型结构:文中对神经网络OpenIE的方法进行全方位的总结,作者将目前的框架分为了三个模块:1)Embedding Module;2)Encoding Module;3)Prediction Module;各模块的种类如下图。

d279c062-a643-11eb-aece-12bb97331649.png

作者针对以上三个模块进行了不同组合,做了很多实验进行比较哪种组合方式是最好的。

训练方法:在进行训练的时候会遇到标签分类负样本标签的数量远远大于其他标签数量的情况,作者对这个问题提出了三种解决方案。如下图所示,第一种解决方案是在计算损失函数时不计算预测出标签的数据;第二种是计算预测出标签和非标签的边缘部分的损失函数;第三种是只计算边缘部分的非部分的损失函数值。

d28fad50-a643-11eb-aece-12bb97331649.png

数据集和评价指标数据集来自于OIE16的benchmark 数据集,评价指标采用F1值和AUC-PR。

实验结果

d29a5aac-a643-11eb-aece-12bb97331649.png

从主实验可以看出最优的组合是 ALBERT+Transformer+LSTM,并且用最后一种训练方式训练的模型。

作者对每个模块和训练方式还进行了消融实验如下。

d2cf5072-a643-11eb-aece-12bb97331649.png

该实验说明,embedding层使用Transformer效果最好。

d2f9be20-a643-11eb-aece-12bb97331649.png

该实验说明,预测层使用LSTM效果最好。

d317c762-a643-11eb-aece-12bb97331649.png

该实验说明,使用最后一种训练方式的效果是最好的。

2

论文动机

文中介绍了目前OpenIE最主流的两种框架:1)生成类的系统(通过迭代多次编码输入的文本,以进行多次抽取);2)序列标注系统。这两种框架都存在弊端:1)生成系统多次重复encoding输入的文本,会造成抽取速度慢,并不能很好的适应大数据时代的大量网页抽取场景;2)而序列标注系统,对于每个抽取都是独立的,并不能获取其他抽取内容的信息。

任务定义

给定一句话作为输入,然后抽取出一个集合作为抽取的结果,其中每个是一个的三元组。由于一句话中可能含有多个可抽取的三元组,如下图。

d3b3b53c-a643-11eb-aece-12bb97331649.png

作者将这个任务建模为一个在2-D网格上进行迭代抽取的任务,网格的大小为,横坐标为句子分词,纵坐标为抽取出的结果。例如,坐标为的网格代表第n个词的第m次的预测标签,如下图。

d3d969b2-a643-11eb-aece-12bb97331649.png

方法

模型(Iterative Grid Labeling)

作者提出了一个迭代网格抽取方法,去完成这个网格抽取任务,其实就是利用迭代抽取,然后将上一节定义的的网格填满预测标签,模型图如下:

d3fcc7ea-a643-11eb-aece-12bb97331649.png

该结构一共迭代M次,每一次词向量都需要经过一个相同结构的模块如上图,模块中包含一个transformer 编码器的self-att层、一个又多层感知机组成的标签分类器和一个标签嵌入层。每次迭代后词向量编码器的输出会加入下一次的输入中去,以达到迭代信息传递的作用。文中作者将该方法称做IGL-OIE,训练得到的损失函数为。

网格约束

在进行抽取的时候,作者提出了四种软约束来限制抽取的结果,一共有四种:1)POS Coverage(POSC);2)Head Verb Coverage(HVC);3)Head Verb Exclusivitu(HVE);4)Extraction Count(EC)。POSC约束了句子中的每个名词、动词、形容词和副词至少有一个要出现在抽取结果中;HVC约束了句中每一个头动词(有意义的动词)至少出现在其中一个抽取结果的关系中;HVE约束了每个抽取结果的关系只能有一个动词;EC约束了所有抽取结果的数量要少于句中所有头动词的数量。作者根据以上定义的约束,制定了以下四种损失函数惩罚项:

将以上约束和抽取训练的loss加起来得到总的损失:

并列连词检测

作者利用网格抽取和前人的并列连词抽取工具,设计了并列连词检测的方法称做IGL-CA,如下图

d4238b64-a643-11eb-aece-12bb97331649.png

真正训练的时候先用IGL-CA将长句根据并列连词位置拆成简单句,再进行IGL-OIE进行抽取。

数据集和实验准备

训练数据集来自于Open-IE4,同时也是用来训练IMoJIE的数据集。用于比较的模型有IMoJIE、RnnOIE、SenceOIE、SpanOIE、MinIE、ClasusIE、OpenIE4和OpenIE5。实验评价在CaRB、CaRB(1-1)、OIE6-C和Wire57-C上,并以F1和AUC作为评价指标。

实验结果

d436100e-a643-11eb-aece-12bb97331649.png

从实验结果看出本文提出的OpenIE6在三个评价数据集上都取得了最好的成绩,而且当加入了软约束后速度加快了5倍,该模型在准确率不降的基础上,加快了推理速度。

d491ba62-a643-11eb-aece-12bb97331649.png

作者还分析了各约束间的关系,发现最有用的是POSC约束。

3

d4cfe2b0-a643-11eb-aece-12bb97331649.png

动机和贡献

构建知识图谱是一项很费人力的事情,这项工作提出了一种知识的转换器,用于转换纯文本和知识图。换句话说,如果给模型很多句子,模型就可以把这些句子变成一个图存储成知识图谱。反过来,给模型一个图,可以利用图中节点和边的关系,将图还原成带有知识的句子。

任务定义

任务1(文本路径):

给定一句话,然后生成一个具有格式正确的实体和关系的路径,该路径和实体可以属于已经构造的KB,也可以以一种实际有意义的方式对其进行扩展。此条件生成被构造为称为的翻译任务,其中。

任务2(路径文本):

给定KB路径,则生成描述性句子,将路径中的实体和关系连贯地合并。此条件生成是称为的翻译任务,其中。

下图给定了一些标记符号:

d4f59226-a643-11eb-aece-12bb97331649.png

方法

d51f7b40-a643-11eb-aece-12bb97331649.png

由于缺少KB和文本对应的数据集,所以作者首先想到了采用自编吗器的方式设计了四个无监督的任务:(1)文本到文本(AA)(2)图到图(BB)(3)文本到图到文本(ABA)(4)图到文本到图(BAB)。这四个任务分别对应上图的、、和。计算公式如下:

由于作者采用的数据集是ConceptNet,然后作者找到了构建ConceptNet的语料集合,然后作者采用实体和关系在文本中进行模糊匹配的方式对齐了一些图路径和文本的训练对,由于这个转换是不准确的所以只能是弱监督学习,在模型图中对应的任务是(1)图到文本(BA)和(2)文本到图(AB),损失函数如下:

实验设计

本文的实验选取了常识领域的文本数据OMCS,和常识知识图谱ConceptNet(CN600K)。因为CN600K中的部分三元组是从OMCS中抽取得来,所以部分文本和路径所表达的知识是相同的。对于弱监督数据,文中使用Fuzzy Matching的方式对齐文本和路径。需要注意的是,因为对齐的数据是基于路径和文本之间的相似度进行选择的,所以对齐的数据是有噪声的。

文中涉及文本生成任务和知识图谱补全任务,所以评价指标根据任务的不同有着变化。总体来说,生成任务包括BLEU2、BLEU3、Rougel和F1;知识图谱补全任务采用了常用的MRR和HITS@N指标。由于作者还设计了一个通过一堆句子生成新图的任务,所以需要一个指标来评价新图和原来的图有多少不同,因此引入了图编辑距离(GED)来评价这个任务。

实验结果

文本路径互转的性能

d52934f0-a643-11eb-aece-12bb97331649.png

从文本到文本的效果很好,但是如果通过中间图转化的话效果就会差很多,说明跨模态的知识迁移能力需要提高。

d534c040-a643-11eb-aece-12bb97331649.png

如果直接用路径生成文本,效果就更差了,但是本文提出了一种新颖的思想。

知识图谱补全任务

d55b4ae4-a643-11eb-aece-12bb97331649.png

在知识图谱补全任务上,本文提出的模型优于前人的baseline,值得注意的是,代表了弱监督的比例,从实验结果来看,并不是弱监督越多越好,因为带有很多噪音。因此作者还对应该加入多少弱监督进行了探索,实验结果如下:

d5afb3a4-a643-11eb-aece-12bb97331649.png

发现大致是加入0.5比例的监督效果是在最好的模型上表现提升较多。
编辑:lyn

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106789
  • LSTM
    +关注

    关注

    0

    文章

    62

    浏览量

    4294
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    功率放大器在磁场激励下对狭窄非结构化液体环境适应性研究的应用

    实验名称: 磁场激励下对狭窄非结构化液体环境的卓越环境适应性和出色的3D可控性验证 研究方向: 在临床实践中,天然孔口通常为医疗器械提供对各种靶组织的侵入性通路。这些体腔/腔(例如泌尿和消化系统
    的头像 发表于 11-25 10:04 76次阅读
    功率放大器在磁场激励下对狭窄非<b class='flag-5'>结构化</b>液体环境适应性研究的应用

    结构化布线中使用电缆标签的4个主要优势

    在现代通信和网络基础设施建设中,结构化布线系统扮演着至关重要的角色。它不仅确保了网络的高效传输和稳定运行,还为未来的扩展和维护提供了便利。而在结构化布线中,电缆标签的使用虽看似是一个小小的细节,却能
    的头像 发表于 11-24 10:34 163次阅读

    淘宝SKU详细信息API接口的探索之旅

    ​​SKU详细信息的重要性 SKU详细信息包括商品的价格、库存、规格(如颜色、尺寸)、销售状态等。这些信息对于商家进行库存管理、价格策略制定、市场分析等都有着重要作用。 淘宝API接口概述 淘宝
    的头像 发表于 11-11 11:27 152次阅读

    苏宁开放平台商品详情接口实战:多维度数据获取与结构化处理(附核心代码 + 避坑指南)

    要求;2.结构化响应字段分组解析方法;3.提供可复用的签名工具类、QPS控制客户端和本地缓存管理工具;4.给出单商品查询和批量对比的实战示例。针对开发者常见问题(如签名失败、调用超限等)提供避坑指南,帮助实现高效稳定的数据对接。
    的头像 发表于 09-18 10:05 446次阅读

    格灵深瞳六论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,格灵深瞳团队共有6论文入选。
    的头像 发表于 07-07 18:23 1301次阅读

    理想汽车八论文入选ICCV 2025

    近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,理想汽车共有8论文入选,其中5来自自动驾驶团队,3
    的头像 发表于 07-03 13:58 828次阅读

    智能体AI面临非结构化数据难题:IBM推出解决方案

    ,同时提供一个开放的混合数据基础架构和企业级的结构化和非结构化数据管理。 智能体AI面临非结构化数据难题:IBM推出解决方案 测试结果显示,与传统RAG相比,IBM watsonx.d
    的头像 发表于 07-02 09:40 383次阅读

    云知声四论文入选自然语言处理顶会ACL 2025

    结果正式公布。云知声在此次国际学术盛会中表现卓越,共有4论文被接收,其中包括2主会论文(Main Paper)和2Findings。入
    的头像 发表于 05-26 14:15 1042次阅读
    云知声四<b class='flag-5'>篇</b><b class='flag-5'>论文</b>入选自然语言处理顶会ACL 2025

    深控技术的不需要点表网关的隐藏价值:工程师离职不再等于知识流失

    深控技术推出的无点表工业网关,通过配置信息云端知识资产自动沉淀,将离散的工程师经验转化为结构化数字资产,重新定义了工业
    的头像 发表于 04-24 11:36 412次阅读
    深控技术的不需要点表网关的隐藏价值:工程师离职不再等于<b class='flag-5'>知识</b>流失

    从零到一:如何利用非结构化数据中台快速部署AI解决方案

    在企业数字转型的浪潮中,AI已从概念走向落地应用。然而,真正能高效、安全地部署AI解决方案的企业仍属少数,瓶颈往往出在“数据”——尤其是非结构化数据的管理与应用上。文件、音频、视频、图像、邮件
    的头像 发表于 04-14 13:50 598次阅读

    AI知识库的搭建与应用:企业数字转型的关键步骤

    和应用数据,从而为AI应用提供源源不断的支持,帮助企业实现全面的数字转型。   AI知识库的定义与作用   AI知识库是一个由结构化和非结构化
    的头像 发表于 03-27 15:18 1076次阅读

    结构化数据中台:企业AI应用安全落地的核心引擎

    在数字转型浪潮中,非结构化数据(如文档、图片、音视频等)已成为企业核心资产,其价值挖掘能力直接影响AI应用的效能与安全性。然而,数据分散、多模态处理复杂、安全合规风险高等问题,严重制约了企业AI
    的头像 发表于 02-27 17:06 843次阅读

    VirtualLab Fusion应用:光波导k布局可视(“神奇的圆环”)

    特定光波导布局的光导和耦合条件。 概念 方向转换器计算器 可以通过“开始”>“计算器”找到方向转换器计算器,这有助于演示指定角度的不同方式。 k可视 k可视:平面
    发表于 02-21 08:53

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    ) 扩展上下文+结构化推理(支持更长复杂输入) 响应控制 通用流畅性优先 强化分步解释与中间过程可解释性 3. 技术架构差异 技术点 DeepSeek-V3 DeepSeek-R1 训练数据 通用语料+部分
    发表于 02-14 02:08

    迅为RK3568开发板OpenHarmony实操HDF驱动控制LED-接口函数

    在一小节的代码中实现了一个简单的 LED 驱动,下面是对代码的详细解释: 包含的头文件如下所示: 宏定义如下所示: 数据结构如下所示: g_LedDriverEntry 结构体是驱动入口结构
    发表于 01-20 10:36