0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

了解信息抽取必须要知道关系抽取

深度学习自然语言处理 来源:CSDN 作者:CSDN 2021-04-15 14:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文主要详细解读关系抽取SOTA论文Two are Better than One:Joint Entity and Relation Extraction with Table-Sequence Encoders[1], 顺带简要介绍关系抽取的背景,方便完全不了解童鞋。

信息抽取

我们说的信息抽取一般是指从文本数据中抽取特定数据结构信息的一种手段。对于不同结构形式的数据如结构化文本,半结构化文本,自由文本,有各自对应的方案,其中从自由文本中抽取难度最大。总之,我们的目的是希望在海量文本中,快速抽出我们关注的事实。

了解信息抽取必须要知道关系抽取。

关系抽取

大部分情况下,我们喜欢用三元组的数据结构来描述抽取到的信息

三元组

三元组的表达能力非常丰富,几乎所有事情都可以自然或者强行的表达成三元组,比如随便一句”今天天气真冷“ 表达为天气-状态-冷。

三元组与后续的知识图谱工作非常适配,如Neo4j等图数据库就是以三元组为存储单位,图谱的查询推断等工具使用三元组比普通的关系型数据库来的方便的多。

三元组千千万,我应该怎么抽?

Schema

当我们拿到一个信息抽取的任务,需要明确我们抽取的是什么,”今天天气真冷“,我们要抽的天气的状态天气-状态-冷,而非今天-气候-冷(虽然也可以这样抽),因此一般会首先定义好我们要抽取的数据结构模式shcema, 会确定谓词以及主语并与的类型

一个三元组schema的例子,其中Subject_type代表主语类型,Predicate是谓词,Object_type指宾语类型:

Subject_type:人物 Predicate:出生地 Object_type:地点

确定了schema,我们一般如何抽取呢?

常规RE方案

目前主流关系抽取一般两种解决方法

pipline两步走:将关系抽取分解为NER任务和分类任务,NER任务标注主语或宾语,分类主要针对定义的schema中的有限个谓词进行分类。根据具体任务不同,有些可能是两步走或者三步走,pipline任务的顺序先分类还是先标注也会有差异

Pipline优势:每一步分别针对各个任务进行,表征是task-specific, 相对来说精度较高

Pipline缺陷:- 任务有顺序会存在误差传递问题,即在预测时下一步任务会受上一步误差影响,而在训练阶段没有这种误差,因此存在训练和预测阶段的gap- 分开的任务在一句话中多个实体关系时,比较难解决实体和关系的对应问题,以及重叠关系

joint learning:joint learing可以理解为采用多任务的方式,同时进行NER和关系分类任务, 在众多joint learning中最出众的是采用tabel filled 方式,即任务的输出是filled一张有text-sequence构成的表,在表中的位置表达除了词与词的连接,该位置的标注则标出了谓语(如下图)

a82e50a8-9cd8-11eb-8b86-12bb97331649.jpg

优势:1. 两个任务的表征有交互作用可能辅助任务的学习2. 不用训练多个模型,一个模型解决问题,不存在训练与预测时的gap

缺陷:1. 两个任务的表征可能冲突,影响任务效果2. 解决了主谓宾之间的对应关系,无法解决重叠问题3. Fill table本质仍然是转成sequence来fill,未能充分利用table结构信息(下文会解释)

下面重点解读table fill方式的一篇SOTA,解决了joint learning的多任务表征冲突以及为利用table结构信息

RE with Table Sequence

终于来到本篇的主题啦,为了解决一般filled table的问题, 作者提出table-sequence encoder的方法,分别对table和sequence做表征,本文的最大贡献在于

分别对table和sequence做表征(encoder),并设计了一个Table-Guided Attention来对table和sequence进行交互,这样即不会完全共享表征导致对不同的任务表征冲突,也不会丢失表征的相互指导作用

在table encoder中采用多维GRU来捕获更多的句子结构信息

在架构上table encoder和 sequence encoder多层交互

a84af794-9cd8-11eb-8b86-12bb97331649.jpg

下面仔细介绍各个部分,看看它是如何神奇做到SOTA的

Text Embedder

在上图的结构图中,Text Embedder采用类似FLAT分别做了基于lstm的char()和word(),以及基于bert的word ()作为预训练的embedding ,并拼接起来

图中

Table Encoder

整个Table Encoder部分由多个Table Encoding的单元组成,每个Encoding单元的输入分别是起始输入,对应senquence结构的输入,以及上一个Tabel Encoding单元的输出,Table Encoding 采用MDRNN结构提取输入的特征信息,作者在这选择MDGRU(多维度GRU),tabel结构本身有2维,加上前后层实际有4维,但是层的维度信息单向流动,实际上是只用到了3个方向()

a879c3bc-9cd8-11eb-8b86-12bb97331649.jpg

如图所示,是来自sequence的输入,作者分别测了使用所有方向和分别使用几个方向,发现上图中a,c效果类似,这种多维GRU全面的考虑了整个table的结构信息,即一个词的状态跟其他所有词的状态相关,并且受其他词的不同程度的影响,这种影响程度由GRU门控机制控制

Sequence Encoder

sequence Encoder 也由多个sequence encoding够成,sequence encoding结构直接采用transformer中的encoder

a88c27dc-9cd8-11eb-8b86-12bb97331649.jpg

只不过将其中的self attention替换为table-guide attention,这种attention的改造非常巧妙,能更好捕捉word-word之间的关系

a8c91868-9cd8-11eb-8b86-12bb97331649.jpg

正常的dot attention如上图

Table-Guided attention具体来说:

为参数矩阵

采用加性

是table encoder中的table的隐藏节点,该节点由多个方向的经过GRU编码得到,不管是哪个方向它的来源始终是由构造而来,理论上是可以由拟合而来,因此这里直接由 来代替 ,也就是这个attention,其实是计算了table 结构中各个位置对该的权重,是一个四面八方attention

剩下就是transform中正常的LayerNorm 和残差结构了

输出和loss

输出比较常规,loss采用常规

输出:

loss:

实验 and 效果

作者在各个数据集上进行实验,对比各个目前SOTA分别有一定的提高,且时效果最佳,模型参数量不到5M,要什么自行车,附上开源地址[2],作者的代码与论文在attention计算有一丢丢不一致,但是并不影响效果

a8d23eac-9cd8-11eb-8b86-12bb97331649.jpg

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    4092

    浏览量

    68676
  • Gru
    Gru
    +关注

    关注

    0

    文章

    13

    浏览量

    7762
  • 数据结构
    +关注

    关注

    3

    文章

    573

    浏览量

    41741

原文标题:关系抽取一步到位!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    128Gbps×2 满血双盘位:PCIe 5.0 x8 转双E1.S NVMe 硬盘抽取

    将双盘位可抽取式PCIe5.0E1.S存储扩展至PCIe插槽ICYDOCKExpressSlotElite系列MB303E5P-B在ICYDOCK成熟的E1.S可抽取存储架构基础上升级,在单个
    的头像 发表于 05-20 17:09 750次阅读
    128Gbps×2 满血双盘位:PCIe 5.0 x8 转双E1.S NVMe 硬盘<b class='flag-5'>抽取</b>盒

    PCIe 5.0 E1.S硬盘盒重磅上市!可抽取式托盘+主动散热,免开箱秒换SSD

    将PCIe5.0可抽取E1.S存储扩展至PCIe插槽位ExpressSlotEliteMB221E5P-B是ICYDOCK首款专为PCIe扩展插槽设计的可抽取式9.5mmE1.SSSD硬盘抽取盒,为
    的头像 发表于 04-17 15:38 627次阅读
    PCIe 5.0 E1.S硬盘盒重磅上市!可<b class='flag-5'>抽取</b>式托盘+主动散热,免开箱秒换SSD

    AD8386:高性能10位12通道输出抽取式LCD驱动器的全方位解析

    AD8386:高性能10位12通道输出抽取式LCD驱动器的全方位解析 在LCD驱动领域,AD8386以其卓越的性能和丰富的特性,成为众多电子工程师的首选器件之一。今天,我们就来深入探讨这款10位
    的头像 发表于 04-14 16:20 132次阅读

    【概念产品CP156】服务器/PC扩容神器:单托盘双U.2/U.3 NVMe硬盘抽取盒,完美兼容3.5寸软驱位

    双盘合一托盘设计——保障盘序完整性CP156是属于ToughArmor系列的可抽取式NVMe硬盘盒,可安装于标准3.5"软驱位中。它允许将两块7mm厚的U.2/U.3NVMeSSD同时安装
    的头像 发表于 03-20 11:36 461次阅读
    【概念产品CP156】服务器/PC扩容神器:单托盘双U.2/U.3 NVMe硬盘<b class='flag-5'>抽取</b>盒,完美兼容3.5寸软驱位

    汽车电子EMC测试系统:车企必须要知道的电磁安全方案

    南柯电子|汽车电子EMC测试系统:车企必须要知道的电磁安全方案
    的头像 发表于 01-08 11:00 698次阅读

    【新品】8盘位PCIe5.0 U.2/U.3 NVMe 转 双5.25光驱位硬盘抽取

    将双5.25英寸光驱位转换为高性能NVMe存储阵列ToughArmorMB508V5P-B可将两个标准5.25英寸光驱位转换为一个8盘位可抽取NVMe硬盘存储解决方案,专为企业服务器、工业计算机
    的头像 发表于 12-19 15:19 841次阅读
    【新品】8盘位PCIe5.0 U.2/U.3 NVMe 转 双5.25光驱位硬盘<b class='flag-5'>抽取</b>盒

    高效部署磁盘阵列:选对硬盘抽取盒,省心又强力

    挑战:散热压力、安装维护的便捷性,以及宝贵的机箱空间。此时,一款设计出色的硬盘抽取盒就能成为关键助力。ICYDOCK的ToughArmor系列——MB998SP-
    的头像 发表于 11-07 16:34 1335次阅读
    高效部署磁盘阵列:选对硬盘<b class='flag-5'>抽取</b>盒,省心又强力

    创新企业级NVMe存储拓展方案 艾西达克前置M.2硬盘抽取盒测评

    空间散热受限,极易因高温触发硬盘性能衰退。艾西达克推出的M.2NVMeSSDPCIe4.0硬盘抽取盒可以完美解决这些痛点。此系列提供MB833MK-BV2(单盘位M
    的头像 发表于 11-07 16:07 1264次阅读
    创新企业级NVMe存储拓展方案 艾西达克前置M.2硬盘<b class='flag-5'>抽取</b>盒测评

    多块 M.2 硬盘拆到崩溃?M.2 硬盘抽取盒才是救星!

    新硬盘,而是让机箱内每块硬盘“活”起来的方案——一款设计精良的具有可抽取功能M.2硬盘盒,能彻底改变你与数据的交互方式。极速连接,释放完整性能一款优秀的M.2硬盘盒
    的头像 发表于 10-11 15:15 1067次阅读
    多块 M.2 硬盘拆到崩溃?M.2 硬盘<b class='flag-5'>抽取</b>盒才是救星!

    富士胶片商业创新(中国)携手合合信息:从AI智取文档信息到业务洞察

    北京2025年9月8日 /美通社/ -- 近日,富士胶片商业创新(中国)有限公司与上海合合信息科技股份有限公司达成合作。富士胶片商业创新(中国)推出集成合合信息AI智能文档抽取、鸿翼文档云元数据管理
    的头像 发表于 09-09 09:42 1522次阅读
    富士胶片商业创新(中国)携手合合<b class='flag-5'>信息</b>:从AI智取文档<b class='flag-5'>信息</b>到业务洞察

    工业相机数据爆炸?ICY DOCK硬盘抽取盒极速存 + 0宕机!

    与更换能力。针对这些关键需求,ICYDOCK旗舰级硬盘抽取盒MB699VP-B与MB720MK-BV3以其工业级设计,提供了可靠的存储解决方案。MB699VP-B
    的头像 发表于 09-05 16:02 609次阅读
    工业相机数据爆炸?ICY DOCK硬盘<b class='flag-5'>抽取</b>盒极速存 + 0宕机!

    突破影音录播设备存储瓶颈!ICY DOCK 高密度硬盘抽取盒提升制作效率

    都在考验存储设备的极限性能。ICYDOCK针对这些核心问题,推出MB873MP-BV2与MB998SK-B工业级硬盘抽取盒解决方案。MB873MP-BV2是一款突破
    的头像 发表于 08-14 17:23 1169次阅读
    突破影音录播设备存储瓶颈!ICY DOCK 高密度硬盘<b class='flag-5'>抽取</b>盒提升制作效率

    【ICY DOCK新品】4盘位2.5英寸U.2/U.3 NVMe SSD硬盘抽取

    企业级免工具硬盘托盘设计搭配PCIe4.0极致速度ICYDOCKExpressCageMB324V4P-B是一款具备高性能的硬盘抽取盒,它可在单个标准的5.25英寸光驱位中容纳多达4个
    的头像 发表于 08-08 14:39 1665次阅读
    【ICY DOCK新品】4盘位2.5英寸U.2/U.3 NVMe SSD硬盘<b class='flag-5'>抽取</b>盒

    最新PCIe5.0 U.2硬盘抽取盒— ICY DOCK MB491V5K-B 开箱测评

    ——ICYDOCKToughArmorMB491V5K-B,正是专为高安全、高性能、高强度环境打造的U.2/U.3NVMeSSD抽取盒,不仅支持PCIe5.0,还拥有军规
    的头像 发表于 08-01 14:48 1613次阅读
    最新PCIe5.0 U.2硬盘<b class='flag-5'>抽取</b>盒— ICY DOCK MB491V5K-B 开箱测评

    【硬盘抽取盒民主实验】你的真话,决定产品命运!敢说就送!

    这不是一场营销,而是一次硬盘抽取盒民主实验。ICYDOCK诚邀敢说真话的你!你的每一条真实反馈,都可能被采纳,直接塑造CP138产品的命运!你的声音,至关重要!CP138核心亮点速览CP138是专为
    的头像 发表于 07-18 16:32 544次阅读
    【硬盘<b class='flag-5'>抽取</b>盒民主实验】你的真话,决定产品命运!敢说就送!