0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

怎样去增强PLM对于实体和实体间关系的理解?

深度学习自然语言处理 来源:TsinghuaNLP 作者:秦禹嘉 2021-06-23 15:32 次阅读

近年来,预训练语言模型(PLM)在各种下游自然语言处理任务中表现出卓越的性能,受益于预训练阶段的自监督学习目标,PLM 可以有效地捕获文本中的语法和语义,并为下游 NLP 任务提供蕴含丰富信息的语言表示。然而,传统的预训练目标并没有对文本中的关系事实进行建模,而这些关系事实对于文本理解至关重要。

在这篇被ACL 2021主会录用的文章中,清华大学联合腾讯微信模式识别中心与伊利诺伊大学厄巴纳香槟分校(UIUC),提出了一种新颖的对比学习框架ERICA,帮助PLM深入了解文本中的实体及实体间关系。具体来说,作者提出了两个辅助性预训练任务来帮助PLM更好地理解实体和实体间关系:(1)实体区分任务,给定头实体和关系,推断出文本中正确的尾实体;(2)关系判别任务,区分两个关系在语义上是否接近,这在长文本情景下涉及复杂的关系推理。实验结果表明,ERICA在不引入额外神经网络参数的前提下,仅仅对PLM进行少量的额外训练,就可以提升典型PLM(例如BERT 和 RoBERTa)在多种自然语言理解任务上(包括关系抽取、实体类别区分、问题回答等)的性能。尤其是在低资源(low-resource)的设定下,性能的提升更加明显。

一、问题背景

传统的预训练目标没有对文本中的关系事实进行显式建模,而这些关系事实对于理解文本至关重要。为了解决这个问题,一些研究人员试图改进 PLM 的架构、预训练任务等,以更好地理解实体之间的关系。但是它们通常只对文本中的句子级别的单个关系进行建模,不仅忽略了长文本场景下多个实体之间的复杂关系,也忽略了对实体本身的理解,例如图1中所展现的,对于长文本来说,为了让PLM更加充分理解地单个实体,我们需要考虑该实体和其他实体之间的复杂关系;而这些复杂的关系的理解通常涉及复杂的推理链,往往需要综合多个句子的信息得出结论。针对这两个痛点,本文提出了实体区分任务和关系区分任务来增强PLM对于实体和实体间关系的理解。

二 、文档级预训练数据收集

ERICA的训练依赖于大规模文档级远程监督数据,该数据的构造有三个阶段:首先从wikipedia中爬取文本段落,然后用命名实体识别工具(例如spacy)进行实体标注,将所有获得的实体和wikidata中标注的实体对应上,并利用远程监督(distant supervision)信号获得实体之间可能存在的关系,最终保留长度在128到512之间,含有多于4个实体,实体间多于4个远程监督关系的段落。注意这些远程监督的关系中存在大量的噪声,而大规模的预训练可以一定程度上实现降噪。作者也开源了由100万个文档组成的大规模远程监督预训练数据。

三 、实体与实体间关系的表示

鉴于每个实体可能在段落中出现多次,并且每次出现时对应的描述(mention)可能也不一样,作者在使用PLM对tokenize后的段落进行编码后,取每个描述的所有token均匀池化后的结果作为该描述的表示,接着对于全文中该实体所有的描述进行第二次均匀池化,得到该实体在该文档中的表示;对于两个实体,它们之间的关系表示为两个实体表示的简单拼接。以上是最简单的实体/实体间关系的表示方法,不需要引入额外的神经网络参数。作者在文中还探索了其它的表示方法,并验证了所有方法相比baseline都有一致的提升。

四 、实体区分任务

实体区分任务旨在给定头实体和关系,从当前文档中寻找正确的尾实体。例如在上图中,Sinaloa和Mexico具有country的远程关系,于是作者将关系country和头实体Sinaloa拼接在原文档的前面作为提示(prompt),在此条件下区分正确的尾实体的任务可以在对比学习的框架下转换成拉近头实体和正确尾实体的实体表示的距离,推远头实体和文档中其它实体(负样本)的实体表示的距离,具体的公式如下所示:

aa6771d0-d061-11eb-9e57-12bb97331649.png

五、关系区分任务

关系区分任务旨在区分两个关系的表示在语义空间上的相近程度。由于作者采用文档级而非句子级的远程监督,文档中的关系区分涉及复杂的推理链。具体而言,作者随机采样多个文档,并从每个文档中得到多个关系表示,这些关系可能只涉及句子级别的推理,也可能涉及跨句子的复杂推理。之后基于对比学习框架,根据远程监督的标签在关系空间中对不同的关系表示进行训练,如前文所述,每个关系表示均由文档中的两个实体表示构成。正样本即具有相同远程监督标签的关系表示,负样本与此相反。作者在实验中还发现进一步引入不具有远程监督关系的实体对作为负样本可以进一步提升模型效果。由于进行对比训练的两个关系表示可能来自于多个文档,也可能来自于单个文档,因此文档间/跨文档的关系表示交互都得到了实现。巧妙的是,对于涉及复杂推理的关系,该方法不需要显示地构建推理链,而是“强迫”模型理解这些关系并在顶层的关系语义空间中区分这些关系。具体的公式如下所示:

aaa2d9dc-d061-11eb-9e57-12bb97331649.png

为了避免灾难性遗忘,作者将上述两个任务同masked language modeling (MLM)任务一起训练,总的训练目标如下所示:

aaaeafe6-d061-11eb-9e57-12bb97331649.png

六、实验结果

ERICA的训练不需要引入除了PLM之外的任何参数,并且对于任意模型均能够适配,具体的,作者采用了两个经典的PLM:BERT和RoBERTa,并对其进行一定时间的post-training,最后在文档级关系抽取、实体类别区分、问题回答等任务上进行了测试,并对比了例如CorefBERT, SpanBERT, ERNIE, MTB,CP等基线模型,验证了ERICA框架的有效性。具体结果如下:

a) 文档级关系抽取,模型需要区分文档中的多个实体之间的关系,这需要PLM对实体间关系有较好的理解。

b) 实体类别区分,模型需要区分文本中的实体的具体类别,这需要PLM对实体本身有较好的理解。

c) 问题回答,作者测试了两种常见的问题回答任务:多选问答(multi-choice QA)和抽取式问答(extractive QA)。这需要PLM对实体和实体间关系有较好的理解。

七、分析

a) 消融分析(ablation study)。作者对ERICA框架中的所有组成成分进行了细致的分析,并证明了这些组成成分对于模型整体效果的提升是缺一不可的。

b) 可视化分析。作者对经过ERICA训练前后的PLM对实体和实体间关系的表示进行了可视化,结果如下图所示。通过ERICA的对比学习训练,PLM对于同类别的实体/实体关系的表示有明显的聚类现象,这充分验证了ERICA能够显著增强PLM对实体和实体间关系的理解。

c) 此外,作者分析了远程监督关系的多样性/预训练文档数量对于模型效果的提升。实验结果发现,更加多样的远程监督关系与更大的预训练数据集对于性能的提升有积极的作用。

d) 除了使用均匀池化的方式来获得实体/关系表示,作者也尝试使用entity marker的表示方法来测试模型的性能。实验结果证明,ERICA对各种实体/关系表示方法均适用,进一步验证了该架构的通用性。

八、总结

在本文中,作者提出了ERICA框架,通过对比学习帮助PLM提高实体和实体间关系的理解。作者在多个自然语言理解任务上验证了该框架的有效性,包括关系提取、实体类别区分和问题问答。实验结果表明ERICA显著优于所有基线模型,尤其是在低资源的设定下,这意味着 ERICA 可以更好地帮助 PLM捕获文本中的相关事实并综合有关实体及其关系的信息。

责任编辑:lq6

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PLM
    PLM
    +关注

    关注

    2

    文章

    85

    浏览量

    20722
  • 实体
    +关注

    关注

    0

    文章

    8

    浏览量

    7282

原文标题:ERICA: 提升预训练语言模型实体与关系理解的统一框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    美国将11家中企列入实体清单,中方回应

    早在2月23日,BIS已将93家来自俄罗斯、中国、土耳其等国的实体纳入“实体清单”,其中8家为中国企业。中国驻美使馆发言人刘鹏宇对此表示谴责,认为此举属于经济胁迫。
    的头像 发表于 04-12 09:52 300次阅读

    ST25DV04可以读取实体IC卡吗?

    我最近打算使用ST25DV04做一个NFC卡,这款芯片可以读取实体IC卡,获取IC卡信息,并模拟IC卡刷卡吗?
    发表于 03-18 07:04

    一文解析PLM系统为核心的多系统集成

    要想了解PLM的多系统集成关系,我们先了解一下,数据驱动下,PLM的全流程结构化数据模型(熟悉系统的建模原理)。
    的头像 发表于 02-28 14:36 319次阅读
    一文解析<b class='flag-5'>PLM</b>系统为核心的多系统集成

    微软是否将取消Xbox游戏实体光盘发售?

     针对Game File的采访,微软游戏部门CEO菲尔·斯宾塞(Phil Spencer)就公司的实体版Xbox游戏计划做出回应。他强调,尽管微软“秉持对实体媒介的支持”,但更多的 Xbox玩家倾向于数字购买游戏。
    的头像 发表于 02-21 14:24 211次阅读

    传iPhone16 Pro取消实体按键

    根据最新传闻,苹果在最新的iPhone 16 Pro工程机上做出了一项重大改变。这款新机型的操作按钮已从实体按键转变为电容式按键,彻底取消了实体按键的设计。
    的头像 发表于 01-15 15:26 618次阅读

    陀螺仪实体和支持有什么区别

    陀螺仪实体和支持之间存在着一些区别。陀螺仪实体是指由物理材料构成的实际设备,而支持是指陀螺仪实体所具备的技术、算法、软件和硬件的功能和特性。下面将从不同的方面详细讨论陀螺仪实体和支持之
    的头像 发表于 01-02 14:47 697次阅读

    刚刚,又一家中国传感器公司被美国拉黑!这24家国产传感器实体仍被制裁!(附全名单)

    今日(12月20日),美国商务部又将13家中国实体列入“未经核实清单”(UVL清单),本次被“拉黑”的实体大部分为电子类企业,值得一提的是包含了一家国产传感器公司。 据相关统计,截止2023年12
    的头像 发表于 12-21 08:45 2871次阅读
    刚刚,又一家中国传感器公司被美国拉黑!这24家国产传感器<b class='flag-5'>实体</b>仍被制裁!(附全名单)

    实体电源电路设计案例

    电子发烧友网站提供《实体电源电路设计案例.doc》资料免费下载
    发表于 11-20 10:58 6次下载
    <b class='flag-5'>实体</b>电源电路设计案例

    JPA实体类中的注解介绍

    今天给大家介绍一下 JPA 实体类中的注解,希望能对大家有帮助。 基本注解 @Entity 标注于实体类声明语句之前,指出该 Java 类为实体类,将映射到指定的数据库表。 name(可选):
    的头像 发表于 09-25 14:42 346次阅读

    Brocade SANnav区域清单视图:了解实体类型

    电子发烧友网站提供《Brocade SANnav区域清单视图:了解实体类型.pdf》资料免费下载
    发表于 08-30 15:45 0次下载
    Brocade SANnav区域清单视图:了解<b class='flag-5'>实体</b>类型

    请问ST25DV04芯片可以读取实体IC卡吗?

    我最近打算使用ST25DV04做一个NFC卡,这款芯片可以读取实体IC卡,获取IC卡信息,并模拟IC卡刷卡吗?
    发表于 08-07 08:51

    PaaS平台成为赋能实体经济走向数实融合的重要路径

    在这一背景下,PaaS平台成为了实体经济转型的最佳选择,能够满足日益复杂、个性化的数字化建设需求,和数字化转型中对私密、安全的核心要求,PaaS市场进入高速增长期,PaaS厂商和实体经济企业在实践中不断探索共创着转型模式。
    的头像 发表于 07-31 16:10 438次阅读
    PaaS平台成为赋能<b class='flag-5'>实体</b>经济走向数实融合的重要路径

    传小米加大印度实体店投入,欲提高线下销售占比

    据counter point research称,小米今年在印度零售店获得的总销售额的34%,而三星在实体卖场获得的总销售额的57%。小米目前在印度拥有18,000家零售店,计划进一步扩大实体卖场网络,并与小米电视和闭路电视等其他产品供应商合作。
    的头像 发表于 07-17 09:29 434次阅读

    新型实体企业激发数字化转型“链式”效应

      近年来,云计算、ai、物联网、大数据等新技术的广泛应用和各领域融合促进实体经济转型升级的变化,出现了新的分工模式和更多的产业生态,其中数字技术和实体经济深度融合的新型实体企业大量出现。
    的头像 发表于 06-15 12:00 391次阅读

    基于实体和动作时空建模的视频文本预训练

    ,一种时间和空间维度上同时建模动态的实体和动作信息的video-language预训练框架,以进一步增强跨模态的细粒度关联性。 简介 细粒度的信息对于理解视频场景并建模跨模态关联具有很
    的头像 发表于 05-25 11:29 429次阅读
    基于<b class='flag-5'>实体</b>和动作时空建模的视频文本预训练