0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

知识图谱与训练模型相结合和命名实体识别的研究工作

深度学习自然语言处理 来源:复旦DISC 作者:朱 琦 2021-03-29 17:06 次阅读

本次将分享ICLR2021中的三篇投递文章,涉及知识图谱与训练模型相结合和命名实体识别(NER)的研究工作。

文章概览

知识图谱和语言理解的联合预训练(JAKET: Joint Pre-training of Knowledge Graph and Language Understanding)。该论文提出了知识图谱和文本的联合训练框架,通过将RoBERTa作为语言模型将上下文编码信息传递给知识图谱,同时借助图注意力模型将知识图谱的结构化信息反馈给语言模型,从而实现知识图谱模型和语言模型的循环交替训练,使得在知识图谱指导下的预训练模型能够快速适应新领域知识。

语言模型是开放知识图谱(Language Models are Open Knowledge Graphs)。该论文提出了能够自动化构建知识图谱的Match and Map(MAMA)模型,借助预先训练好的语言模型中的注意力权重来提取语料中的实体间关系,并基于已有的schema框架自动化构建开放性知识图谱。

命名实体识别中未标记实体问题的研究(Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition)。论文探究了未标注实体问题对NER实验指标的影响,并提出了一种负采样策略,通过改进损失函数,将为标注实体当作负样本训练,从而极大改善了未标注实体问题对NER实验指标的影响。

论文细节

1

论文动机

现有的将知识图谱与预训练模型相结合的研究工作还存在挑战:当预先训练好的模型与新领域中的知识图谱结合微调时,语言模型难以高效学习到结构化的实体关系语义信息。同时知识图谱的理解推理能力也需要上下文的辅助。基于此,论文提出了一个联合预训练框架:JAKET,通过同时对知识图谱和语言建模,实现两个模型之间的信息互补和交替训练。方法1. 知识模块(Knowledge Module,KM)知识模块主要是对知识图谱进行建模,生成含有结构化信息的实体表示。采用图注意力模型和组合算子思想来聚合实体嵌入和关系嵌入信息。在第L层的实体V的嵌入信息传播公式为:

3bf5710c-8e8f-11eb-8b86-12bb97331649.png

考虑到计算过程中可能会出现的实体数爆炸问题,实验采用了设置minibatch领域采样的方法获取多跳邻居集合。2. 语言模块(Language Module,LM)语言模块主要是对文本建模,学习文本的嵌入表示。采用RoBERT-base作为预训练模型。3.解决循环依赖问题(Solve the syclic dependency)由于LM和KM是互相传递信息的,训练过程存在循环依赖问题,不便于后续计算优化。论文提出了分解语言模型解决此问题,即将LM分解为LM1和LM2子模块,将RoBERT的前6层和后6层分别作为LM1和LM2,实现LM1,KM和LM2的联合训练。整体框架如下图所示。

3c6790e8-8e8f-11eb-8b86-12bb97331649.png

实验结果论文在实体类别预测、关系类别预测、词块掩码预测、实体掩码预测4个任务上进行预训练,并在小样本关系分类、KGQA和实体分类这3个下游任务上进行实验。实验结果分别如下图所示:

3ccab038-8e8f-11eb-8b86-12bb97331649.png

3d660b5a-8e8f-11eb-8b86-12bb97331649.png

由实验结果可知,在3个任务中论文提出的JAKET都可以进一步提高性能,并且联合预训练可以有效减少模型对下游训练数据的依赖。

2

3dd9f9c0-8e8f-11eb-8b86-12bb97331649.png

论文动机

知识图谱的构建方法通常需要人工辅助参与,但是人力成本太高;

同时BERT等预训练模型通常在非常大规模的语料上训练,训练好的模型本身包含常识知识,这些知识可以促进上层的其他应用。

所以本论文提出了一种无监督的Match and Map(MAMA)模型,来将预训练语言模型中包含的知识转换为知识图谱。

方法

1. 匹配(Match)

3e6ba8c0-8e8f-11eb-8b86-12bb97331649.png

Match阶段主要是自动抽取三元组。对于输入的文本,使用开源工具抽取出实体,并将实体两两配对为头实体和尾实体,利用预训练模型的注意力权重来提取实体对的关系。通过beam search的方法搜索多条从头实体到尾实体的路径,从而获取多个候选的三元组。再通过设置一些限制规则过滤掉不符常理的三元组,即得到用于构建知识图谱的三元组。

2. 映射(Map)

Map阶段主要是将Match阶段抽取到的三元组映射到知识图谱中去。利用成熟的实体链接和关系映射技术,将三元组映射到已有的固定schema图谱中。对于部分映射或完全不匹配的三元组,就构建开放schema的知识图谱,并最后将这两类知识图谱融合,得到一个灵活的开放性知识图谱。

整体框架如下:

3fadc286-8e8f-11eb-8b86-12bb97331649.png

论文中使用BERT-large对Wikipedia语料进行自动化构建知识图谱,图谱效果如下:

4008e7b0-8e8f-11eb-8b86-12bb97331649.png

实验结果

论文在TAC KBP和Wikidata数据集上进行槽填充任务实验。

在TAC KBP数据集上的结果如下表:

40ab57c0-8e8f-11eb-8b86-12bb97331649.png

基于TAC KBP数据集的实验结果主要有两点:一是MAMA模型能够提升知识图谱的槽填充效果;二是更大/更深的语言模型能够抽取出更高质量的知识图谱。

在Wikidata数据集上的结果如下表:

413cd6fa-8e8f-11eb-8b86-12bb97331649.png

基于Wikidata数据集的实验结论一方面说明MAMA可扩展到更大的语料库,另一方面说明MAMA能从更大规模的语料库中抽取出更完整的知识图谱。

3

41a55734-8e8f-11eb-8b86-12bb97331649.png

论文动机

实体未标注问题是命名实体识别(NER)任务中的常见问题,且该问题在实际情况中无法完全避免。既然无法彻底解决实体未标注问题,那么该问题是否会对NER模型产生影响呢?若产生较大影响,如何将这种消极影响尽量降低?

基于上述问题,论文分析了未标注实体问题对NER实验指标的影响及其原因,并提出了一种具有鲁棒性的负采样策略,使得模型能够保持在未标注实体概率极低的状态下训练,从而提升实体标注效果。

方法

1.合成数据集(Synthetic Datasets)

通过在标注完善的CoNLL-2003和OntoNotes5.0数据集按照一定概率随机掩盖标注出的实体,获取人工合成的欠完善标注数据集。

2.衡量指标(Metrics)

文章中设计了侵蚀率(erosion rate)和误导率(misguidance rate)2种指标来测算NER中未标注实体问题的影响。

侵蚀率代表实体标注量减少对NER指标下降的影响程度。

误导率代表未标注实体对当作负样本时对NER指标下降的影响程度。

3.负采样(Negative Sampling)

文章采用负采样的方式进行降噪,对所有的非实体进行负采样,采样负样本进行损失函数的计算。改进后的损失函数如下所示:

41f444ca-8e8f-11eb-8b86-12bb97331649.png

其中前半部分表示标注实体集合的损失,后半部分则是负采样实体集合的损失。文章的整体模型框架如下图所示,总体就是BERT/LSTM编码+softmax的思路。

427335d2-8e8f-11eb-8b86-12bb97331649.png

实验结果

文章在合成数据集上进行NER任务实验,分析未标注问题的影响和负采样的训练效果。

首先是分别基于CoNLL-2003和OntoNotes5.0合成数据集进行的实验结果:

42ec9c38-8e8f-11eb-8b86-12bb97331649.png

4371e92e-8e8f-11eb-8b86-12bb97331649.png

由图可知:随着实体掩盖概率p增大,即未标注实体数量增多,NER指标下降明显;在p很低的时候,误导率就较高了,而侵蚀率受影响较小,说明把未标注实体当作负样本训练、对NER指标下降的影响程度很大,实体标注量减少对指标下降的影响较小

其次将文章提出的负采样训练模型与其他SOTA模型分别在完全标注数据集和真实数据集上做对比,实验结果如下:

44481878-8e8f-11eb-8b86-12bb97331649.png

结果表明本模型在完全标注数据集上的效果和其他模型相差不大,并且真实世界数据集上的效果远优于其他的模型,所以本文模型的综合效果最好。

总结

此次解读的三篇论文围绕知识建模和信息抽取的研究点展开。感觉知识图谱结合语言模型的相关研究的趋势是尝试使用同一套编码系统,同时对语言模型中的上下文信息和知识图谱中的结构化语义信息进行编码和训练,从而实现知识融合或知识挖掘。此外,第三篇文章主要想给广大做知识图谱方向的研究者分享一个命名实体识别的技巧思路,当面对标注质量不那么高的数据集时,或许可以尝试一下负采样的方法。

以上就是Fudan DISC本期的论文分享内容,欢迎大家的批评和交流。

原文标题:【论文解读】ICLR2021 知识建模与信息抽取

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2671

    浏览量

    47571
  • 深度学习
    +关注

    关注

    73

    文章

    5200

    浏览量

    119804

原文标题:【论文解读】ICLR2021 知识建模与信息抽取

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(下)

    对于语言模型(LLM)幻觉,知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息,减少了LLM中出现幻觉的可能性。
    的头像 发表于 02-22 14:13 222次阅读
    利用<b class='flag-5'>知识图谱</b>与Llama-Index技术构建大<b class='flag-5'>模型</b>驱动的RAG系统(下)

    如何使用Python进行图像识别的自动学习自动训练

    图像识别的自动学习和自动训练。 首先,让我们了解一下图像识别的基本概念。图像识别是指通过计算机程序识别和理解图像内容的过程。自动学习和自动
    的头像 发表于 01-12 16:06 175次阅读

    知识图谱基础知识应用和学术前沿趋势

    知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理、Web技术、机器学习与大数据挖掘等等方向的交叉学科。人工智能是以传统符号派
    的头像 发表于 01-08 10:57 219次阅读
    <b class='flag-5'>知识图谱</b>基础<b class='flag-5'>知识</b>应用和学术前沿趋势

    情感语音识别的研究方法与实践

    一、引言 情感语音识别是指通过计算机技术和人工智能算法自动识别和理解人类语音中的情感信息。为了提高情感语音识别的准确性,本文将探讨情感语音识别的研究
    的头像 发表于 11-16 16:26 226次阅读

    知识图谱与大模型结合方法概述

    ;3)LLM+KG协同使用,主要用于知识表示和推理两个方面。该文综述了以上三个路线的代表性研究,探讨了未来可能的研究方向。 知识图谱(KG)和大语言
    的头像 发表于 10-29 15:50 547次阅读
    <b class='flag-5'>知识图谱</b>与大<b class='flag-5'>模型</b><b class='flag-5'>结合</b>方法概述

    TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏

    本次文章介绍我们于 TPAMI-2023 发表的一项用于视觉识别的相互对比学习在线知识蒸馏(Online Knowledge Distillation via Mutual Contrastive
    的头像 发表于 09-19 10:00 328次阅读
    TPAMI 2023 | 用于视觉<b class='flag-5'>识别的</b>相互对比学习在线<b class='flag-5'>知识</b>蒸馏

    华为GPU芯片对标英伟达!

    星火一体机将提供从底层算力、AI框架、训练算法、推理能力、应用成效等全栈AI能力,可用于问答系统、对话生成、知识图谱构建、智能推荐等多个领域的应用,具备大模型训练、多模态理解与生成、
    的头像 发表于 09-01 14:46 840次阅读

    云知声亮相第十七届全国知识图谱与语义计算大会

    8月24日-27日,第十七届全国知识图谱与语义计算大会(CCKS 2023)在沈阳成功举办。大会聚焦“知识图谱赋能通用AI”,邀请国内外知名学者、产业界知名发言人员介绍相关领域的最新进展和发展趋势
    的头像 发表于 08-31 16:02 375次阅读
    云知声亮相第十七届全国<b class='flag-5'>知识图谱</b>与语义计算大会

    2023中国工业互联网技术发展的十大科技趋势

    知识图谱是一种基于语义网技术的知识表示方法,它将实体、属性和关系等元素进行抽象和建模,形成一个具有语义表达能力的图结构。在工业领域,知识图谱可以将工业领域的
    的头像 发表于 08-31 15:18 481次阅读
    2023中国工业互联网技术发展的十大科技趋势

    如何利用大模型构建知识图谱?如何利用大模型操作结构化数据?

    上图是之前,我基于大语言模型构建知识图谱的成品图,主要是将金融相关的股票、人物、涨跌幅之类的基金信息抽取出来。
    的头像 发表于 08-24 16:56 7334次阅读
    如何利用大<b class='flag-5'>模型</b>构建<b class='flag-5'>知识图谱</b>?如何利用大<b class='flag-5'>模型</b>操作结构化数据?

    大型语言模型知识图谱:机遇与挑战

    这对知识表示领域来说是一个巨大的步骤。长时间以来,人们关注的是明确的知识,例如嵌入在文本中的知识,有时也被称为非结构化数据,以及以结构化形式存在的知识,例如在数据库和
    的头像 发表于 08-24 14:50 394次阅读
    大型语言<b class='flag-5'>模型</b>与<b class='flag-5'>知识图谱</b>:机遇与挑战

    卷积神经网络模型训练步骤

    模型训练是将模型结构和模型参数相结合,通过样本数据的学习训练
    的头像 发表于 08-21 16:42 921次阅读

    知识图谱嵌入模型 (KGE) 的总结和比较

    知识图谱嵌入(KGE)是一种利用监督学习来学习嵌入以及节点和边的向量表示的模型。它们将“知识”投射到一个连续的低维空间,这些低维空间向量一般只有几百个维度(用来表示知识存储的内存效率)
    的头像 发表于 07-31 16:07 576次阅读
    <b class='flag-5'>知识图谱</b>嵌入<b class='flag-5'>模型</b> (KGE) 的总结和比较

    巨微文化携手IBM依托AI共塑知识图谱新篇章

    知识图谱是具有 AI 能力加持的智能“知识库”,借助于基于 AI 的自然语言处理 (NLP) 能力,打造智能搜索、智能问答、个性化推荐、辅助决策和异常监测等能力。对于教辅此类知识密集型行业,科目复杂度高,需要多个专家协同
    的头像 发表于 06-05 16:17 544次阅读

    基于预训练语言模型设计了一套统一的模型架构

    进一步,本文研究了在更依赖 KG 的知识库问答任务中如何利用 PLM。已有研究通常割裂地建模检索-推理两阶段,先从大规模知识图谱上检索问题相关的小子图,然后在子图上推理答案节点,这种方
    的头像 发表于 04-07 10:38 420次阅读