0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种将知识图谱与语言模型结合的具体方式分享

深度学习自然语言处理 来源:知识工场 作者:王鑫涛 2022-09-05 14:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

知识嵌入(Knowledge Embedding)将知识图谱中的关系和实体嵌入向量空间进行表示。现有工作主要分为两类:传统的基于结构的方法(如TransE)在向量空间建模KG的结构信息,此类方法无法良好地表示真实知识图谱中大量结构信息匮乏的长尾实体;新兴的基于文本的方法(如Kepler)引入额外的文本信息和语言模型, 但该方向的现有工作相较于基于结构的方法存在以下不足,包括效率较低、表现不佳、限制性文本依赖等问题。

知识工场实验室提出了一个将语言模型用作知识嵌入的方法 LMKE,以期在提升长尾实体表示的同时解决现存基于文本方法的以上问题。LMKE 首次提出将基于文本的知识嵌入学习建模在对比学习框架下,显著提升了模型在训练和下游应用中的效率。实验结果表明,LMKE在多个知识嵌入评价基准上取得了超越现有方法的表现,尤其是针对长尾实体。研究成果《Language Models as Knowledge Embeddings》已被IJCAI 2022录用。

bf3e7d94-2cd9-11ed-ba43-dac502259ad0.png



一、背 景

知识图谱(Knowledge Graphs)以三元组的形式储存了大量的知识。其中,三元组(h,r,t)表示,头实体h与尾实体t间存在关系 r,如(法国,包含,卢浮宫)。

知识嵌入(Knowledge Embeddings, KEs)将知识图谱上的实体和关系嵌入到向量空间中进行表示,以便在向量空间中推理,用于三元组分类、链接预测等任务。比如说,TransE 将实体“法国”、“卢浮宫”和关系“包含”分别表示为向量“法国”“卢浮宫”“包含”,而如果“法国”+“包含”“卢浮宫”,则认为该三元组为真。近年来,知识嵌入也越来越多地被用于与预训练语言模型相结合,以赋予语言模型更多的知识。

现有的知识嵌入方法可以被大致分为两类:传统的基于结构的方法(Structure-based Methods)和近期兴起的基于文本的方法(Description-based Methods)。

基于结构的方法在向量空间中表达知识图谱的结构信息,包括 TransE、RotatE 等。这类方法可以建模多种特殊的关系模式,如对称模式、逆模式、组合模式等。比如,已知“A 的父亲是 B”,“B 的父亲是 C”,且“父亲的父亲是爷爷”,则这类方法可以推理出“A 的爷爷是 C”,如下图所示。

bf4c43f2-2cd9-11ed-ba43-dac502259ad0.png


图1 知识图谱中的组合模式

然而,这类方法单纯依赖知识图谱的结构信息,因此自然难以良好地表示结构信息匮乏的长尾实体。在真实世界的知识图谱中,实体的度数分布服从power-law定律,形成一条长长的尾巴,意味着大量实体缺乏充足的结构信息。比如,下方左图展示了知识图谱数据集WN18RR中的实体度数分布,其中14.1%的实体度数为1,60.7%的实体度数不超过3,这意味着这些实体在知识图谱上连边极少。下方右图的结果则表明,以RotatE为代表的典型基于结构的方法在长尾实体上表现不佳。

bf62a19c-2cd9-11ed-ba43-dac502259ad0.png

图2 WN18RR上的节点度数分布及基于结构的方法在该数据集上的表现

基于文本的方法引入了文本信息和语言模型进行知识的嵌入与推理,如 DKRL、KEPLER 等。许多知识图谱提供了实体和关系的文本描述,而这些丰富的文本信息可以良好地用于实体和关系的表示,并弥补结构信息的不足。同时,近期关于语言模型的相关研究表明:

①语言模型在预训练时不仅掌握了语言知识,还学会了大量事实知识

②语言模型可以同基于结构的知识嵌入方法一样,掌握对称模式、逆模式、隐含模式等部分关系模式[2]。

因此,我们认为语言模型非常适合作为知识嵌入使用

此前已有工作尝试将语言模型用于知识嵌入的三元组分类、链接预测任务上。然而,现存的基于文本的方法存在以下缺陷:

效率较低。语言模型规模庞大,因此现有工作在训练及下游任务中或是时间复杂度过高,或进行了大量的 trade-off。一方面,它们在训练时限制负采样率。比如基于文本的 KEPLER 中正样本和负样本的数量是 1:1 的,而基于结构的 TransE 中一个正样本会搭配上千个负样本。另一方面,现有方法的模型结构在链接预测等下游任务上复杂度也过高。

表现不佳。尽管引入了更多的信息与更大的模型,现存的基于文本的方法在许多数据集和指标上并未超越基于结构的方法,其中效率问题带来的负采样率不足等 trade-off 一定程度上造成了负面影响。

限制性文本依赖。现存方法只适用于有文本描述的实体,而往往舍弃掉大量没有文本信息(但有结构信息)的实体。现存方法对数据的严苛要求限制了他们在下游任务中的使用。

二、方 法

在本文中,我们提出了一个更好地将语言模型用作知识嵌入的方法LMKELanguage Models as Knowledge Embeddings),同时利用结构信息和文本信息,在提升长尾实体表示的同时解决基于文本方法的上述问题。在 LMKE 中,实体和关系被视作额外的词(token),并从相关实体、关系和文本描述中学习表示。本文进一步提出将基于文本的知识嵌入学习建模在对比学习框架下,使得一个三元组里的实体表示可以作为同 batch 中其他三元组的负样本,从而避免了编码负样本带来的额外开销。LMKE 也是一种将知识图谱与语言模型结合的具体方式。

bf70c4ca-2cd9-11ed-ba43-dac502259ad0.png


图3 LMKE的模型结构(用于三元组分类)

LMKE 用语言模型作为知识嵌入,即用语言模型获得实体和关系的嵌入向量表示,从而对三元组或实体进行预测。在 LMKE 中,实体和关系的嵌入向量与文本中的词被表示在同一个向量空间中。如图3所示,给定一个特定的三元组u=(h,r,t),LMKE 利用相应的文本描述信息,将它们拼为一个序列。将该序列作为语言模型的输入,h,r,t的相应输出向量 h,r,t,即是相应的实体和关系的嵌入向量。一个实体(或关系)的嵌入向量同时依赖于其自身、其自身的文本描述、其相关实体和关系、以及相关实体和关系的文本描述,对文本信息进行了最大程度的利用。

因此,长尾实体可以利用文本信息而被良好表示,而缺乏文本信息的实体则可以利用相关实体和关系(结构信息)以及它们的文本描述被良好表示。语言模型中的CLS token(或 BOS token)对应的向量聚合了整个序列的信息,因此我们将其视作代表整个三元组u的向量u

与KG-BERT相似,LMKE 将向量u输入一个线性层,来计算三元组为真的概率p(u):知识嵌入的主要应用是预测缺失的链接(链接预测)和对可能的三元组进行分类(三元组分类)。其中,三元组分类基于上述p(u)即可进行。链接预测则需要预测出不完整三元组(?,r,t)或(h,r,?)的缺失实体。具体来说,模型需要将候选实体(一般为所有实体)填入不完整三元组,并将相应的三元组进行打分,从而对候选实体按照得分进行排序。然而,对于上述 LMKE 模型,以及大部分现有的基于文本的方法,这一流程的计算时间复杂度都过高,如表1所示。

bf7ecd7c-2cd9-11ed-ba43-dac502259ad0.png


表1 部分基于文本的方法在训练和链接预测上的时间复杂度

为了将语言模型高效地用于链接预测任务,一个简单的方法是不完整地编码三元组,而仅编码部分三元组。实体遮盖模型(MEM-KGC)可以视为 LMKE 的 masked变体,将待预测的缺失实体和其文本描述 mask,并将相应的向量表示q输入一个线性层来预测缺失实体。因为仅需要编码一个不完整的三元组,MEM-KGC显著降低了时间复杂度。然而,MEM-KGC 忽视了待预测实体的文本信息,降低了文本信息的利用率。

我们提出了一个对比学习框架来更充分地利用文本信息。在我们的对比学习框架中,给定的实体关系对被视作查询q,而目标实体被视作键k,我们通过匹配q和k进行对比学习。在这一框架的视角下,MEM-KGC 中的向量q即为查询的向量表示,而MEM-KGC的线性层权重的每一行则是每一个实体作为键的向量表示。因此,将q输入到线性层即为查询q匹配键。差别在于,MEM-KGC的键是用可学习的向量表示,而非像查询一样是文本信息的语言模型编码。我们提出的对比学习框架也使得语言模型能够被高效地用于链接预测

C-LMKE是对比学习框架下的LMKE变体,将MEM-KGC中的可学习实体权重改进为目标实体的文本描述编码,如图4所示。C-LMKE进行批次内的对比匹配,从而避免了编码负样本带来的额外开销。具体来说,对于 batch 中的第i个三元组,它的给定实体关系对q和目标实体k构成一个正样本,而同batch内其他三元组的目标实体k’与q构成负样本。由表1可见,C-LMKE在训练和链接预测时的时间复杂度均显著优于现有基于文本的方法。


bf9666e4-2cd9-11ed-ba43-dac502259ad0.png


图4 C-LMKE的模型结构(用于链接预测)

不同于一般的对比学习方法,C-LMKE采用一个双层MLP而非余弦相似度来计算qk的匹配度。假设查询q=(法国,包含)同时与=(卢浮宫)和=(巴黎)匹配,则基于相似度的得分会迫使和的表示相似,这在知识嵌入的场合是不被期望的。同时,我们还发现,引入度数信息和(相应实体在训练集中的三元组个数)对于链接预测任务相当有帮助。

基于得分 p(q, k),我们使用二元交叉熵作为损失函数进行训练,并参考RotatE 中提出的自对抗负采样来提高难负样本的损失权重。

三、实验结果

bfaeabf0-2cd9-11ed-ba43-dac502259ad0.png

表2 FB15k-237及WN18RR上的链接预测结果

我们在链接预测三元组分类两个任务上对我们的方法进行了实验,以BERT-tiny和BERT-base作为基本模型。在链接预测上,我们的模型显著超越了现有模型。使用BERT-BASE的C-LMKE在WN18RR上取得了80.6%的 Hits@10,而此前最好的结果仅为70.4%。即使我们使用 BERT-tiny 作为语言模型,我们的方法取得的表现也优于或相当于使用更大模型的现有方法。同时,使用BERT-tiny的C-LMKE在FB15k-237上取得了57.1%的Hits@10,是首个超越基于结构方法的基于文本方法

一个有趣的现象是,基于文本的方法在WN18RR上显著超越基于结构的方法,但在FB15k-237上却不然。我们认为背后的原因是数据集的差异。WN18RR来源于字典知识图谱WordNet,其中的实体是词而文本描述是词的定义,而从词的定义中可以很容易推出词之间的关系。相对地,FB15k-237来源于真实知识图谱Freebase,其中的文本仅部分地描述了一个实体最广为人知的知识,比如(爱因斯坦,是,和平主义者)这一知识就不被它们的文本描述所涵盖。因此,过度依赖于文本而非结构信息可能导致模型表现不佳。这也解释了在该数据集上使用BERT-tiny替换 BERT-base后表现没有下降。

bfd46be2-2cd9-11ed-ba43-dac502259ad0.png

表3 FB13和UMLS上的三元组分类结

LMKE 在三元组分类任务上也取得了最优的表现。其中,LMKE和KG-BERT的差距代表了引入实体和关系作为特殊词的有效性。

bfecb468-2cd9-11ed-ba43-dac502259ad0.png

图5 不同模型对于FB15k-237中包含不同度数实体的三元组的平均表现

为了展示我们的方法在长尾实体表示上的有效性,我们将实体按度数的对数进行分组,统计包含不同度数实体的三元组,并研究包含不同度数实体的三元组上的表现。实验结果表明,基于文本的方法在低度数组 0,1,2(即包含度数低于 4 的实体的三元组)上的表现显著优于基于结构的方法,而C-LMKE又显著优于其他的基于文本的方法。同时,在加入了度数信息后,C-LMKE在中高度数组上的表现有了显著提升。

bff5a42e-2cd9-11ed-ba43-dac502259ad0.png

图6 不同负采样率下C-LMKE在FB15k-237上的表现

我们进一步研究了负采样率对基于文本的知识嵌入学习的影响。我们将batch size 设为32,因此 1 个正样本最多配有31个负样本,而我们进一步限制可见负样本数为{1, 2, 4, 8, 16}。实验结果表明,更大的负采样率能显著提升模型的表现,证明了负采样率对基于文本的方法的重要性。然而,现有基于文本方法受限于负样本编码代价,一般仅使用1个或5个负样本。

总结起来,我们的贡献主要有以下三点:

①我们注意到基于结构的知识嵌入在表示长尾实体上的不足,并首次提出利用文本信息和语言模型来提升长尾实体的表示

②我们提出了一个基于文本的新模型LMKE,解决了现有基于文本方法的三个不足之处。同时,我们也首次提出将基于文本的知识嵌入学习建模为对比学习问题

③我们在多个知识嵌入数据集上进行了广泛实验,实验结果表明LMKE 在三元组分类和链接预测任务上取得了state-of-the-art 的表现,显著超越现有知识嵌入方法,使得基于文本的方法首次在数据集FB15K-237 上超越基于结构的方法。

笔者认为,LMKE提出的对比学习框架将是基于文本的知识嵌入的发展方向。在这一方向上,我们仍可参考对比学习领域的优秀方法来取得进一步提升。同时,信息检索、实体链接在本质上也是链接预测任务,近年来也越来越多地采用了对比学习,我们也可以从这些领域的工作中吸取经验。

最后,我们注意到被 ACL 2022 接收的同期工作SimKGC同样提出了基于文本的知识嵌入的对比学习框架,在 WN18RR 上取得了与我们相当的表现,并研究了负采样对于基于文本方法的重要性。这进一步说明了对比学习框架在基于文本的知识嵌入的发展上的必然性。SimKGC相较于LMKE,使用了更庞大的算力(32 倍的 batch size)、余弦相似度度量、InfoNCE损失以及基于图的Reranking策略,产出了值得我们借鉴的结果,不过他们在事实知识图谱FB15k-237上的表现仍未超越基于结构的方法。LMKE相较于SimKGC,则还关注了长尾实体表示、三元组分类任务以及度信息的重要性。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码
    +关注

    关注

    6

    文章

    1043

    浏览量

    57212
  • CLS
    CLS
    +关注

    关注

    0

    文章

    9

    浏览量

    9906
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11370

原文标题:语言模型用作知识嵌入

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    行业洞察篇__数字孪生IOC的“智能体”时刻:智慧城市公共服务的演进逻辑

    无所知。所以,行业内正在形成一种共识:需要用知识图谱来承载结构化、可推理的领域知识,用检索增强生成管道来获取非结构化的文本数据,用多个专用模型
    发表于 05-14 09:52

    AI大模型微调企业项目实战课

    实战通常遵循严密的“三步走”战略: 第步:数据炼金——高质量SFT数据的构建 在微调领域,“垃圾进,垃圾出”是铁律。实战课的核心首先是教企业如何“洗数据”。这包括从内部ERP、OA系统、知识图谱中提
    发表于 04-16 18:48

    工作流大模型节点说明

    推荐。 输入 模型的输入可以选取前面节点的输入和输出的参数,也可以手动输入具体的值。 模型根据输入的参数,以及提示词,生成回复。 会话上下文 开关控制是否将会话上下文信息发送到模型,支
    发表于 03-19 14:56

    一种可跨不同领域的异常检测通用模型UniOD介绍

    本研究提出了一种可跨不同领域、适用于特征维度各异且特征空间异构的数据集的异常检测通用模型
    的头像 发表于 03-18 09:09 642次阅读
    <b class='flag-5'>一种</b>可跨不同领域的异常检测通用<b class='flag-5'>模型</b>UniOD介绍

    实力认证!行云创新入围《AI 中国生态图谱 2025》大模型开放平台板块

    了中国 AI 产业全链路生态布局,是洞察国内 AI 技术发展与产业落地的核心行业风向标。行云创新凭借在 AI 领域深厚的技术积淀、全栈产品能力及丰富的行业落地经验,成功 入围图谱第三层模型层・大模型开放平台板块 。 成立于 20
    的头像 发表于 03-04 14:25 439次阅读
    实力认证!行云创新入围《AI 中国生态<b class='flag-5'>图谱</b> 2025》大<b class='flag-5'>模型</b>开放平台板块

    什么是大模型,智能体...?大模型100问,快速全面了解!

    ,LLM)是大模型中最主要的类,专门用于处理和生成人类语言。大语言模型通过“阅读”海量的文本数据(如书籍、网页、文章等)进行预训练,学会
    的头像 发表于 02-02 16:36 1195次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    UPS电源供电方式详解:3大核心类型+工作原理,看就懂

    不同供电方式的区别,导致适配不当、设备故障等问题。本文系统拆解UPS电源的3大核心供电方式结合工作原理、核心特点、适用场景,用通俗的语言
    的头像 发表于 01-31 08:51 2521次阅读
    UPS电源供电<b class='flag-5'>方式</b>详解:3大核心类型+工作原理,<b class='flag-5'>一</b>看就懂

    小艺开放平台平台功能

    开发模式支撑智能体灵活构建 LLM模式 LLM 模式是一种基于大模型的智能体编排方式。开发者按需选择大模型,根据业务逻辑编写提示词,以L
    发表于 01-30 15:24

    润和软件入选大模型体机产业图谱

    近日,由中国人工智能产业发展联盟与中国信息通信研究院联合编制的《大模型体机产业图谱》正式发布。该图谱系统梳理并收录了国内大模型
    的头像 发表于 12-10 17:56 1797次阅读
    润和软件入选大<b class='flag-5'>模型</b><b class='flag-5'>一</b>体机产业<b class='flag-5'>图谱</b>

    文了解Mojo编程语言

    Mojo 是一种由 Modular AI 公司开发的编程语言,旨在 Python 的易用性与 C 语言的高性能相结合,特别适合人工智能(A
    发表于 11-07 05:59

    RAG实践:文掌握大模型RAG过程

    RAG(Retrieval-Augmented Generation,检索增强生成), 一种AI框架,传统的信息检索系统(例如数据库)的优势与生成式大语言模型(LLM)的功能
    的头像 发表于 10-27 18:23 1759次阅读
    RAG实践:<b class='flag-5'>一</b>文掌握大<b class='flag-5'>模型</b>RAG过程

    指令集测试的一种纠错方法

    本文描述在进行指令集测试的一种纠错方法 1.打开测试指令集对应的dump文件 dump文件是指由汇编文件进行反汇编之后,可以供人阅读指令的反汇编文件。其包含了每条指令的具体操作的信息。指令集测试
    发表于 10-24 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    新信息的情况下持续学习和改进的AI计算方式。 终身短发怎么保持已有知识和技能的有效性呢 ①知识蒸馏:已有知识
    发表于 09-14 14:04

    一种带通滤波器在无位置传感器转子检测中的应用

    摘 要:论文研究了一种直流无刷电机的无位置传感器的转子位置的硬件电路检测方法。结合传统“反电动势\"方法,分析并设计了一种新的带通滤波器延时检测电路。该电路不仅可以抑制高频分量和消除直流
    发表于 08-04 14:56

    如何使用Docker部署大模型

    随着深度学习和大模型的快速发展,如何高效地部署这些模型成为了个重要的挑战。Docker 作为一种轻量级的容器化技术,能够
    的头像 发表于 05-24 16:39 1435次阅读