0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

KDD2020知识图谱相关论文分享

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-09-25 17:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

论文专栏:KDD2020知识图谱相关论文分享

论文解读者:北邮 GAMMA Lab 博士生 闫博

题目:鲁棒的跨语言知识图谱实体对齐

会议:KDD 2020

论文地址:https://dl.acm.org/doi/pdf/10.1145/3394486.3403268

代码地址:https://github.com/scpei/REA

推荐理由:这篇论文首次提出了跨语言实体对齐中的噪音问题,并提出了一种基于迭代训练的除噪算法,从而进行鲁棒的跨语言知识图谱实体对齐。本工作对后续跨语言实体对齐的去噪研究具有重要的开创性意义。

跨语言实体对齐旨在将不同知识图谱中语义相似的实体进行关联,它是知识融合和知识图谱连接必不可少的研究问题,现有方法只在有干净标签数据的前提下,采用有监督或半监督的机器学习方法进行了研究。但是,来自人类注释的标签通常包含错误,这可能在很大程度上影响对齐的效果。因此,本文旨在探索鲁棒的实体对齐问题,提出的REA模型由两个部分组成:噪声检测和基于噪声感知的实体对齐。噪声检测是根据对抗训练原理设计的,基于噪声感知的实体对齐利用图神经网络对知识图谱进行建模。两个部分迭代进行训练,从而让模型去利用干净的实体对来进行节点的表示学习。在现实世界的几个数据集上的实验结果证明了提出的方法的有效性,并且在涉及噪声的情况下,此模型始终优于最新方法,并且在准确度方面有显著提高。

1 引言

现有方法在进行跨语言实体对齐时没有考虑噪音问题,而这些噪音可能会损害模型的效果。如图1所示,(a)中的两个不同语言的知识图谱存在实体对噪音(虚线表示的实体对1-4),(b)是理想状况下节点在特征空间中的表示,可以看出不同语言知识图谱中具有相似语义的实体在特征空间中也相近。(c)是利用含有噪音的训练数据得到的节点特征表示,由于噪音的存在,节点的表示存在了一定的偏差。我们希望跨语言实体对齐是鲁棒性的,即使训练数据中存在噪音,模型也能尽量减少噪音的消极影响,得到如图(b)中的表示。为了克服现有的跨语言实体对齐方法在处理带噪标签实体对时存在的局限性,本文探讨了如何将噪声检测与实体对齐模型结合起来,以及如何共同训练它们以对齐不同语言知识图谱中的实体。

图1噪音对跨语言实体对齐模型效果的影响示意图

问题定义

噪音检测和鲁棒性图表示学习:在一个存在噪音的场景下,代表所有的用于训练的实体对(可能包含噪音),代表中确定的干净的实体对,代表不确定是否含有噪音的实体对。鲁棒性的跨语言实体对齐模型利用给定的和,去对齐知识图谱中的剩余实体,并且能自动发现中的噪音实体对。

这个问题是不平凡的,主要存在两方面的挑战:(1)没有明显的噪音知识加以利用,即我们不知道训练数据中哪些是噪音数据,所以传统的监督学习方法无法使用,提出的模型需要以一种无监督的方式自动检测出训练数据中的噪音实体对。(2)提出一个统一的模型。此模型要既能检测出训练数据中的噪音,还能进行有效的跨语言实体对齐。

2 方法

鲁棒性的跨语言实体对齐模型(REA)包括两个部分。一是基于噪音感知的实体对齐模型,这一部分主要是利用图神经网络来对不同语言的两个知识图谱进行统一建模,学习节点的表示,训练时只使用。二是噪音检测模块,作者采用了基于对抗训练的方式,利用生成对抗网络(GAN)来检测噪音。噪音实体对生成器接受干净实体对输入,然后进行采样生成噪音实体对;噪音判别器以干净实体对和噪音实体对为输入,训练一个能判别噪音的模型,同时对输入的实体对产生一个信任分数,将信任分数大于阈值的实体对加入,用于实体对齐模块节点的表示学习。上述两个模块迭代进行训练,直到收敛。下面详细介绍这两个模块。

图2REA模型示意图

2.1 基于噪音感知的实体对齐模型

这一部分主要是对知识图谱节点的表示学习。对于知识图谱中任意的三元组,定义从传到的信息为:

具体为:

其中和是节点一阶邻居的个数。最终经过图的信息传播后节点的表示为:

损失函数采用基于间隔的排序损失(margin-based ranking objective):

这里代表信任分数,又噪音检测模块输出,即当实体对的信任分数超过阈值时,此实体对才被认为是正确的,才会被加入训练集。代表margin loss,是一个超参数。是一个衡量实体对相似性的函数,由能量函数定义:

负样本对由随机替换头或尾实体得到。

2.2 噪音检测模块

噪音检测模块分为噪音对生成器和噪音对判别器,由生成对抗网络实现。与传统的生成对抗网络不同的一点是,噪音对生成器不是由模型训练产生噪音对,而是由采样生成。噪音对生成器利用实体对齐模块生成的真实实体对表示作为输入,然后通过替换掉头或尾实体采样得到噪音实体对。噪音实体对的采样概率如下式所示:

其中是一个简单的两层神经网络,衡量了两个实体的语义相似性,两个实体越相似,越不容易被采样到,这是自然的,因为生成器本来就是用来生成噪音的。为了减少采样空间过大带来的计算量代价,采样只在负样本空间的一个子空间进行:

此外,由于采样过程是无法利用传统的基于梯度下降方法求参数,所以本文采用了基于强化学习的参数求解算法,具体来说:

对所有负样本的梯度求解近似为对k个采样的负样本的梯度求解,可以看作当前的状态,可以看作策略,看作是动作,代表奖励。

噪音判别器以实体对作为输入,输出实体对为真实实体对的概率:

越大,实体对越有可能为真实实体对,定义实体对的信任得分为:

信任得分为1的实体对将返回给实体对齐模型,继续训练。

2.3 算法流程

REA模型采用的是一个迭代的算法,在每次迭代中,算法依次进行三部分的参数训练。首先是利用干净的实体对进行节点的表示学习(4-7);然后对噪音实体对判别器进行训练(8-12);最后对噪音实体对生成器进行训练(13-17)。一次迭代完成后,更新中实体对的信任得分,将信任得分等于1的实体对加入。具体算法如下所示。

3 实验

作者在两个数据集DBP15K和DWY100K包含的5个跨语言知识图谱上进行了实验。采用Hits@1,Hits@5,MRR做为评价指标。实验结果如下图所示,其中REA-KE是去掉噪音检测模块得到的结果。

本模型中,噪音实体对判别器的检测能力至关重要,所以作者也测试了噪音判别器对噪音数据的检测能力。如下所示,噪音数据的比例为20%和40%时,判别器都有一个较好的检测噪音的效果。但是由于知识图谱的不完整性,仍有大量真实实体对被检测为噪音。

当干净的实体对数据()增加的时候,模型效果也会变好;而当噪音数据增加的时候,模型效果就会降低。而REA在有噪音的情况下表现是最好的。这也说明了噪音对跨语言实体对齐有很大的影响,REA能有效地处理噪音问题。如图3和图4所示。

图3干净实体对的数量对实验结果的影响

图4噪音实体对的数量对实验结果的影响

最后,作者还测试了不同类型的噪音对实验结果的影响。噪音的不同类型由它们采样时离真实实体的距离所定。图5分别测试了噪音实体离真实实体距离为10,50,100和全局的情形下模型的效果。

图5噪音类型对实验结果的影响

从图5可以看出,噪音离真实实体越远,即与真实实体的语义差别越大时,模型效果降低越多。当距离大于50后,模型效果几乎不再变化,这也说明了离真实实体大于一定距离时,噪音对模型的负面效果趋于稳定。而当噪音实体离真实数据越近,模型效果越好,这是显而易见的,因为这样越接近干净的标注数据。在所有的4种情况下,REA均取得了最好的效果。

4 总结

在标注跨语言实体对齐语料过程中不可避免地会引入噪音。现有方法没有考虑噪音问题,损害了实体对齐的效果。针对这一问题,本文提出了鲁棒性的跨语言实体对齐模型REA。REA通过一种迭代训练的方式,在每一轮训练过程中,通过图神经网络建模知识图谱中的实体对,得到噪声感知的实体对齐模块,然乎利用生成对抗网络来生成噪音实体对并训练一个噪音判别器,噪音判别器识别出干净的实体对加入训练集继续训练。大量的实验证明了REA在鲁棒性跨语言实体对齐任务上的有效性。

责任编辑:xj

原文标题:【KDD20】鲁棒的跨语言知识图谱实体对齐

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13921
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    8253

原文标题:【KDD20】鲁棒的跨语言知识图谱实体对齐

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为联合发布宜兴“天机镜”大模型知识图谱

    近日,由宜兴市大数据发展有限公司与华为联合主办的“共聚AI泛生态 智启产业新未来——城市大安全AI产业发展峰会暨华为中国行2025江苏站”,在江苏宜兴举行。
    的头像 发表于 11-14 16:40 1190次阅读

    光伏组件IV曲线测试仪:解锁光伏组件性能的“能量图谱仪”

    光伏组件IV曲线测试仪:解锁光伏组件性能的“能量图谱仪”柏峰【BF-CV1500】光伏组件的输出特性是决定电站发电效率的核心,而IV(电流-电压)曲线作为组件性能的“指纹图谱”,包含了短路电流、开路电压、最大功率点等关键参数
    的头像 发表于 10-15 10:49 342次阅读
    光伏组件IV曲线测试仪:解锁光伏组件性能的“能量<b class='flag-5'>图谱</b>仪”

    家电电路识图自学手册

    家电电路识图自学手册
    发表于 07-11 15:49 13次下载

    轻轻松松学电工(识图篇)

    内容介绍 结合广大电工人员的实际需要,主要介绍了常用电工电路识图的基础知识、方法及技巧,内容包括常用电气符号、电工识图基本方法,以及识读供配电系统图、建筑电气图、电力拖动系统电气图、PLC梯形图
    发表于 04-30 17:18

    图表细说电子元器件(建议下载)

    资料介绍本文档共9章内容,以图文同页的方式细说了常用的11大类数十种电子元器件,介绍元器件的识别方法、电路符号识图信息、主要特性、重要参数、典型应用电路、检测方法、修配技术、更换操作、调整技术等相关
    发表于 04-17 17:10

    典型电路原理、电路识图从入门到精通等资料

    1、电路识图从入门到精通高清电子资料 由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,通过“入门篇”和“精通篇”循序渐进、由浅入深地介绍了电路图的基础知识、典型单元电路的
    的头像 发表于 04-15 15:53 1.9w次阅读
    典型电路原理、电路<b class='flag-5'>识图</b>从入门到精通等资料

    每周推荐!电子工程师必学!典型电路原理、电路识图从入门到精通等资料

    1、 电路识图从入门到精通高清电子资料 由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,通过“入门篇”和“精通篇”循序渐进、由浅入深地介绍了电路图的基础知识、典型单元电路的
    发表于 04-11 15:17

    电路识图从入门到精通高清电子资料

    由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,通过“入门篇”和“精通篇”循序渐进、由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,以及典型小家电、电动车、洗衣机、
    发表于 04-10 16:22

    HDJF-5A超声波局部放电检测仪使用时域信号波形与PRPD图谱

    一、PRPD与PRPS图谱的定义与核心差异‌PRPD图谱‌(PhaseResolvedPartialDischarge)全称为相位解析局部放电图谱,以‌工频相位‌(0°-360°)为横坐标、‌放电幅
    的头像 发表于 03-20 15:29 1664次阅读
    HDJF-5A超声波局部放电检测仪使用时域信号波形与PRPD<b class='flag-5'>图谱</b>

    美报告:中国芯片研究论文全球领先

    据新华社报道,美国乔治敦大学“新兴技术观察项目(ETO)”3日在其网站发布一份报告说,2018年至2023年间,在全球发表的芯片设计和制造相关论文中,中国研究人员的论文数量远超其他国家,中国在高被
    的头像 发表于 03-05 14:32 1720次阅读

    渊亭KGAG升级引入“高级策略推理”

    为了突破现有AI技术在决策推理方面的局限,渊亭科技对其知识图谱分析平台KGAG进行了最新升级,创新性地引入了“高级策略推理”模式。这一模式的引入,实现了“大模型×知识图谱×专家策略×动态推理”的深度
    的头像 发表于 02-14 15:07 807次阅读

    微软发布《GraphRAG实践应用白皮书》助力开发者

    近日,微软针对开发者群体,重磅推出了《GraphRAG实践应用白皮书》。该白皮书全面而深入地涵盖了知识图谱的核心内容,为开发者和企业提供了宝贵的指导和启示。 从知识图谱的基础概念出发,白皮书详细阐述
    的头像 发表于 01-13 16:11 1387次阅读

    利智方:驱动企业知识管理与AI创新加速的平台

    利智方致力于深度整合企业知识资产,全面打通知识生命周期的各个环节。通过构建强大的知识库和精准的知识图谱,支持快速定制和部署各类AI应用,为企业创新发展提供坚实的技术支撑。可多维度提升企
    的头像 发表于 12-30 11:07 1394次阅读

    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”一等奖

    和华东师范大学联合申报的“跨语言知识图谱构建与推理技术研究及应用”项目凭借创新性和技术先进性荣获一等奖。该项目成功突破了多形态信息抽取技术、跨语言知识图谱对齐技术和知识问答对
    的头像 发表于 12-16 17:04 867次阅读
    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”一等奖

    传音旗下小语种AI技术荣获2024年“上海产学研合作优秀项目奖”一等奖

    和华东师范大学联合申报的“跨语言知识图谱构建与推理技术研究及应用”项目凭借创新性和技术先进性荣获一等奖。 该项目成功突破了多形态信息抽取技术、跨语言知识图谱对齐技术和知识问答对话技术,开发了全球首个针对非洲市场定制手机智能助手和
    的头像 发表于 12-16 16:21 1046次阅读
    传音旗下小语种AI技术荣获2024年“上海产学研合作优秀项目奖”一等奖