0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

知识图谱与BERT相结合助力语言模型

深度学习自然语言处理 来源:朴素人工智能 作者:朴素人工智能 2021-05-19 15:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前沿技术,红框中为已介绍的文章,绿框中为本期介绍的模型,欢迎大家留言讨论交流。

在之前的一期推送中,我们给大家介绍过百度的ERNIE。其实清华大学NLP实验室,比百度更早一点,也发表了名为ERNIE的模型,即Enhanced Language Representation with Informative Entities。

他们认为现存的预训练语言模型很少会考虑与知识图谱(Knowledge Graph: KG)相结合,但其实知识图谱可以提供非常丰富的结构化知识和常识以供更好的语言理解。他们觉得这其实是很有意义的,可以通过外部的知识来强化语言模型的表示能力。在这篇文章中,他们使用大规模语料的语言模型预训练与知识图谱相结合,更好地利用语义,句法,知识等各方面的信息,推出了Enhanced language representation model(ERNIE),在许多知识驱动的任务上获得了巨大提升,而且更适用于广泛通用的NLP任务。

作者提出,要将知识嵌入到自然语言模型表达中去,有两个关键的挑战:

知识的结构化编码

对于一个给定的文本,如何从知识图谱中,高效地将和文本相关的常识或知识抽取出来并编码是一个重要问题。

异构信息融合

语言模型表示的形式和知识图谱的表达形式是大不相同的,是两个独立的向量空间。怎么样去设计一个独特的训练任务来将,语义,句法,知识等信息融合起来是另一个挑战。

针对这些挑战, 清华NLP实验室提出方案是 Enhanced Language RepresentatioN with Informative Entities (ERNIE)

首先,通过识别文本中的命名实体,然后将其链指到知识图谱中的相应实体上,进行知识的抽取和编码。相比于直接使用知识图谱中基于图结构的信息,作者通过TranE这样的知识嵌入算法,对知识图谱的图结构实体进行编码,然后将这富有信息的实体表示作为ERNIE的输入,这样就可以把知识模块中的实体的信息表示,引入到模型下层的语义表示中去。

其次,和BERT类似,采用了MLM和NSP的预训练目标。除此以外,为了更好地融合文本信息和知识信息,设计了一个新的预训练目标,通过随机地mask一些命名实体,同时要求模型去知识图谱中寻找合适的实体,来填充被mask掉的部分。这个训练目标这样做就可以要求语言模型,同时利用文本信息和知识图谱来对token-entity进行预测,从而成为一个富有知识的语言表达模型。

本文在两个知识驱动的NLP任务entity typing 和 relation classification进行了实验,ENRIE在这两个任务上的效果大幅超越BERT,因为其充分利用了语义,句法和知识信息。在其他的NLP任务上,ENRIE的效果也很不错。

定义

首先,定义我们的文本token序列为{w1, 。 . 。 , wn},n为token序列的长度。同时,输入的token可以在KG中对应entity。所对应entity的序列为{e1, 。 . 。 , em}, m是序列中entity的数量。因为不一定每一个token都对应得到KG中的一个entity,所以在大多数情况下m不等于n。所有token的集合也就是字典为V,在KG中所有entity的列表为E。如果,某个在V中的token w ∈ V 在KG中有对应的entity e ∈ E。那么这个对应关系定义为f(w) = e

我们可以看下方的模型结构图,大概包括两个模块。

b13d376e-b4a6-11eb-bf61-12bb97331649.png

下层的文本编码器(T-Encoder),负责捕捉基本的词法和句法的信息,其与BERT的encoder实现是相同的,都是多层的Transformer,层数为N。

上方的知识编码器(K-Encoder),负责将跟entity相关的知识信息融入到下方层传来的文本编码信息中,两者可以在统一的特征空间中去表示。T-Encoder的输出是{w1, 。 . 。 , wn},实体输入通过TranE得到的知识嵌入为{e1, 。 . 。 , em}。两者通过K-Encoder计算出对应的特征以实现特定任务。

b1c9e830-b4a6-11eb-bf61-12bb97331649.png

K-Encoder的结构和BERT略微不同,包含M个stacked aggregators。首先对token的输出和entity的embedding通过两个多头自注意力进行self attention。

b1f1848a-b4a6-11eb-bf61-12bb97331649.png

接着,通过以下的式子进行两者的结合。Wt和We分别是token和Embedding的attention权重矩阵。

b220d94c-b4a6-11eb-bf61-12bb97331649.png

Pre-training for Injecting Knowledge

除了结构的改变以外,文章提出了特殊的预训练语言模型训练目标。通过随机地mask一些entity然后要求模型通过知识图谱中实体来进行选择预测,起名为denoising entity auto-encoder(dEA)。由于知识图谱中entity的数量规模相对softmax层太大了,会首先在KG中进行筛选找到相关的entity。有时候token和entity可能没有正确的对应,就需要采取一些措施。

5%的情况下,会将token对应的entity替换成一个随机的entity,这是让模型能够在align错的时候,能够纠正过来。

15%的情况下,会将entity mask掉,纠正没有把所有存在的entity抽取出来和entity进行对应的问题。

其余的情况下,保持token-entity alignments 不变,来将entity的表示融合进token的表示,以获得更好的语言理解能力。

Fine-tuning for Specific Tasks

b264de94-b4a6-11eb-bf61-12bb97331649.png

对于大量普通的NLP任务来说,ERNIE可以采取和BERT相似的finetune策略,将[CLS]的输出作为输入文本序列的表示。对于一些知识驱动的任务,我们设计了特殊的finetune流程。

对于关系分类任务,任务要求模型根据上下文,对给定的entity对的关系进行分类。本文设计了特殊的方法,通过加入两种mark token来高亮实体。[HD] 表示head entity, [TL]表示tail entity。

对于实体类别分类任务,finetune的方式是关系分类的简化版,通过[ENT]标示出entity的位置,指引模型同时结合上下文和实体的信息来进行判断。

模型细节

从头开始训ENRIE的代价太大了,所以模型用了BERT的参数初始化。利用英文WIKI作为语料,和WiKidata进行对应,语料中包含大约4500M个subwords,和140M个entities,将句中小于三个实体的样本丢弃。通过TranE算法在WiKidata上训练entity的embedding。使用了部分WiKidata,其中包含5040986个实体和24267796个三元组。

模型尺度上来说,T-encoder的层数N为6,K-encoder层数M为6。隐藏层维度两个网络分别Hw = 768, He = 100。Attention的头数分别 Aw = 12, Ae = 4。总参数量大约114M。

ERNIE仅在语料上训练了一轮,最大文本长度由于速度原因设为256,batch-size为512。除了学习率为5e-5,其他参数和BERT几乎一样。

实验效果

直接放图吧,比当时的state-of-the-art :BERT在很多任务上都提升了不少。

b2cdb2de-b4a6-11eb-bf61-12bb97331649.png

b2fc8046-b4a6-11eb-bf61-12bb97331649.png

这里作者认识到,有了知识图谱的介入,可以用更少的数据达到更好的效果。

b396f4e6-b4a6-11eb-bf61-12bb97331649.png

结论

在文中提出了一种方法名为ERNIE,来将知识的信息融入到语言表达的模型中。具体地,提出了knowledgeable aggregator 和预训练任务dEA来更好地结合文本和知识图谱两个异构的信息源。实验表明,ENRIE能更好地在有限的数据上进行训练和泛化。

未来还有几个重要的方向值得研究

将知识嵌入到基于特征的预训练语言模型如ELMo。

引入更多不同的结构化知识进入到语言表达模型中去,比如ConceptNet,这和WiKidata是完全不同的方式。

进行真实世界更广泛的语料收集,可以进行更通用和有效的预训练

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3906

    浏览量

    141487
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13926
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23197
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    8254

原文标题:ENRIE:知识图谱与BERT相结合,为语言模型赋能助力

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    润和软件入选大模型一体机产业图谱

    近日,由中国人工智能产业发展联盟与中国信息通信研究院联合编制的《大模型一体机产业图谱》正式发布。该图谱系统梳理并收录了国内大模型一体机产业链上下游70余家代表性企业,全面呈现我国大
    的头像 发表于 12-10 17:56 1023次阅读
    润和软件入选大<b class='flag-5'>模型</b>一体机产业<b class='flag-5'>图谱</b>

    一文了解Mojo编程语言

    Mojo 是一种由 Modular AI 公司开发的编程语言,旨在将 Python 的易用性与 C 语言的高性能相结合,特别适合人工智能(AI)、高性能计算(HPC)和系统级编程场景。以下是关于
    发表于 11-07 05:59

    NVIDIA ACE现已支持开源Qwen3-8B小语言模型

    助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B 小语言模型(SLM),可实现 PC 游戏中的本地部署。
    的头像 发表于 10-29 16:59 1033次阅读

    曙光AI解决方案助力光大银行数字化基础设施升级

    “人工智能+”的国家战略,希望率先在业内打破“技术悬浮”,计划将人脸识别、OCR识别、智能客服、大模型、机器学习、RPA、知识图谱、智能营销等全业态从国外算力切换到国产异构算力。 面对场景繁杂、国产生态成熟度低、切换风险高等
    的头像 发表于 05-12 10:46 743次阅读

    轻轻松松学电工(识图篇)

    内容介绍 结合广大电工人员的实际需要,主要介绍了常用电工电路识图的基础知识、方法及技巧,内容包括常用电气符号、电工识图基本方法,以及识读供配电系统图、建筑电气图、电力拖动系统电气图、P
    发表于 04-30 17:18

    电路识图从入门到精通高清电子资料

    由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,通过“入门篇”和“精通篇”循序渐进、由浅入深地介绍了电路图的基础知识、典型单元电路的识图方法,以及典型小家电、电动车、洗衣机、
    发表于 04-10 16:22

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型
    的头像 发表于 03-17 15:32 7664次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    中科驭数DPU助力模型训练和推理

    随着深度学习技术的快速发展,大模型(如GPT、BERT等)在自然语言处理、计算机视觉等领域取得了显著成果。然而,大模型的参数量和计算量极其庞大,传统的硬件架构或者单台设备(如单个GPU
    的头像 发表于 02-19 09:48 1082次阅读
    中科驭数DPU<b class='flag-5'>助力</b>大<b class='flag-5'>模型</b>训练和推理

    渊亭KGAG升级引入“高级策略推理”

    为了突破现有AI技术在决策推理方面的局限,渊亭科技对其知识图谱分析平台KGAG进行了最新升级,创新性地引入了“高级策略推理”模式。这一模式的引入,实现了“大模型×知识图谱×专家策略×动态推理”的深度
    的头像 发表于 02-14 15:07 821次阅读

    微软发布《GraphRAG实践应用白皮书》助力开发者

    近日,微软针对开发者群体,重磅推出了《GraphRAG实践应用白皮书》。该白皮书全面而深入地涵盖了知识图谱的核心内容,为开发者和企业提供了宝贵的指导和启示。 从知识图谱的基础概念出发,白皮书详细阐述
    的头像 发表于 01-13 16:11 1397次阅读

    微软重磅推出《GraphRAG实践应用白皮书》

    和应用知识,则成为企业提升决策效率、增强业务创新力、在市场竞争中抢占先机的关键所在。其中,知识图谱作为一项强大的语义网络技术,以其清晰呈现复杂知识关系的优势,为企业的数据处理和智能应用提供了有力支撑。
    的头像 发表于 01-13 15:20 1612次阅读

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 576次阅读

    利智方:驱动企业知识管理与AI创新加速的平台

    利智方致力于深度整合企业知识资产,全面打通知识生命周期的各个环节。通过构建强大的知识库和精准的知识图谱,支持快速定制和部署各类AI应用,为企业创新发展提供坚实的技术支撑。可多维度提升企
    的头像 发表于 12-30 11:07 1398次阅读

    【「大模型启示录」阅读体验】对大模型更深入的认知

    让我想到,我在使用AI工具时,很少考虑到背后的技术是如何运作的。现在,我更加好奇这些工具的工作原理,以及它们是如何与大模型技术相结合的。 总的来说,读完《大模型启示录》这本书,我感到既兴奋又有些不安
    发表于 12-20 15:46

    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”一等奖

    和华东师范大学联合申报的“跨语言知识图谱构建与推理技术研究及应用”项目凭借创新性和技术先进性荣获一等奖。该项目成功突破了多形态信息抽取技术、跨语言知识图谱对齐技术和
    的头像 发表于 12-16 17:04 872次阅读
    传音旗下人工智能项目荣获2024年“上海产学研合作优秀项目奖”一等奖