0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大型语言模型在关键任务和实际应用中的挑战

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2023-08-15 09:33 次阅读

大型语言模型的出现极大地推动了自然语言处理领域的进步,但同时也存在一些局限性,比如模型可能会产生看似合理但实际上是错误或虚假的内容,这一现象被称为幻觉(hallucination)。幻觉的存在使得大型语言模型在关键任务和实际应用中的可靠性受到挑战。

模型产生幻觉可能是由于模型缺乏或错误地理解了相关的知识。当人类思考和记忆事物时,本体知识在我们的思维过程中扮演着重要角色。本体知识涉及类别、属性以及它们之间的关系。它帮助我们理解世界、组织和分类信息,并且能够推导出新的知识。对于语言模型,我们可以通过设计探测任务,模型内部的隐含知识和学习偏差。

背景介绍

为了探索大模型在预训练阶段学习到的各类知识,研究者们通过设计探针任务来对这些模型进行测试。通过模型在这些任务上的表现,我们可以了解语言模型在不同方面的学习偏差、错误或限制,并尝试改进模型的性能和可靠性。然而,现有的知识探针主要研究模型对事实性知识的记忆,也就是描述具体事实、属性和关系的知识。比如,我们知道在《西游记》中“孙悟空三打白骨精”,这就是一条具体的事实性知识。

相比事实性知识,本体知识关注类和属性、以及它们之间的关系,能够描述概念之间的层级关系、属性约束等关联,为理解世界知识提供了一种结构化的方式。如下就是一个本体知识图谱,从“孙悟空三打白骨精”这样一条事实性知识,发散出了更多概念之间的关联,包括实例类型(type)、子类(subclass)、子属性(subproperty)、属性领域(domain)和属性范围(range)。

38f0abf2-3ab3-11ee-9e74-dac502259ad0.png

本体知识可以帮助模型更好地理解现实世界中的对象及其关系,在问答等许多 NLP 任务中起着至关重要的作用。因此,探究预训练语言模型是否记忆和理解本体知识,能够拓展学术界对语言模型认知能力的认识,在这个大模型快速发展的时代具有重要意义。

探针方法

我们研究了基于编码器的预训练语言模型 BERT 和 RoBERTa,以及基于解码器的大模型 ChatGPT。对于编码器结构模型,我们使用基于提示词(prompt)的探针方法,探究模型是否能够根据未被遮盖的上下文预测出正确的答案;而对于解码器结构模型,我们则将需要填空的提示词转化成多项选择题,探究模型是否能够给出正确的选择。2.1记忆任务

我们设计了五个记忆任务子测试,每个任务子测试都是为了探测预训练语言模型对于一种本体关系的记忆能力:

1. 给定实例的类型;

2. 给定类的上级类别;

3. 给定属性的上级属性;

4. 给定属性的领域约束;

5. 给定属性的范围约束。

对于 BERT 模型,我们使用人工提示和可训练的软提示(soft prompt)进行探针测试,为每种本体关系设计了如下提示词。模型基于对数概率预测,对候选词进行排序。

397df6f6-3ab3-11ee-9e74-dac502259ad0.png

2.2推理任务

我们根据资源描述框架模式(Resource Description Framework Schema, RDFS)中规定的规则构建推理任务,每个推理子任务探索预训练语言模型按照一条三段论规则进行推理的能力。对于每个前提,我们区分模型输入中是否明确包含前提,并利用记忆任务的探针结果进一步区分这个前提是否被模型记忆,探究前提的不同形式对模型推理的影响。

为了防止模型通过对假设的记忆而非推理过程得出正确结论,我们使用生造词替换假设提示中包含的特定实例、类和属性。对于编码器结构的模型,我们通过创建没有特殊语义的词嵌入来获得预训练语言模型的生造词。

实验结果与发现

3.1记忆任务

通过对实验数据的分析,我们发现:BERT 和 RoBERTa 模型可以记忆一定的本体知识,但并不完美。

BERT和 RoBERTa 在记忆任务中击败了一个较强的频率基线模型。这表明,在预训练过程中,语言模型不仅学习了关于实体的事实性知识,而且学习了事实背后更加抽象的本体关系,这对于模型更好地组织对于世界的认识至关重要。然而,模型在五个子任务上的准确率还有很大提升空间,表明模型对本体知识记忆的局限性。

39d278e8-3ab3-11ee-9e74-dac502259ad0.png

ChatGPT 相比于 BERT 模型,在记忆任务中准确率有了显著提升。

由于多项选择与填空的难度并不直接可比,我们将多项选择形式的提示词输入给 BERT-base-uncased 模型,并与 ChatGPT 进行比较。从下表可以看出,在大多数与本体知识相关的记忆任务中,ChatGPT 在准确性方面明显优于 BERT-base-uncased,展现出更强的本体知识记忆能力。

3a29db92-3ab3-11ee-9e74-dac502259ad0.png

3.2推理任务

通过对实验数据的分析,我们发现:BERT 和 RoBERTa 模型对本体知识的理解也是比较有限的。

下图展示了对所有推理规则和 BERT 与 RoBERTa 模型取平均之后的推理表现。当输入文本中明确给出 时,模型能够显著提高正确答案的排名。由于 包含了需要预测的正确答案,这就使人怀疑表现的提升并非通过逻辑推理获得的,而是因为模型倾向于预测输入中出现的词及相关词汇。 当前提被隐式给定时,MRR 高于前提末给定时。这意味着一定程度上,预训练语言模型可以利用编码的本体知识,选择正确的推理规则进行推理。但是,所有的前提组合都不能给出近乎完美(MRR 接近 1)的推理表现,说明预训练语言模型对本体知识的理解能力仍具有局限性。

3a506c76-3ab3-11ee-9e74-dac502259ad0.png

ChatGPT 具有更强大的推理和理解本体知识的能力。

当模型输入或记忆中包含推理前提时,ChatGPT 在各项推理子任务中展现出了很高的准确性。同时,与 BERT-base-uncased 模型相比,ChatGPT 的显式推理能力也更加优秀(97.1% vs 88.2%)。

3a70d74a-3ab3-11ee-9e74-dac502259ad0.png

总结

在本研究中,我们对预训练语言模型是否能够在预训练过程中对本体知识进行有效编码以及是否能够深入理解语义内容进行了全面系统的探讨,发现语言模型确实具备一定的能力来记忆和理解本体知识,并且能够根据这些隐含的知识遵循本体知识推理规则进行一定程度的推理。然而,模型的记忆和推理都具有局限性。同时,ChatGPT 在两个任务上的亮眼表现证明了模型对本体知识的记忆和理解仍具有进一步提升的可能。

责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1073

    浏览量

    40158
  • 数据
    +关注

    关注

    8

    文章

    6511

    浏览量

    87600
  • 语言模型
    +关注

    关注

    0

    文章

    434

    浏览量

    10044
  • 自然语言处理

    关注

    1

    文章

    509

    浏览量

    13101
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1104

原文标题:ACL 2023杰出论文 | 探测语言模型对本体知识的记忆与理解

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    探索高效的大型语言模型大型语言模型的高效学习方法

    大型语言模型(LLMs)的应用中,提示工程(Prompt Engineering)是一种关键技术,用于引导模型生成特定输出或执行特定
    发表于 12-13 14:21 321次阅读
    探索高效的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>!<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的高效学习方法

    【书籍评测活动NO.31】大语言模型:原理与工程实践

    深远影响,尤其优化业务流程和重塑组织结构方面。然而,研究和实践过程,我们遇到了一个主要挑战:市场上缺乏大语言
    发表于 03-18 15:49

    c语言实际生活的应用

    c语言实际生活的应用,前两天有个大一的同学问我:为什么要学习C语言,听学长说好像要用它过国家的二级?!这个回答很实用,因为相关专业的同学
    发表于 07-20 08:18

    C语言实际的应用是什么?

    C语言实际的应用是什么?
    发表于 11-11 06:28

    KT利用NVIDIA AI平台训练大型语言模型

    韩国先进的移动运营商构建包含数百亿个参数的大型语言模型,并使用 NVIDIA DGX SuperPOD 平台和 NeMo Megatron 框架训练该模型
    的头像 发表于 09-27 09:24 955次阅读

    基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

    。 这一联合团队的研究指出,经过基因组学训练的大型语言模型(LLM)可将应用扩展到大量基因组学任务。 该团队使用 NVIDIA 的超级计算机 Cambridge-1 来训练参数规模从
    的头像 发表于 01-17 01:05 461次阅读

    大型语言模型有哪些用途?

    大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。 AI 应用在大型语言模型的帮助下,可
    的头像 发表于 02-23 19:50 4295次阅读

    大型语言模型有哪些用途?大型语言模型如何运作呢?

    大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。
    的头像 发表于 03-08 13:57 7170次阅读

    一套开源的大型语言模型(LLM)—— StableLM

    对于任何没有额外微调和强化学习的预训练大型语言模型来说,用户得到的回应质量可能参差不齐,并且可能包括冒犯性的语言和观点。这有望随着规模、更好的数据、社区反馈和优化而得到改善。
    的头像 发表于 04-24 10:07 2211次阅读
    一套开源的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>(LLM)—— StableLM

    如何通过一个简单的方法来解锁大型语言模型的推理能力?

    近来NLP领域由于语言模型的发展取得了颠覆性的进展,扩大语言模型的规模带来了一系列的性能提升,然而单单是扩大模型规模对于一些具有
    的头像 发表于 05-10 11:13 1558次阅读
    如何通过一个简单的方法来解锁<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的推理能力?

    利用大语言模型做多模态任务

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。
    的头像 发表于 05-10 16:53 746次阅读
    利用大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>做多模态<b class='flag-5'>任务</b>

    浅析AI大型语言模型研究的发展历程

    大型语言模型研究的发展有三条技术路线:Bert 模式、GPT 模式、混合模式。其中国内大多采用混合模式, 多数主流大型语言
    发表于 06-09 12:34 3772次阅读
    浅析AI<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>研究的发展历程

    基于Transformer的大型语言模型(LLM)的内部机制

    本文旨在更好地理解基于 Transformer 的大型语言模型(LLM)的内部机制,以提高它们的可靠性和可解释性。 随着大型语言
    的头像 发表于 06-25 15:08 1037次阅读
    基于Transformer的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>(LLM)的内部机制

    大型语言模型的应用

       大型语言模型(LLM) 是一种深度学习算法,可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。大语言模型(LL
    的头像 发表于 07-05 10:27 1622次阅读

    训练大语言模型带来的硬件挑战

    生成式AI和大语言模型(LLM)正在以难以置信的方式吸引全世界的目光,本文简要介绍了大语言模型,训练这些模型带来的硬件
    的头像 发表于 09-01 17:14 1115次阅读
    训练大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>带来的硬件<b class='flag-5'>挑战</b>