0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LeCun新作:全面综述下一代「增强语言模型」

深度学习自然语言处理 来源:新智元 2023-03-03 11:03 次阅读

【导读】语言模型该怎么增强?

ChatGPT算是点燃了语言模型的一把火,NLP的从业者都在反思与总结未来的研究方向。

70884f64-b91e-11ed-bfe3-dac502259ad0.png

最近图灵奖得主Yann LeCun参与撰写了一篇关于「增强语言模型」的综述,回顾了语言模型与推理技能和使用工具的能力相结合的工作,并得出结论,这个新的研究方向有可能解决传统语言模型的局限性,如可解释性、一致性和可扩展性问题。

709c89c0-b91e-11ed-bfe3-dac502259ad0.png

论文链接:https://arxiv.org/abs/2302.07842

增强语言模型中,推理意为将复杂的任务分解为更简单的子任务,工具包括调用外部模块(如代码解释器、计算器等),LM可以通过启发式方法单独使用或组合利用这些增强措施,或者通过演示学习实现。

在遵循标准的missing token预测目标的同时,增强的LM可以使用各种可能是非参数化的外部模块来扩展上下文处理能力,不局限于纯语言建模范式,可以称之为增强语言模型(ALMs, Augmented Language Models)。

missing token的预测目标可以让ALM学习推理、使用工具甚至行动(act),同时仍然能够执行标准的自然语言任务,甚至在几个基准数据集上性能超过大多数常规LM。

增强语言模型

大型语言模型(LLMs)推动了自然语言处理的巨大进步,并且已经逐步成为数百万用户所用产品的技术核心,包括写代码助手Copilot、谷歌搜索引擎以及最近发布的ChatGPT。

Memorization 与Compositionality 能力相结合,使得LLM能够以前所未有的性能水平执行各种任务,如语言理解或有条件和无条件的文本生成,从而为更广泛的人机互动开辟了一条实用的道路。

然而,目前LLM的发展仍然受到诸多限制,阻碍了其向更广泛应用场景的部署。比如LLMs经常提供非事实但看似合理的预测,也被称为幻觉(hallucinations),很多错误其实完全是可以避免的,包括算术问题和在推理链中出现的小错误。

70b02b60-b91e-11ed-bfe3-dac502259ad0.png

此外,许多LLM的突破性能力似乎是随着规模的扩大而出现的,以可训练参数的数量来衡量的话,之前的研究人员已经证明,一旦模型达到一定的规模,LLM就能够通过few-shot prompting来完成一些BIG-bench任务。

尽管最近也有工作训练出了一些较小的LMs,同时还能保留一些大模型的能力,但当下LLMs的规模和对数据的需求对于训练和维护都是不切实际的:大型模型的持续学习仍然是一个开放的研究问题。

Meta的研究人员们认为这些问题源于LLMs的一个基本缺陷:其训练过程就是给定一个参数模型和有限的上下文(通常是n个前后的词),然后进行统计语言建模。

虽然近年来,由于软件和硬件的发展,上下文尺寸n一直在增长,但大多数模型仍然使用相对较小的上下文尺寸,所以模型的巨大规模是储存没有出现在上下文知识的一个必要条件,对于执行下游任务来说也很关键。

70c1b448-b91e-11ed-bfe3-dac502259ad0.png

因此,一个不断增长的研究趋势就是用稍微偏离上述的纯统计语言建模范式的方式来解决这些问题。

例如,有一项工作是通过增加从「相关外部文件中提取的信息」计算相关度来规避LLM的有限语境尺寸的问题。通过为LMs配备一个检索模块,从数据库中检索出给定语境下的此类文档,从而实现与更大规模LM的某些能力相匹配,同时拥有更少的参数。

需要注意的是,现在产生的模型是非参数化的,因为它可以查询外部数据源。更一般的,LM还可以通过推理策略改善其上下文,以便在生成答案之前生成更相关的上下文,通过更多的计算来提升性能。

另一个策略是允许LM利用外部工具,用LM的权重中不包含的重要缺失信息来增强当前语境。尽管这些工作大多旨在缓解上述LM的缺点,但可以直接想到,更系统地用推理和工具来增强LM,可能会导致明显更强大的智能体。

研究人员将这些模型统称为增强语言模型(ALMs)。

随着这一趋势的加速,跟踪和理解众多模型变得十分困难,需要对ALMs的工作进行分类,并对有时出于不同目的而使用的技术术语进行定义。

推理Reasoning

在ALM的背景下,推理是将一个潜在的复杂任务分解成更简单的子任务,LM可以自己或使用工具更容易地解决。

目前有各种分解子任务的方法,例如递归或迭代,在某种意义上来说,推理类似于LeCun于2022年发表论文「通往自主机器智能的路线」中定义的计划。

70d83be6-b91e-11ed-bfe3-dac502259ad0.png

论文链接:

https://openreview.net/pdf?id=BZ5a1r-kVsf

在这篇survey中,推理指的是提高LM中推理能力的各种策略,比如利用少量的几个例子进行step-by-step推理。虽然目前还没有完全理解LM是否真的在推理,或者仅仅是产生了一个更大的背景,增加了正确预测missing tokens的可能性。

鉴于目前的技术水平,推理可能是一个被滥用的说法,但这个术语已经在社区内广泛使用了。在ALM的语境中,推理的一个更务实的定义是在得出prompt的答案之前给模型更多的计算步骤。

工具Tool

对于ALM来说,工具是一个外部模块,通常使用一个规则或一个特殊的token来调用,其输出包含在ALM的上下文中。

工具可以用来收集外部信息,或者对虚拟或物理世界产生影响(一般由ALM感知):比如说文件检索器可以用来作为获取外部信息的工具,或者用机器臂对外部影响进行感知。

工具可以在训练时或推理时被调用,更一般地说,模型需要学习与工具的互动,包括学习调用其API。

行为Act

对于ALM来说,调用一个对虚拟或物理世界有影响的工具并观察其结果,通常是将其纳入ALM的当前上下文。

这篇survey中介绍的一些工作讨论了在网络中搜索(seraching the web),或者通过LMs进行机械臂操纵。在略微滥用术语的情况下,有时会把ALM对一个工具的调用表示为一个行动(action),即使没有对外部世界产生影响。

为什么要同时讨论推理和工具?

LM中推理和工具的结合应该允许在没有启发式的情况下解决广泛的复杂任务,即具有更好的泛化能力。

通常情况下,推理会促进LM将一个给定的问题分解成可能更简单的子任务,而工具则有助于正确地完成每个步骤,例如从数学运算中获得结果。

换句话说,推理是LM结合不同工具以解决复杂任务的一种方式,而工具则是避免推理失败和有效分解的一种方式。

两者都应该受益于对方,并且推理和工具可以放在同一个模块里,因为二者都是通过增强LM的上下文来更好地预测missing tokens,尽管是以不同的方式。

为什么要同时讨论工具和行动?

收集额外信息的工具和对虚拟或物理世界产生影响的工具可以被LM以同样的方式调用。

例如,输出python代码解决数学运算的LM和输出python代码操纵机械臂的LM之间似乎没有什么区别。

这篇综述中讨论的一些工作已经在使用对虚拟或物理世界产生影响的LM,在这种观点下,我们可以说LM有行动的潜力,并期望在LM作为自主智能体的方向上取得重要进展。

分类方法

研究人员将综述中介绍的工作分解上述三个维度,并分别介绍,最后还讨论了其他维度的相关工作。

对读者来说,应该记得,其中很多技术最初是在LM之外的背景下引入的,如果需要的话,尽可能查看提到的论文的介绍和相关工作。

最后,尽管综述专注于LLM,但并非所有的相关工作都采用了大模型,而是以LM的正确性为宗旨。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    439

    浏览量

    10064
  • nlp
    nlp
    +关注

    关注

    1

    文章

    464

    浏览量

    21851
  • ChatGPT
    +关注

    关注

    27

    文章

    1432

    浏览量

    4966

原文标题:ChatGPT之后何去何从?LeCun新作:全面综述下一代「增强语言模型」

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【大语言模型:原理与工程实践】大语言模型的应用

    能力,它缺乏真正的“思考”过程。对于任何输入,大语言模型都会产生输出,但这仅仅是基于计算和预测下一个Token出现的概率。模型并不清楚自己的优势或劣势,也无法主动进行反思和纠正错误。提
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的评测

    计算和代码纠错等。这些场景覆盖日常生活和学习的多个方面,使得对话能力评测变得尤为复杂和关键。为了全面评估大语言模型在各种应用场景下的对话能力,研究人员和使用者需要套综合性的评测框架。
    发表于 05-07 17:12

    【大语言模型:原理与工程实践】大语言模型的预训练

    进行损失计算,得到下一个目标的预测。也会设计些其他辅助训练任务,与主任务共同训练。选择合适的预训练数据是确保模型性能和泛化能力的关键,通过对预训练数据进行混合配比,以确保能够获得全面
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》2.0

    读者更好地把握大语言模型的应用场景和潜在价值。尽管涉及复杂的技术内容,作者尽力以通俗易懂的语言解释概念,使得非专业背景的读者也能够跟上节奏。图表和示例的运用进
    发表于 05-07 10:30

    【大语言模型:原理与工程实践】大语言模型的基础技术

    全面剖析大语言模型的核心技术与基础知识。首先,概述自然语言的基本表示,这是理解大语言模型技术的
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】核心技术综述

    我也不打算把网上相关的信息在总结下,这样的话,工作量很大。 我主要看了-大语言模型基础技术这节 大语言模型(Large Language
    发表于 05-05 10:56

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    维基百科、网页内容和书籍等,不仅掌握了语言的语法、语义和上下文信息,还能生成结构连贯、语义合理的句子和段落。大语言模型个显著特点是其庞大的参数量,已达数亿甚至数十亿级别。这种规模赋
    发表于 05-04 23:55

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》

    《大语言模型》是本深入探讨人工智能领域中语言模型的著作。作者通过对语言
    发表于 04-30 15:35

    关于大模型在软件测试领域应用的全面综述

    模型(LLM)由于其卓越的自然语言理解、推理等能力,已经被应用于各种场景,取得了前所未有的效果。
    的头像 发表于 01-18 09:33 2103次阅读
    关于大<b class='flag-5'>模型</b>在软件测试领域应用的<b class='flag-5'>全面</b><b class='flag-5'>综述</b>

    语言模型简介:基于大语言模型模型全家桶Amazon Bedrock

    本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶:Bedrock对大语言模型进行介绍。大语言模型
    的头像 发表于 12-04 15:51 431次阅读

    媒体聚焦 | ​RENSAS瑞萨公开下一代车用处理器蓝图,全面拥抱平台化

    媒体聚焦 | ​RENSAS瑞萨公开下一代车用处理器蓝图,全面拥抱平台化
    的头像 发表于 11-28 13:34 235次阅读
    媒体聚焦 | ​RENSAS瑞萨公开<b class='flag-5'>下一代</b>车用处理器蓝图,<b class='flag-5'>全面</b>拥抱平台化

    检索增强语言模型方法的详细剖析

      本篇内容是对于ACL‘23会议上陈丹琦团队带来的Tutorial所进行的学习记录,以此从问题设置、架构、应用、挑战等角度全面了解检索增强语言模型,作为对后续工作的准备与入门,也希
    的头像 发表于 08-21 09:58 1342次阅读
    检索<b class='flag-5'>增强</b>的<b class='flag-5'>语言</b><b class='flag-5'>模型</b>方法的详细剖析

    支持大语言模型下一代AIoT系统该怎么做设计验证?

    ,大量抓住机遇的人,不仅投身大模型产品,还有一部分负责给“掘金人”卖铲子。   “  那么问题来了: 支持大语言模型的AIoT系统, 设计难度在哪? 该怎么做设计验证? 藏在“屠龙刀”里面的秘籍究竟是什么? ”   过去的AIo
    发表于 07-17 17:45 663次阅读
    支持大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的<b class='flag-5'>下一代</b>AIoT系统该怎么做设计验证?

    LeCun世界模型首个研究!自监督视觉像人一样学习和推理!

    今日,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型。该模型名为图像联合嵌入预测架构(Image Joint Embedding Predictive Archite
    的头像 发表于 06-15 15:47 237次阅读
    <b class='flag-5'>LeCun</b>世界<b class='flag-5'>模型</b>首个研究!自监督视觉像人一样学习和推理!

    LeCun世界模型首项研究来了:自监督视觉,已开源

    LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构。该架构可以通过堆叠的方式进行更抽象、更长期的预测。
    的头像 发表于 06-14 16:53 403次阅读
    <b class='flag-5'>LeCun</b>世界<b class='flag-5'>模型</b>首项研究来了:自监督视觉,已开源