0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

In-Context-Learning在更大的语言模型上表现不同

深度学习自然语言处理 来源:机器翻译学堂 2023-06-12 14:35 次阅读

最近,在语言模型领域取得了巨大的进展,部分是因为它们可以通过In-Context- Learning ( ICL)来完 成各种复杂的任务。在ICL中,模型在执行未见过的用例之前,会首先接收一些输入-标签对的示例。一 般来说,ICL对模型的增强,有以下原因:

按照上下文示例的格式,利用预训练阶段得到的语义先验知识来预测标签(例如,当看到带有“正面情感”和“负面情感”标签的电影评论示例,使用先验知识来做情感分析)。

从给的上下文示例中学习输入-标签的映射(例如,正面评论应该映射到一个标签,负面评论应该映射到另一个标签的模式)。

在本文中,我们旨在了解这两个因素(语义先验知识和输入-标签映射)在ICL的影响,尤其是当语言模 型的规模发生变化时。我们通过2种实验方法来对这两个因素进行研究,实验方法分别为:翻转标签的 ICL (flipped-label ICL)和语义无关标签的ICL ( SUL- ICL)。

在翻转标签的ICL中,上下文示例的标签的语义被翻转(例如原先的标签为“Negative”,被反转为 “Positive”),使得语义先验知识和输入-标签映射不匹配。

ps:可以理解为,语义先验知识中与该上下文示例相似的标签都是“Negative”的,但是此处通过“翻转标签”方法,变为“Positive”后,先验知识与当前的上下文示例的输入-标签映射产生了不匹配。

在SUL- ICL中,上下文示例的标签被替换为与上下文中所呈现的任务在语义上无关的词语(例如,原 先的标签“Positive”,被替换为"Foo")。

ps:例如,原先的标签为影评领域的,现在替换为美食或者其他领域的词

我们发现,覆盖先验知识是随着模型规模的增大而涌现的一种能力(ps:覆盖先验知识可以理解为,从上 下文示例中学习,而不是预训练阶段的先验知识),从语义无关标签的上下文中学习的能力也是如此。我们还发现,指令微调(Instruct-tuning)对学习先验知识能力的加强上要超过对学习输入-标签映射的 增强。(下图为普通ICL,翻转标签ICL和语义无关ICL的示例)

wKgaomSGvN6AMWlZAAE8xuVcMYQ976.jpg

实验设计

我们在七个广泛使用的自然语言处理(NLP)任务上进行了实验:情感分析、主/客观分类、问题分类、 重复问题识别、蕴含关系识别、金融情感分析和仇恨言论检测。我们在5种LLM上进行测试:PaLM、Flan- PaLM、GPT-InstructGPT和Codex。

翻转标签(Flipped Labels-ICL)

在这个实验中,上下文示例的标签被翻转,意味着先验知识和输入-标签映射不一致(例如,包含正面情 感的句子被标记为“Negative”),从而让我们可以研究模型是否能够覆盖其先验知识。在这种情况下, 具备覆盖先验知识能力的模型的性能应该会下降(因为真实的评估标签没有被翻转)。(下图为使用翻 转标签ICL后,不同语言模型的不同尺寸的在测试集上的准确率变化)

wKgZomSGvO-AQoBpAADCMu1yPK4646.jpg

我们发现,当没有标签被翻转时,大型模型的性能优于小型模型(如预期所示)。但是,当我们翻转越来越多的标签时,小型模型的性能保持相对稳定,而大型模型的性能下降得非常明显,甚至低于随机猜 测的水平(例如,对于code-davinci-002模型,性能从90%下降到22.5%)。

这些结果表明,当上下文中出现与先验知识不一致的输入-标签映射时,大型模型可以覆盖预训练的先验 知识,而小型模型则无法做到。

‍作者说:此处,我理解为,更大的语言模型在覆盖先验知识的能力上更强,也就是更容易从给的上下文示例中学习到新的知识,如果给的上下文示例中存在与先验知识冲突的情况,则模型会更加偏重上下文示例。

语义无关标签(SUL-ICL)

在这个实验中,我们将标签替换为语义不相关的标签(例如,在情感分析中,我们使用“foo/bar”代替 “negative/positive”),这意味着模型只能通过学习输入-标签映射来执行ICL。如果模型在ICL中主要依 赖于先验知识,那么在进行这种更改后,其性能应该会下降,因为它将无法再利用标签的语义含义进行 预测。而如果模型能够在上下文中学习输入-标签映射,它就能够学习这些语义无关的映射,并且不应该 出现主要性能下降。

(下图为使用语义无关标签ICL后,不同语言模型的不同尺寸的在测试集上的准确率变化)

wKgZomSGvP6ARzwhAACviOyRZZI230.jpg

事实上,我们发现对于小型模型来说,使用语义无关标签导致了更大的性能下降。这表明,小型模型主要依赖于它们的语义先验知识进行ICL,而不是从给的的输入-标签映射示例中学习。另一方面,当这些标签标签不再具备其原来所有的语义时,大型模型的学习上下文中的输入-标签映射的能力更强。

我们还发现,模型输入更多的上下文示例对于大型模型的性能的提升要强于小模型,这表明大型模型比 小型模型更擅长从上下文示例中学习。

(下图为使用不同数量的语义无关标签ICL后,不同语言模型的不同尺寸的在测试集上的准确率变化)

wKgaomSGvQyABsu6AACtcOu_hfE481.jpg

指令微调(Instruction tuning)

指令微调是一种提高模型性能的常用技术,它将各种自然语言处理(NLP)任务调整为指令的形式输入 给模型(例如,“问题:以下句子的情感是什么?答案:积极的“)。然而,由于该过程使用自然语言标签,一个悬而未决的问题是,它是否提高了学习输入-标签映射的能力,亦或是增强了学习并应用语义先验知识的能力。这两者都会给ICL任务带来性能提升,因此目前尚不清楚这两者中哪一个生效了。

我们通过前两个实验方法继续研究这个问题,但这一次我们专注于比较标准语言模型(PaLM)与经过指令微调的模型(Flan- PaLM)之间的差异。

首先,我们发现在使用语义无关标签时, Flan- PaLM要优于PaLM。在小型模型中,这种效果非常明显, Flan- PaLM-8B的性能超过PaLM-8B约9.6%,并且接近PaLM-62B的性能。这一趋势表明,指令微调增强了学习输入-标签映射的能力。

(下图表明:指令微调后的模型更容易学习输入-标签映射)

wKgZomSGvR6AMFQ_AACRdATvFiU433.jpg

更有趣的是,我们发现Flan- PaLM在遵循翻转标签方面实际上比PaLM要差,这意味着经过指令调整的模型无法覆盖其先验知识(Flan- PaLM模型在100%翻转标签的情况下无法达到低于随机猜测 的水平,而没有经过指令调整的PaLM模型在相同设置下可以达到31%的准确率)。这些结果表明,指令调整必须增加模型在有语义先验知识可用时依赖于语义先验知识的程度。

(下图表示:指令微调后的模型,在使用翻转标签ICL时,更不容易覆盖先验知识)

wKgZomSGvSyAeu9yAABrlAO52H0196.jpg

结合之前的结果,我们得出结论,虽然指令微调提高了学习输入-标签映射的能力,但它在学习语义先验 知识上的加强更为突出。

结论

通过上述实验,可以得到以下的结论:

首先,大语言模型可以在输入足够多的翻转标签的情况下学会对先验知识的覆盖,并且这种能力随 着模型规模的增大而加强。

其次,使用语义无关标签进行上下文学习的能力随着模型规模的增大而加强。

最后,通过对指令微调后的语言模型的研究,发现指令微调虽然可以提高学习输入-标签映射的能 力,但远不如其对学习语义先验知识的加强。

未来工作

这些结果强调了语言模型的ICL行为在模型规模方面可能发生变化,而更大的语言模型具有将输入映射到更多种类型标签的能力,这可能使得模型可以学习任意符号的输入-标签映射。未来的研究可以帮助我们更好地理解这种现象。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Palm
    +关注

    关注

    0

    文章

    22

    浏览量

    11207
  • icl
    icl
    +关注

    关注

    0

    文章

    28

    浏览量

    17166
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21824

原文标题:In-Context-Learning在更大的语言模型上表现不同

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    大型语言模型的逻辑推理能力探究

    最新研究揭示,尽管大语言模型LLMs在语言理解上表现出色,但在逻辑推理方面仍有待提高。为此,研究者们推出了GLoRE,一个全新的逻辑推理评估基准,包含12个数据集,覆盖三大任务类型。
    的头像 发表于 11-23 15:05 536次阅读
    大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的逻辑推理能力探究

    Ensemble Learning Task

    15 的主要学习内容是蒸汽量预测案例分析目录背景介绍数据信息评价指标数据字典数据分布核密度估计相关性矩阵归一化特征工程模型搭建与集成背景介绍火力发电的基本原理是:燃料燃烧时加热水生成蒸汽,蒸汽压
    发表于 07-07 07:06

    HarmonyOS/OpenHarmony应用开发-Stage模型ArkTS语言AbilityStage

    进行初始化时回调。context接口示例:*附件:HarmonyOSOpenHarmony应用开发-stage模型ArkTS语言AbilityStage.docx
    发表于 04-07 15:16

    微软视觉语言模型有显著超越人类的表现

    最近开发了一种新的图像编码对象属性检测模型,称为VinVL(Visual features in Vision-Language),有着显著超越人类的表现
    的头像 发表于 01-19 14:32 1504次阅读

    应用于任意预训练模型的prompt learning模型—LM-BFF

    /2107.13586.pdf 相关资源:http://pretrain.nlpedia.ai Part1什么是Prompt Learning 从BERT诞生开始,使用下游任务数据微调预训练语言模型 (LM)已成为
    的头像 发表于 08-16 11:21 4266次阅读
    应用于任意预训练<b class='flag-5'>模型</b>的prompt <b class='flag-5'>learning</b><b class='flag-5'>模型</b>—LM-BFF

    预训练语言模型的字典描述

    今天给大家带来一篇IJCAI2022浙大和阿里联合出品的采用对比学习的字典描述知识增强的预训练语言模型-DictBERT,全名为《Dictionary Description Knowledge
    的头像 发表于 08-11 10:37 921次阅读

    文本噪声标签在预训练语言模型(PLMs)上的特性

    数据的标签错误随处可见,如何在噪声数据集上学习到一个好的分类器,是很多研究者探索的话题。在 Learning With Noisy Labels 这个大背景下,很多方法在图像数据集上表现出了非常好的效果。
    的头像 发表于 10-12 09:50 872次阅读

    一文解析In-Context Learning

    本文主要以实验为主,探究以上影响 ICL 的因素。 实验设置 作者采用 12 个模型进行了实验。我们包括 6 种语言模型(表 1),所有这些模型都是仅限解码器的 dense L
    发表于 03-22 15:21 1439次阅读

    In-context learning如何工作?斯坦福学者用贝叶斯方法解开其奥秘

    In-context learning允许用户为新用例快速构建模型,而无需为每个任务微调和存储新参数。它通常只需要很少的训练示例就可以使模型正常工作,而且即使对于非专家来说,也可以通过
    的头像 发表于 04-11 14:07 1084次阅读

    In-context learning介绍

    随着大规模预训练语言模型(LLM)能力的不断提升,in-context learning(ICL)逐渐成为自然语言处理领域一个新的范式。
    的头像 发表于 04-21 10:02 1079次阅读

    模型表现方面有意思的成果

    若干年前,AlphaGo Zero用两个AI代理切磋围棋技艺,打败了人类。今早,符尧的一篇论文刷新了我的认知:让大语言模型相互对弈,再加一个评论家提供建设性意见,提高菜市场砍价技巧!这种模式被作者
    的头像 发表于 05-23 14:55 296次阅读
    <b class='flag-5'>模型</b><b class='flag-5'>表现</b>方面有意思的成果

    模型LLM领域,有哪些可以作为学术研究方向?

    随着全球大炼模型不断积累的丰富经验数据,人们发现大模型呈现出很多与以往统计学习模型、深度学习模型、甚至预训练小模型不同的特性,耳熟能详的如F
    的头像 发表于 05-29 14:36 790次阅读
    大<b class='flag-5'>模型</b>LLM领域,有哪些可以作为学术研究方向?

    首篇!Point-In-Context:探索用于3D点云理解的上下文学习

    随着基于广泛数据训练的大模型兴起,上下文学习(In-Context Learning)已成为一种新的学习范式,在自然语言处理(NLP)和计算机视觉(CV)任务中
    的头像 发表于 07-13 14:41 419次阅读
    首篇!Point-In-<b class='flag-5'>Context</b>:探索用于3D点云理解的上下文学习

    关于GO CONTEXT机制实现原则

    Context接口没有提供方法来设置其值和过期时间,也没有提供方法直接将其自身撤销。也就是说,Context不能改变和撤销其自身。那么该怎么通过Context传递改变后的状态呢?
    的头像 发表于 11-16 16:15 180次阅读

    语言模型简介:基于大语言模型模型全家桶Amazon Bedrock

    本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶:Bedrock对大语言模型进行介绍。大语言模型
    的头像 发表于 12-04 15:51 411次阅读