0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Prompt范式你们了解多少

深度学习自然语言处理 来源:李rumor 作者:rumor 2021-09-10 10:22 次阅读

卷友们好,我是rumor。

之前我学习Prompt范式的源起PET后就鸽了很久,相信卷友们已经把Prompt的论文都追完了,把我远远地落在了后面。周末我不甘被卷,奋起直追,连刷三篇paper,希望能赶上大家学习的步伐。

Prefix-tuning- Optimizing continuous prompts for generation

P-tuning-GPT Understands, Too

Prompt-tuning-The Power of Scale for Parameter-Efficient Prompt Tuning

自动化Prompt

Prompt范式的第一个阶段,就是在输入上加Prompt文本,再对输出进行映射。但这种方式怎么想都不是很优雅,无法避免人工的介入。即使有方法可以批量挖掘,但也有些复杂(有这个功夫能标不少高质量语料),而且模型毕竟是黑盒,对离散文本输入的鲁棒性很差:

323a6c1c-112f-11ec-8fb8-12bb97331649.jpg

怎么办呢?离散的不行,那就连续的呗

用固定的token代替prompt,拼接上文本输入,当成特殊的embedding输入,这样在训练时也可以对prompt进行优化,就减小了prompt挖掘、选择的成本。

如何加入Prompt

前面的想法非常单纯,但实际操作起来还是需要些技巧的。

Prefix-tuning

Prefix-tuning是做生成任务,它根据不同的模型结构定义了不同的Prompt拼接方式,在GPT类的自回归模型上采用[PREFIX, x, y],在T5类的encoder-decoder模型上采用[PREFIX, x, PREFIX‘, y]:

3246ea32-112f-11ec-8fb8-12bb97331649.jpg

值得注意的还有三个改动:

把预训练大模型freeze住,因为大模型参数量大,精调起来效率低,毕竟prompt的出现就是要解决大模型少样本的适配

作者发现直接优化Prompt参数不太稳定,加了个更大的MLP,训练完只保存MLP变换后的参数就行了

实验证实只加到embedding上的效果不太好,因此作者在每层都加了prompt的参数,改动较大

P-tuning

P-tuning是稍晚些的工作,主要针对NLU任务。对于BERT类双向语言模型采用模版(P1, x, P2, [MASK], P3),对于单向语言模型采用(P1, x, P2, [MASK]):

3254d11a-112f-11ec-8fb8-12bb97331649.jpg

同时加了两个改动:

考虑到预训练模型本身的embedding就比较离散了(随机初始化+梯度传回来小,最后只是小范围优化),同时prompt本身也是互相关联的,所以作者先用LSTM对prompt进行编码

在输入上加入了anchor,比如对于RTE任务,加上一个问号变成[PRE][prompt tokens][HYP]?[prompt tokens][MASK]后效果会更好

P-tuning的效果很好,之前的Prompt模型都是主打小样本效果,而P-tuning终于在整个数据集上超越了精调的效果:

32612dde-112f-11ec-8fb8-12bb97331649.jpg

虽然P-tuning效果好,但实验对比也有些问题,它没有freeze大模型,而是一起精调的,相当于引入了额外的输入特征,而平时我们在输入加个词法句法信息也会有提升,所以不能完全肯定这个效果是prompt带来的。同时随着模型尺寸增大,精调也会更难。

Prompt-tuning

Prompt-tuning就更加有信服力一些,纯凭Prompt撬动了大模型。

Prompt-tuning给每个任务定义了自己的Prompt,拼接到数据上作为输入,同时freeze预训练模型进行训练,在没有加额外层的情况下,可以看到随着模型体积增大效果越来越好,最终追上了精调的效果:

326f312c-112f-11ec-8fb8-12bb97331649.jpg

同时,Prompt-tuning还提出了Prompt-ensembling,也就是在一个batch里同时训练同一个任务的不同prompt,这样相当于训练了不同「模型」,比模型集成的成本小多了。

其他Trick

除了怎么加Prompt之外,Prompt向量的初始化和长度也有所讲究。

Prompt初始化

Prefix-tuning采用了任务相关的文字进行初始化,而Prompt-tuning发现在NLU任务上用label文本初始化效果更好。不过随着模型尺寸的提升,这种gap也会最终消失。

3285c892-112f-11ec-8fb8-12bb97331649.jpg

Prompt长度

从Prompt-tuning的实验可以看到,长度在10-20时的表现已经不错了,同时这个gap也会随着模型尺寸的提升而减小。

329143c0-112f-11ec-8fb8-12bb97331649.jpg

总结

要说上次看PET时我对Prompt范式还是将信将疑,看完这几篇之后就比较认可了。尤其是Prompt-tuning的一系列实验,确实证明了增加少量可调节参数可以很好地运用大模型,并且模型能力越强,所需要的prompt人工调参就越少。

这种参数化Prompt的方法除了避免「人工」智能外,还有一方面就是省去了Y的映射。因为在精调的过程中,模型的输出就被拿捏死了,而且Prompt-tuning还用label初始化Prompt,更加让模型知道要输出啥。

Finally,终于追上了前沿,大家的鬼点子可真多啊。

来源:李rumor

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PET
    PET
    +关注

    关注

    1

    文章

    43

    浏览量

    18632
  • MLPM
    +关注

    关注

    0

    文章

    2

    浏览量

    6785
  • prompt
    +关注

    关注

    0

    文章

    12

    浏览量

    2636

原文标题:Prompt范式,真香

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    复盘与分析:Sora是如何成功的?

    从技术路线看,依旧遵从LLM范式“大力出奇迹”,通过patches向量化与transformer架构结合,使得训练数据能够使用大小、尺寸、分辨率不同的视频,能够让模型学习到视频的规律乃至世界的规律;使用GPT生成prompt,在训练和推理过程中解决了模态之间的对齐问题,大
    的头像 发表于 02-25 16:44 253次阅读
    复盘与分析:Sora是如何成功的?

    如何从训练集中生成候选prompt 三种生成候选prompt的方式

    这个“gradient”怎么得到的了呢,这是个啥玩意,怎么还有梯度?注意,注意。人家是带引号的!比喻成梯度。这玩意有什么用呢。 文章指出给定一批error samples(当前prompt无法
    的头像 发表于 01-12 11:29 388次阅读
    如何从训练集中生成候选<b class='flag-5'>prompt</b> 三种生成候选<b class='flag-5'>prompt</b>的方式

    workflow异步任务调度编程范式

    ,workflow是一个异步任务调度编程范式,封装了6种异步资源:CPU计算、GPU计算、网络、磁盘I/O、定时器、计数器,以回调函数模式提供给用户使用,概括起来实际上主要是两个功能:1、屏蔽阻塞调用的影响,使阻塞调用的开发接口变为异步的,充分利用计算资
    的头像 发表于 11-09 09:42 211次阅读
    workflow异步任务调度编程<b class='flag-5'>范式</b>

    FPC阻抗你们用什么软件模拟呀

    FPC阻抗你们用什么软件模拟呀,比如25um的PI,铜厚12um,线宽0.1和0.12mm,阻抗相差多少
    发表于 11-03 19:36

    prompt在AI中的翻译是什么意思?

    效地完成任务。 Prompt技术可以帮助AI系统快速了解任务的背景、情境以及用户的意图,并提供指导AI系统在特定的情境下如何采取下一步行动。通过使用Prompt技术,AI系统可以更加准确地理解用户的需求,它可以使用历史数据和已经
    的头像 发表于 08-22 15:59 2075次阅读

    什么是编程范式?常见的编程范式有哪些?各大编程范式详解

    本文给大家介绍了什么是"编程范式",选择合适的编程范式可以提高代码的可读性、可维护性和可扩展性。
    发表于 08-10 10:29 1351次阅读

    清华&amp;西电提出HumanMAC:人体动作预测新范式

    人体动作预测是计算机视觉和图形学中的一个经典问题,旨在提升预测结果的多样性、准确性,并在自动驾驶、动画制作等多领域有非常多具体的应用。本研究梳理了今年来大家对于该问题的建模方式,认为以往的大多数工作对于动作预测任务都是使用一种encoding-decoding的范式
    的头像 发表于 07-17 16:56 326次阅读
    清华&amp;西电提出HumanMAC:人体动作预测新<b class='flag-5'>范式</b>

    不确定性时代下的新投资范式

    对此,广发证券在研报中指出,全球新投资范式的表象是拥抱“确定性资产”,这种确定性一方面体现为低估低波稳定分红永续经营的确定性,另一方面是新科技创新周期的远景确定性,本质都是对确定性资产给予持续的溢价。
    的头像 发表于 07-10 10:51 485次阅读
    不确定性时代下的新投资<b class='flag-5'>范式</b>

    河套IT TALK96:(原创)GPT技术揭秘:解锁提示工程的潜能

    1. 什么是Prompt? 自从人工智能生成内容AIGC(Artificial Intelligence Generated Content)火了之后,就各种听得Prompt(提示)这个词儿。那到底
    的头像 发表于 06-27 21:05 348次阅读

    5G时代,云游戏的三个范式转变

    能成为影响成败的关键因素,网络性能的重要性不言而喻......本文中,我们将从三个角度,为您梳理未来几年移动云游戏的范式转变。 迈向新范式 高性能游戏随处可玩! 实现范 式的转变 ,需要在网络、计算、游戏三个领域之间,构成一个
    的头像 发表于 06-20 19:10 378次阅读

    同行丨蓝卓赵伟:用长期主义构建工业数字化转型新范式

    原文标题:同行丨蓝卓赵伟:用长期主义构建工业数字化转型新范式 文章出处:【微信公众号:软通动力】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 06-15 17:35 317次阅读
    同行丨蓝卓赵伟:用长期主义构建工业数字化转型新<b class='flag-5'>范式</b>

    重磅|群智范式项目及AtomGit代码协作平台测试上线发布

    6月11日,在2023开放原子全球开源峰会开幕式上,群智范式项目及AtomGit代码协作平台测试上线发布! 开源已经成为软件技术创新的重要模式,正在推动整个IT产业及其他领域的创新活动和发展
    的头像 发表于 06-11 18:35 534次阅读

    河套IT TALK 86:(原创)谈谈对陆奇演讲中“范式”迁移的理解

    奇绩论坛创始人陆奇今年的演讲《新范式、新时代、新机会》感触良多,智愿君决定写一点儿心得体会。 陆奇开篇就谈到了以OpenAI为代表的大模型标志着新范式的到来
    的头像 发表于 05-27 19:15 694次阅读
    河套IT TALK 86:(原创)谈谈对陆奇演讲中“<b class='flag-5'>范式</b>”迁移的理解

    Google GPipe为代表的流水线并行范式

    但在实际应用中,流水线并行并不特别流行,主要原因是模型能否均匀切割,影响了整体计算效率,这就需要算法工程师做手调。因此,今天我们来介绍一种应用最广泛,最易于理解的并行范式:数据并行。
    的头像 发表于 05-26 14:40 645次阅读
    Google GPipe为代表的流水线并行<b class='flag-5'>范式</b>

    近期分割大模型发展情况

    SAM(Segment Anything Model)Meta 的 FAIR 实验室发布的一种最先进的图像分割模型,该模型将自然语言处理领域的prompt范式引入计算机视觉领域,可以通过点击、框选和自动识别三种交互方式,实现精准的图像分割,突破性地提升了图像分割的效率。
    的头像 发表于 05-22 16:26 536次阅读
    近期分割大模型发展情况