0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Prompt范式你们了解多少

深度学习自然语言处理 来源:李rumor 作者:rumor 2021-09-10 10:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

卷友们好,我是rumor。

之前我学习Prompt范式的源起PET后就鸽了很久,相信卷友们已经把Prompt的论文都追完了,把我远远地落在了后面。周末我不甘被卷,奋起直追,连刷三篇paper,希望能赶上大家学习的步伐。

Prefix-tuning- Optimizing continuous prompts for generation

P-tuning-GPT Understands, Too

Prompt-tuning-The Power of Scale for Parameter-Efficient Prompt Tuning

自动化Prompt

Prompt范式的第一个阶段,就是在输入上加Prompt文本,再对输出进行映射。但这种方式怎么想都不是很优雅,无法避免人工的介入。即使有方法可以批量挖掘,但也有些复杂(有这个功夫能标不少高质量语料),而且模型毕竟是黑盒,对离散文本输入的鲁棒性很差:

323a6c1c-112f-11ec-8fb8-12bb97331649.jpg

怎么办呢?离散的不行,那就连续的呗

用固定的token代替prompt,拼接上文本输入,当成特殊的embedding输入,这样在训练时也可以对prompt进行优化,就减小了prompt挖掘、选择的成本。

如何加入Prompt

前面的想法非常单纯,但实际操作起来还是需要些技巧的。

Prefix-tuning

Prefix-tuning是做生成任务,它根据不同的模型结构定义了不同的Prompt拼接方式,在GPT类的自回归模型上采用[PREFIX, x, y],在T5类的encoder-decoder模型上采用[PREFIX, x, PREFIX‘, y]:

3246ea32-112f-11ec-8fb8-12bb97331649.jpg

值得注意的还有三个改动:

把预训练大模型freeze住,因为大模型参数量大,精调起来效率低,毕竟prompt的出现就是要解决大模型少样本的适配

作者发现直接优化Prompt参数不太稳定,加了个更大的MLP,训练完只保存MLP变换后的参数就行了

实验证实只加到embedding上的效果不太好,因此作者在每层都加了prompt的参数,改动较大

P-tuning

P-tuning是稍晚些的工作,主要针对NLU任务。对于BERT类双向语言模型采用模版(P1, x, P2, [MASK], P3),对于单向语言模型采用(P1, x, P2, [MASK]):

3254d11a-112f-11ec-8fb8-12bb97331649.jpg

同时加了两个改动:

考虑到预训练模型本身的embedding就比较离散了(随机初始化+梯度传回来小,最后只是小范围优化),同时prompt本身也是互相关联的,所以作者先用LSTM对prompt进行编码

在输入上加入了anchor,比如对于RTE任务,加上一个问号变成[PRE][prompt tokens][HYP]?[prompt tokens][MASK]后效果会更好

P-tuning的效果很好,之前的Prompt模型都是主打小样本效果,而P-tuning终于在整个数据集上超越了精调的效果:

32612dde-112f-11ec-8fb8-12bb97331649.jpg

虽然P-tuning效果好,但实验对比也有些问题,它没有freeze大模型,而是一起精调的,相当于引入了额外的输入特征,而平时我们在输入加个词法句法信息也会有提升,所以不能完全肯定这个效果是prompt带来的。同时随着模型尺寸增大,精调也会更难。

Prompt-tuning

Prompt-tuning就更加有信服力一些,纯凭Prompt撬动了大模型。

Prompt-tuning给每个任务定义了自己的Prompt,拼接到数据上作为输入,同时freeze预训练模型进行训练,在没有加额外层的情况下,可以看到随着模型体积增大效果越来越好,最终追上了精调的效果:

326f312c-112f-11ec-8fb8-12bb97331649.jpg

同时,Prompt-tuning还提出了Prompt-ensembling,也就是在一个batch里同时训练同一个任务的不同prompt,这样相当于训练了不同「模型」,比模型集成的成本小多了。

其他Trick

除了怎么加Prompt之外,Prompt向量的初始化和长度也有所讲究。

Prompt初始化

Prefix-tuning采用了任务相关的文字进行初始化,而Prompt-tuning发现在NLU任务上用label文本初始化效果更好。不过随着模型尺寸的提升,这种gap也会最终消失。

3285c892-112f-11ec-8fb8-12bb97331649.jpg

Prompt长度

从Prompt-tuning的实验可以看到,长度在10-20时的表现已经不错了,同时这个gap也会随着模型尺寸的提升而减小。

329143c0-112f-11ec-8fb8-12bb97331649.jpg

总结

要说上次看PET时我对Prompt范式还是将信将疑,看完这几篇之后就比较认可了。尤其是Prompt-tuning的一系列实验,确实证明了增加少量可调节参数可以很好地运用大模型,并且模型能力越强,所需要的prompt人工调参就越少。

这种参数化Prompt的方法除了避免「人工」智能外,还有一方面就是省去了Y的映射。因为在精调的过程中,模型的输出就被拿捏死了,而且Prompt-tuning还用label初始化Prompt,更加让模型知道要输出啥。

Finally,终于追上了前沿,大家的鬼点子可真多啊。

来源:李rumor

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PET
    PET
    +关注

    关注

    1

    文章

    48

    浏览量

    19208
  • MLPM
    +关注

    关注

    0

    文章

    2

    浏览量

    6905
  • prompt
    +关注

    关注

    0

    文章

    16

    浏览量

    2886

原文标题:Prompt范式,真香

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    混合MI-SSVEP是否真的是更优的范式

    HUIYING稳态视觉诱发电位(SSVEP)范式概述稳态视觉诱发电位是一种基于视觉刺激的脑机接口范式,当用户注视以固定频率(如6.67Hz或8.57Hz)闪烁的视觉刺激时,大脑枕区视觉皮层会产生
    的头像 发表于 04-12 16:21 814次阅读
    混合MI-SSVEP是否真的是更优的<b class='flag-5'>范式</b>?

    沐曦曦索GPU产品赋能AI4S重塑材料研发新范式

    2026年1月29日,“AI4Science 前沿:材料研发计算新范式——国产算力×深度学习框架技术沙龙·上海站”在张江百度飞桨人工智能产业赋能中心举办。
    的头像 发表于 02-10 14:28 652次阅读

    结构、材料、工艺三位一体:新一代航空发动机协同创新范式与颠覆性技术路径研究

    航空发动机技术是衡量国家综合科技实力与高端制造水平的战略性标志,其发展遵循着“一代发动机、一代结构、一代材料、一代工艺”的内在规律。当前,航空动力领域正经历从传统设计范式向结构-材料-工艺深度融合范式的革命性转变。
    的头像 发表于 01-06 10:28 823次阅读
    结构、材料、工艺三位一体:新一代航空发动机协同创新<b class='flag-5'>范式</b>与颠覆性技术路径研究

    锐捷极简以太彩光网络解决方案入选《“AI中国”生态范式案例集(2025)》

    由新华网主办,赛迪网承办的2025企业家博鳌论坛“人工智能 +”生态范式分论坛在海南博鳌圆满举办。会上发布了《“AI中国”生态范式案例集(2025)》重要成果,锐捷极简以太彩光网络解决方案凭借
    的头像 发表于 12-12 10:47 283次阅读
    锐捷极简以太彩光网络解决方案入选《“AI中国”生态<b class='flag-5'>范式</b>案例集(2025)》

    润和软件旗下捷科入编2025“人工智能+”行业生态范式案例集

    近日,工业和信息化部旗下赛迪网、《数字经济》杂志等联合发布《“人工智能+”行业生态范式案例集》。江苏润和软件股份有限公司(以下简称“润和软件”)旗下独立运营的金融科技品牌——北京捷科智诚科技有限公司
    的头像 发表于 12-11 11:19 747次阅读
    润和软件旗下捷科入编2025“人工智能+”行业生态<b class='flag-5'>范式</b>案例集

    重塑制造新范式:从单工厂到全球运营,盘古信息IMS MOM解锁制造新维度

    (制造运营管理系统)重新定义全球制造新范式,助力企业实现从单点到全局的智能化跃升。 盘古信息IMS MOM系统定义全球制造运营新范式 全球制造运营不再是简单的多工厂管理,而是一个涵盖生产、供应链、质量和数据的复杂生态系统。盘古信
    的头像 发表于 10-27 08:44 729次阅读
    重塑制造新<b class='flag-5'>范式</b>:从单工厂到全球运营,盘古信息IMS MOM解锁制造新维度

    海康威视助力打造智能防灾新范式

    今日,应急管理部国家减灾中心主办的国家综合防灾减灾与可持续发展论坛在杭州举办,海康威视以“全域感知、数智融合、助力基层——构建综合防灾减灾救灾应用体系”做主题汇报,以技术助力基层防灾减灾,打造智能防灾新范式
    的头像 发表于 10-22 16:29 972次阅读

    华为超节点互联技术引领AI基础设施新范式

    今日,华为全联接大会2025在上海启幕,华为副董事长、轮值董事长徐直军发表题为“以开创的超节点互联技术,引领AI基础设施新范式”的主题演讲,正式发布全球最强算力超节点和集群。
    的头像 发表于 09-20 16:15 2268次阅读

    我如何用Prompt工程将大模型调教成风控专家

    波折、顿悟和惊喜。 今天,我想复盘整个过程,分享我如何通过一套循序渐进的“Prompt工程心法”,将一个“什么都懂一点,但什么都不精”的通用大模型,一步步调教成能够精准识别复杂电商风控风险的“AI专家”。 一、 引言:当算
    的头像 发表于 09-08 14:22 546次阅读
    我如何用<b class='flag-5'>Prompt</b>工程将大模型调教成风控专家

    研华科技携手九大高校共探新工科人才培养新范式

    研华科技联动9大高校,围绕“制造融合·产教共生”展开深度研讨,通过实地参访+产业对话双线并行,共探如何在数智浪潮中锻造新工科人才培养新范式
    的头像 发表于 06-27 11:13 1012次阅读

    ArkUI介绍

    构建与显示的最小单位,如列表、网格、按钮、单选框、进度条、文本等。开发者通过多种组件的组合,构建出满足自身应用诉求的完整界面。 两种开发范式 针对不同的应用场景及技术背景,方舟UI框架提供了两种开发
    发表于 06-24 06:41

    如何将一个FA模型开发的声明式范式应用切换到Stage模型

    模型切换概述 本文介绍如何将一个FA模型开发的声明式范式应用切换到Stage模型,您需要完成如下动作: 工程切换:新建一个Stage模型的应用工程。 配置文件切换:config.json切换
    发表于 06-04 06:22

    北京君正如何实现国产芯片的范式跨越

    北京君正的自主内核设计,通过底层技术创新与商业化验证,实现了国产芯片从“技术跟随”到“自主引领”的范式跨越。
    的头像 发表于 05-27 13:47 2167次阅读

    ALVA空间智能视觉焊接方案重构工业焊接范式

    在智能制造浪潮席卷全球的今天,焊接工艺作为制造业的核心环节,正经历着从“经验驱动”向“数据驱动”的范式跃迁。
    的头像 发表于 05-15 11:30 980次阅读

    AUDI携手Momenta打造豪华智能辅助驾驶新范式

    近日,奥迪新品牌AUDI携手全球领先的智能驾驶公司Momenta正式宣布,联合打造行业首个“德系电动豪华标准+飞轮大模型”智能辅助驾驶方案,共同定义豪华智能辅助驾驶标准,打造豪华智能辅助驾驶新范式
    的头像 发表于 04-27 10:17 966次阅读