0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Zero-shot-CoT是multi-task的方法

深度学习自然语言处理 来源:NLP日志 作者:NLP日志 2022-06-15 10:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1 简介

Prompt learning中的prompt如同一种心理暗示,可以驱使语言模型按照特定的方向去预测。就像一种解题技巧,只要加入了它,就能更准确的解决问题。在之前prompt系列的文章中,我们介绍过各种形式的prompt,也强调过一个合适的prompt对于下游任务的效果影响重大,为此如何寻找一个合适的prompt的显得尤为重要。

今天介绍一个最近刚被发现的“宝藏prompt”,Let’s think step by step,通过使用特定的prompt“Let’s think step by step”和相应的两阶段prompt技巧,提高了大规模语言模型在的推理能力,在多个推理相关的zero-shot任务取得惊人的提升,远超之前的zero-shot方法。

2背景

大规模预训练语言模型借助于针对特定任务设计的prompt(无论是few shot还是zero shot),在单步骤的system-1任务上有着出色表现,但是对于那些缓慢和需要多步推理的system-2任务表现不佳。(system-1跟system-2是心理学家定义的一些推理任务,可以理解为system-1是那些一步就可以推出答案的任务,,而system-2则是那些需要通过多步推理才能解决的任务)。

为了解决大规模语言模型在system-2任务中表现不佳的问题,CoT(Chain of thought prompting)被提出来,它将原本的few shot的样例,调整为逐步推理的答案,从而让语言模型去学习few shot样例的逐步推理过程,从而控制模型推理能力的方向,在复杂的system-2任务中获得明显提升。细节可以见下图中的样例,其中左上角就是原本的few shot prompt,而右上角就是将few shot样例调整为逐步推理样例的CoT(为了跟后面的Zero-shot-CoT区分而称为Few-shot- CoT),可以看出Few-shot-CoT是将few shot样例里的推理过程展开了,让语言模型能更好的学习其中的细节。

c009e2c2-ebed-11ec-ba43-dac502259ad0.png

图1:Few-shot, Few-shot-CoT, Zero-shot, Zero-shot-CoT示例

3 Zero-shot-CoT

跟前面提及的Few-shot Cot不同,Zero-shot-CoT不需要经过调整的逐步推理的few shot样例,也不同大多数prompt,它不依赖于特定的任务,可以利用当前问题逐步的推理过程推导得到一个简单的prompt模版,从而控制语言模型预测的方向。Zero-shot Cot的核心是利用“Let’s think step by step”去抽取当前问题的逐步推理过程。虽然Zero-shot-CoT的概念很简单,它的巧妙之处在于整个过程使用了两次prompt,具体过程如下,同时可以查看下图样例加深理解。

a)推论抽取

首先将问题X通过一个简单的模版”Q:[X].A:[Z]”调整为一个prompt,其中[X]是一个输入槽位,通过问题X来填充,而[Z]是一个触发器槽位,用一个人工构建的触发器句子来填充,使得语言模型可以从中抽取回答问题X所需的逐步推理过程,论文中用的触发器句子是“Let’s think step by step.”。然后将构造好的模版输入到语言模型,从而生成后续的句子Z(可以使用任何解码策略,论文为了简便使用了贪婪解码策略)。

b)答案抽取

将第一步构造好的模版Q:[X].A:[Z],生成的句子Z,和一个新的触发器句子[A]拼接到一起输入到同一个语言模型,利用语言模型生成的结果进行解析得到最终的答案。这一步的触发器句子[A]跟第一步的触发器句子不同,它依赖于具体的答案形式,例如图中样例用的触发器句子是“Therefore, the answer (arabic numerals) is”

c02c2ab2-ebed-11ec-ba43-dac502259ad0.png

图2: Zero-shot-Cot全过程

Zero-shot-CoT跟Few-shot-CoT的区别在于,对于每个任务,Few-shot-CoT需要谨慎的人工工程将few shot样例转化为特定的答案格式,就是其中的逐步推理过程,而Zero-shot-CoT则不需要这些工程,只需要调用两次语言模型即可实现。Zero-shot-CoT跟Zero-shot的区别在于,Zero-shot-Cot多了生成多步推论的过程,最终输入语言模型的文本会更加丰富,语言模型能按照逐步推论的方向进行预测,从而更好的控制语言模型的输出。

4 实验结果

论文在算术推理跟常识推理相关的任务做了实验,有以下一些实验结论。

a)Zero-shot-CoT在需要多步推理的算术推理任务,符号推理任务,其他逻辑推理任务上大幅超越zero-shot,在不需要多步推理的算数推理任务上(SingleEq和AddSub)上跟zero-shot水平相当。在常识推理任务上,Zero-shot-Cot表现没有提升。

c05b4054-ebed-11ec-ba43-dac502259ad0.png

图3: Zero-shot-CoT跟Zero-shot在多个任务上的表现

b)在算术推理任务中,虽然Zero-shot-CoT不及Few-shot-CoT,但明显优于标准的Few-shot,即便是带8个样例的Fes-shot方法。

c06f2268-ebed-11ec-ba43-dac502259ad0.png

图4: 在多步算法推理任务上多种方法的效果对比

c)对于常识推理问题,Zero-shot-CoT通常能生成灵活合理的推论,即便最终预测是错误的(下图左边样例)。同时当模型发现很难将答案选项缩小时,Zero-shot-CoT经常输出多个答案选项(下图右边样例)。

c0b67492-ebed-11ec-ba43-dac502259ad0.png

图5: Zero-shot-CoT在常识推理任务的若干bad case

5讨论

a)语言模型规模跟zero-shot推理是否相关?

大规模语言模型能带来更合理的推理。对于不需要多步推理的任务,zero-shot表现随着语言模型规模的增长可能不增长或者增长非常缓慢,但是对于需要多步推理的任务,随着语言模型规模的增长,zero-shot的效果飞速增长。

c0cd946a-ebed-11ec-ba43-dac502259ad0.png

图6:模型规模的影响

b)Prompt的选择是否影响Zero-shot-CoT

如果文本被撰写成有利于深度推理的样子,模型效果也会得到提升。不同的prompt会驱使模型表示出迥然不同的推理能力,具体的差异取决了实际句子。在论文实验中,其中一个prompt”Let’s think step by step”取得最优的效果。

c114572e-ebed-11ec-ba43-dac502259ad0.png

图7:不同prompt对于Zero-shot-CoT的影响

c)大规模语言模型的推理能力

部分研究表明预训练模型通常不擅长推理任务,但是通过让它进行逐步推理可以极大程度的提升它的推理性能,而不是通过微调。论文的实验也佐证了大规模语言模型是一个合适的zero-shot推理器。

d)Multi-task prompting

大多数prompt都是针对特定任务而设计的,但是Zero-shot-CoT是支持多任务的,具有更强的泛化能力,能应用到更多不同的任务中去。Zero-shot-CoT可以为作为一种参考,不仅加速应用大规模语言模型进行逻辑推理的研究,也加速发现其他大规模语言模型的广泛感知能力的研究。

6总结

个人觉得,相比其他prompt相关的文章,Zero-shot-CoT通过两阶段的prompt过程设计,摆脱了prompt工程的限制,也不受限于具体的任务,更好的控制模型的预测方向。虽然思想跟Few-shot-CoT很像,但是摆脱了其中的精心设计的将few shot样例转化为合适的prompt的过程。这一点还是很有价值的。

但是,看完这个文章还是有不少的疑问。文章提及Zero-shot-CoT是multi-task的方法,但是只在推理相关的任务上进行实验,Let’s think step by step”在非推理的任务上也会是最优选择吗?在其他任务上,Zero-shot-CoT能取得多少增益?对于其他语言而言,找到自身最佳的“Let’s think step by step”只能把所有可能的prompt都测试一遍吗?有其他自动化的手段吗?有没有跨语言的“Let’s think step by step”?

参考文献

1.(2022,) Large Language Models are Zero-Shot Reasoners

https://arxiv.org/pdf/2205.11916.pdf

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动化
    +关注

    关注

    30

    文章

    5886

    浏览量

    89244
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11255

原文标题:提示学习 | Let’s think step by step

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新思科技以AI驱动EDA加速Multi-Die创新

    Multi-Die设计将多个异构或同构裸片无缝集成在同一封装中,大幅提升了芯片的性能和能效,因而在高性能计算(HPC)、人工智能(AI)、数据分析、先进图形处理和其他要求严苛的应用领域中至关重要。
    的头像 发表于 11-07 10:17 334次阅读

    AI智能大模型,你身边的最好用的办公提效小能手

    几十亿到数万亿; 任务广:一次训练可以支持多个任务,具备通用能力; 适应快:只需少量样例,就能迁移到新任务中(Few-shotZero-shot)。 讯维AI智能大模型训练流程包含以下几个步骤: 1.收集数据:包括书籍、百科、代码、新闻等,数据量达到 TB 级别。
    的头像 发表于 09-30 10:59 208次阅读

    【作品合集】玄铁BPI-CanMV-K230D-Zero开发板测评

    开发板体验】+闪存读写程序的分析 【BPI-CanMV-K230D-Zero开发板体验】+TFT屏显示驱动及信息显示 【BPI-CanMV-K230D-Zero开发板体验】+车牌识别处理与应用方法
    发表于 09-18 10:13

    特瑞仕DC/DC转换器的HiSAT-COT高速瞬态响应技术

    “HiSAT-COT※(High-Speed Architecture for Transit with Constant On-Time 恒定导通时间高速瞬态结构)”备受瞩目。
    的头像 发表于 09-05 09:26 620次阅读
    特瑞仕DC/DC转换器的HiSAT-<b class='flag-5'>COT</b>高速瞬态响应技术

    Task任务:LuatOS实现“任务级并发”的核心引擎

    Task任务通过其强大的并发处理能力,使LuatOS能够在单线程环境中模拟多线程执行,通过协程的挂起与恢复机制,实现任务级的并行操作,显著提升系统效能。 sys核心库是LuatOS运行框架库,也是
    的头像 发表于 08-28 13:49 335次阅读
    <b class='flag-5'>Task</b>任务:LuatOS实现“任务级并发”的核心引擎

    揭秘LuatOS Task:多任务管理的“智能中枢”

    Task任务作为LuatOS的核心组成部分,通过智能化的任务管理机制,实现任务的创建、调度与协同运行,让复杂应用得以高效并行处理,满足实时场景下的严苛需求。 sys核心库是LuatOS运行框架库
    的头像 发表于 08-28 13:48 392次阅读
    揭秘LuatOS <b class='flag-5'>Task</b>:多任务管理的“智能中枢”

    水晶光电COT Vietnam新工厂开业投产

    盛夏的越南,晴空万里,骄阳似火。8月2日上午,COT Vietnam新工厂开业暨投产仪式在兴安省升龙二号工业园区一期厂房内隆重举行,现场洋溢着热闹喜庆的氛围。
    的头像 发表于 08-12 09:15 1022次阅读

    开源Made with KiCad(134):Icepi Zero - 基于Lattice ECP5的便携FPGA开发板

    “  Icepi Zero 是一款 Raspberry Pi Zero 尺寸的便携式 FPGA 开发板,基于 Lattice ECP5。 ”   Made with KiCad 系列将支持新的展示
    的头像 发表于 07-14 11:21 3271次阅读
    开源Made with KiCad(134):Icepi <b class='flag-5'>Zero</b> - 基于Lattice ECP5的便携FPGA开发板

    树莓派 Zero 2 W 是开启智能家居生活的理想之选!

    想尝试智能家居自动化,又不想花费太多?树莓派Zero2W或许正是你开启智能家居之旅所需的理想设备。小板子大潜力想打造一个智能家居?这想法超棒!一旦掌握了技巧,自动化控制灯光、插座、传感器等设备,既有
    的头像 发表于 06-24 16:24 540次阅读
    树莓派 <b class='flag-5'>Zero</b> 2 W 是开启智能家居生活的理想之选!

    【开源分享】:开源小巧的FPGA开发板——Icepi Zero

    核心芯片设计一款满足工业和音视频等领域的FPGA开发板,配套数十套原始开发案例、开源所有原理图及PCB文件。 Icepi Zero - 便携式 FPGA 开发板。 什么是 Icepi Zero
    发表于 06-09 14:01

    用 树莓派 Zero 打造的智能漫游车!

    使用PXFMini和树莓派Zero打造您自己的自主漫游车。本项目所用组件硬件组件ErleRoboticsPXFmini×1树莓派Zero×1树莓派2ModelB×1树莓派3ModelB×1软件应用与在线服务APM飞行
    的头像 发表于 05-13 16:39 869次阅读
    用 树莓派 <b class='flag-5'>Zero</b> 打造的智能漫游车!

    kw45卡在Host_Task的原因?

    KW45 以从机模式运行,安卓手机APP反复断开连接,偶尔会卡住kw45,这不是在连接和断开连接时发生的,而是在连接成功后的几秒钟或几十秒。 调试分析发现,kw45 卡在 Host_Task,o任务无法运行。 以下是任务运行的屏幕截图。重复运行屏幕截图是Host_Task
    发表于 04-10 06:22

    利用新思科技Multi-Die解决方案加快创新速度

    Multi-Die设计是一种在单个封装中集成多个异构或同构裸片的方法,虽然这种方法日益流行,有助于解决与芯片制造和良率相关的问题,但也带来了一系列亟待攻克的复杂性和变数。尤其是,开发者必须努力确保
    的头像 发表于 02-25 14:52 1108次阅读
    利用新思科技<b class='flag-5'>Multi</b>-Die解决方案加快创新速度

    智谱推出深度推理模型GLM-Zero预览版

    近日,智谱公司正式发布了其深度推理模型GLM-Zero的预览版——GLM-Zero-Preview。这款模型标志着智谱在扩展强化学习技术训练推理模型方面的重大突破,成为其首个专注于增强AI推理能力
    的头像 发表于 01-03 10:42 764次阅读

    智谱GLM-Zero深度推理模型预览版正式上线

    近日,智谱公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上线。这款模型是智谱首个基于扩展强化学习技术训练的推理模型,标志着智谱在AI推理领域迈出了重要一步
    的头像 发表于 01-02 10:55 799次阅读