0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为诺亚提出新型Prompting (PHP),GPT-4拿下最难数学推理数据集新SOTA

深度学习自然语言处理 来源:机器之心 2023-05-15 09:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

模拟人类推理过程,华为诺亚提出 Progressive-Hint Prompting (PHP) 引导大模型渐近正确答案。

近期,华为联和港中文发表论文《Progressive-Hint Prompting Improves Reasoning in Large Language Models》,提出Progressive-Hint Prompting(PHP),用来模拟人类做题过程。在 PHP 框架下,Large Language Model (LLM) 能够利用前几次生成的推理答案作为之后推理的提示,逐步靠近最终的正确答案。要使用 PHP,只需要满足两个要求:

问题能够和推理答案进行合并,形成新的问题;

模型可以处理这个新的问题,给出新的推理答案。

f62ed04a-f2b5-11ed-90ce-dac502259ad0.png

结果表明,GP-T-4+PHP 在多个数据集上取得了SOTA结果,包括 SVAMP (91.9%), AQuA (79.9%), GSM8K (95.5%) 以及 MATH (53.9%)。该方法大幅超过 GPT-4+CoT。比如,在现在最难的数学推理数据集 MATH 上,GPT-4+CoT 只有 42.5%,而 GPT-4+PHP 在 MATH 数据集的 Nember Theory (数论) 子集提升 6.1%, 将 MATH 整体提升到 53.9%,达到 SOTA。

f64b6552-f2b5-11ed-90ce-dac502259ad0.png

论文链接:https://arxiv.org/abs/2304.09797

代码链接:https://github.com/chuanyang-Zheng/Progressive-Hint

介绍

随着 LLM 的发展,涌现了关于 prompting 的一些工作,其中有两个主流方向:

一个以 Chain-Of-Thought( CoT,思维链) 为代表,通过清楚得写下推理过程,激发模型的推理能力;

另一个以 Self-Consistency (SC) 为代表,通过采样多个答案,然后进行投票得到最终答案。

显然,现存的两种方法,没有对问题进行任何的修改,相当于做了一遍题目之后就结束了,而没有反过来带着答案进行再次检查。PHP 尝试模拟更加类人推理过程:对上次的推理过程进行处理,然后合并到初始的问题当中,询问 LLM 进行再次推理。当最近两次推理答案一致时,得到的答案是准确的,将返回最终答案。具体的流程图如下所示:

f66dfed2-f2b5-11ed-90ce-dac502259ad0.png

在第一次与 LLM 交互的时候,应当使用 Base Prompting (基础提示), 其中的 prompt(提示)可以是 Standard prompt,CoT prompt 或者其改进版本。通过 Base Prompting,可以进行第一次交互,然后得到初步的答案。在随后的交互中,应当使用 PHP,直至最新的两个答案一致。

PHP prompt 基于 Base Prompt 进行修改。给定一个 Base Prompt,可以通过制定的 PHP prompt design principles 来得到对应的 PHP prompt。具体如下图所示:

f6908a6a-f2b5-11ed-90ce-dac502259ad0.png

作者希望PHP prompt能够让大模型学习到两种映射模式:

1)如果给的 Hint 是正确答案,那么返回的答案依然要是正确答案 (具体如上图所示的「Hint is the correct answer」);
2)如果给的 Hint 是错误答案,那么 LLM 要通过推理,跳出错误答案的 Hint,返回正确答案(具体如上图所示的「Hint is the incorrect answer」)。

按照这种 PHP prompt 的设计规则,给定任意现存的 Base Prompt,作者都可以设定出对应的 PHP Prompt。

实验

作者使用七个数据集,包括 AddSub、MultiArith、SingleEQ、SVAMP、GSM8K、 AQuA 和 MATH。同时,作者一共使用了四个模型来验证作者的想法,包括 text-davinci-002、text-davinci-003、GPT-3.5-Turbo 和 GPT-4。

主要结果

f6b09ac6-f2b5-11ed-90ce-dac502259ad0.png

当语言模型更强大、提示更有效时,PHP 的效果更好。相比于 Standard Prompt 和 CoT Prompt,Complex CoT prompt 表现出了显著的性能提升。分析还显示,使用强化学习进行微调的 text-davinci-003 语言模型比使用监督指令微调的 text-davinci-002 模型表现更好,能够提升文档效果。text-davinci-003 的性能提高归因于其增强的能力,使其更好地理解和应用给定的提示。同时,如果只是使用 Standard prompt,那么 PHP 所带来的提升并不明显。如果需要让 PHP 起到效果,至少需要 CoT 来激发模型的推理能力。

f6cefff2-f2b5-11ed-90ce-dac502259ad0.png

同时,作者也探究了交互次数与模型、prompt 之间的关系。当语言模型更强大,提示更弱时,交互次数会减少。交互次数指代智能体与 LLMs 互动的次数。当收到第一个答案时,交互次数为 1;收到第二个答案时,交互次数增加到 2。在图 2 中,作者展示了各种模型和提示的交互次数。作者的研究结果表明:

1)在给定相同提示的情况下,text-davinci-003 的交互次数通常低于 text-davinci-002。这主要是由于 text-davinci-003 的准确性更高,导致基础答案和后续答案的正确率更高,因此需要更少的交互才能得到最终的正确答案;
2)当使用相同的模型时,随着提示变得更强大,交互次数通常会增加。这是因为当提示变得更有效时,LLMs 的推理能力会得到更好的发挥,从而使它们能够利用提示跳出错误答案,最终导致需要更高的交互次数才能达到最终答案,这使得交互次数增加。

Hint 质量的影响

f705f89a-f2b5-11ed-90ce-dac502259ad0.png

为了增强 PHP-Standard 的性能,将 Base Prompt Standard 替换为 Complex CoT 或 CoT 可以显著提高最终性能。对 PHP-Standard 而言,作者观察到在 Base Prompt Standard 下,GSM8K 的性能从 16.0% 提高到了在基础提示 CoT 下的 50.2%,再提高到在基础提示 Complex CoT 下的 60.3%。相反,如果将 Base Prompt Complex CoT 替换为 Standard,则最终性能会降低。例如,在将基础提示 Complex CoT 替换为 Standard 后,PHP-Complex CoT 在 GSM8K 数据集上的性能从 71.6% 下降到了 65.5%。

如果 PHP 不是基于相应的 Base Prompt 进行设计,那么效果可能进一步提高。使用 Base Prompt Complex CoT 的 PHP-CoT 在六个数据集中的四个数据集表现优于使用 CoT 的 PHP-CoT。同样地,使用基础提示 CoT 的 PHP-Complex CoT 在六个数据集中的四个数据集表现优于使用 Base Prompt Complex CoT 的 PHP-Complex CoT。作者推推测这是因为两方面的原因:1)在所有六个数据集上,CoT 和 Complex CoT 的性能相似;2)由于 Base Answer 是由 CoT(或 Complex CoT)提供的,而后续答案是基于 PHP-Complex CoT(或 PHP-CoT),这就相当于有两个人合作解决问题。因此,在这种情况下,系统的性能可能进一步提高。

消融实验

f723ff5c-f2b5-11ed-90ce-dac502259ad0.png

将句子 P1 和 P2 纳入模型可以提高 CoT 在三个数据集上的表现,但当使用 Complex CoT 方法时,这两个句子的重要性尤为明显。在加入 P1 和 P2 后,该方法在六个数据集中有五个数据集的表现得到了提升。例如,在 SVAMP 数据集上,Complex CoT 的表现从 78.0% 提高到了 80.0%,在 GSM8K 数据集上从 68.3% 提高到了 71.6%。这表明,尤其是在模型的逻辑能力更强时,句子 P1 和 P2 的效果更为显著。

f73f5d9c-f2b5-11ed-90ce-dac502259ad0.png

在设计提示时需要同时包含正确和错误的提示。当设计的提示同时包含正确和错误的提示时,使用 PHP 的效果优于不使用 PHP。具体来说,提示中提供正确的提示会促进生成与给定提示相符的答案。相反,提示中提供错误的提示则会通过给定的提示鼓励生成其他答案

PHP+Self-Consistency

f75ccd3c-f2b5-11ed-90ce-dac502259ad0.png

f77f21ac-f2b5-11ed-90ce-dac502259ad0.png

使用 PHP 可以进一步提高性能。通过使用类似的提示和样本路径数量,作者发现在表 6 和图 3 中,作者提出的 PHP-CoT 和 PHP-Complex CoT 总是比 CoT 和 Complex CoT 表现更好。例如,CoT+SC 的样本路径为 10、20 和 40 时,能够在 MultiArith 数据集上达到 96.5% 的准确率。因此,可以得出结论,CoT+SC 的最佳性能为 96.5%,使用 text-davinci-003。然而,在实施 PHP 之后,性能升至 97.1%。同样,作者还观察到在 SVAMP 数据集上,CoT+SC 的最佳准确率为 83.3%,在实施 PHP 后进一步提高到 83.7%。这表明,PHP 可以打破性能瓶颈并进一步提高性能。

使用 PHP 可以降低 SC 的成本,众所周知,SC 涉及更多的推理路径,导致成本更高。表 6 说明,PHP 可以是降低成本的有效方法,同时仍保持性能增益。如图 3 所示,使用 SC+Complex CoT,可以使用 40 个样本路径达到 78.1% 的准确率,而加入 PHP 将所需平均推理路径降低到 10×2.1531=21.531 条路径,并且结果更好,准确率达到了 78.2%。

GPT-3.5-Turbo 和 GPT-4

f7a07c3a-f2b5-11ed-90ce-dac502259ad0.png

作者按照以前的工作设置,使用文本生成模型进行实验。随着 GPT-3.5-Turbo 和 GPT-4 的 API 发布,作者在相同的六个数据集上验证了具有 PHP 的 Complex CoT 的性能。作者对这两个模型都使用贪心解码(即温度 = 0)和 Complex CoT 作为提示。

如表 7 所示,提出的 PHP 增强了性能,在 GSM8K 上提高了 2.3%,在 AQuA 上提高了 3.2%。然而,与 text-davinci-003 相比,GPT-3.5-Turbo 表现出对提示的依附能力降低。作者提供了两个例子来说明这一点:

a)在提示缺失的情况下,GPT-3.5-Turbo 无法回答问题,并回复类似于 “由于答案提示缺失,我无法回答此问题。请提供答案提示以继续” 的声明。相比之下,text-davinci-003 在回答问题之前会自主生成并填充缺失的答案提示;
b)当提供超过十个提示时,GPT-3.5-Turbo 可能会回复 “由于给出了多个答案提示,我无法确定正确的答案。请为问题提供一个答案提示。”

f7b5c040-f2b5-11ed-90ce-dac502259ad0.png

在部署 GPT-4 模型后,作者能够在 SVAMP、GSM8K、AQuA 和 MATH 基准测试上实现新的 SOTA 性能。作者提出的 PHP 方法不断改善了 GPT-4 的性能。此外,与 GPT-3.5-Turbo 模型相比,作者观察到 GPT-4 所需的交互次数减少了,这与 “当模型更加强大时,交互次数会减少” 的发现相一致。

总结

本文介绍了 PHP 与 LLMs 交互的新方法,具有多个优点:

1)PHP 在数学推理任务上实现了显著的性能提升,在多个推理基准测试上领先于最先进的结果;
2)使用更强大的模型和提示,PHP 可以更好地使 LLMs 受益;
3)PHP 可以与 CoT 和 SC 轻松结合,进一步提高性能。

为了更好地增强 PHP 方法,未来的研究可以集中在改进问题阶段的手工提示和答案部分的提示句子的设计上。此外,除了将答案当作 hint,还可以确定和提取有助于 LLMs 重新考虑问题的新 hint。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51710
  • PHP
    PHP
    +关注

    关注

    0

    文章

    460

    浏览量

    28386
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:华为诺亚提出新型Prompting (PHP),GPT-4拿下最难数学推理数据集新SOTA

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为破解HBM依赖!AI推理黑科技UCM上线,9月正式开源

    8月12日,在2025金融AI推理应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周越峰宣布,华为此次和银联联合创新,推出AI推理
    的头像 发表于 08-13 08:58 9693次阅读
    <b class='flag-5'>华为</b>破解HBM依赖!AI<b class='flag-5'>推理</b>黑科技UCM上线,9月正式开源

    GPT-5.1发布 OpenAI开始拼情商

    -5.1 Thinking:高级推理模型,在简单任务上更快,在复杂任务上更持久,也更容易理解。 对于新上线的GPT-5.1大模型,OpenAI 官方表示出色的 AI 不仅是要够聪明,还要让人与之对
    的头像 发表于 11-13 15:49 538次阅读

    从 0 到 1:用 PHP 爬虫优雅地拿下京东商品详情

    在电商数据驱动的时代, 商品详情数据 成为市场分析、价格监控、竞品调研的核心燃料。京东作为国内头部电商平台,其商品信息丰富、更新频繁,是数据开发者眼中的“香饽饽”。 本文将带你 从 0 到 1 ,用
    的头像 发表于 09-23 16:42 563次阅读
    从 0 到 1:用 <b class='flag-5'>PHP</b> 爬虫优雅地<b class='flag-5'>拿下</b>京东商品详情

    【RA4M2-SENSOR】3、使用GPT定时器-PWM输出

    GPT介绍 通用 PWM 定时器(GPT,General PWM Timer)是 RA MCU 的其中一种 32/16 位的定时器外设。 在 GPT 当中,可分为 GPT32 和
    发表于 09-01 15:20

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    Token (TPS)。 这两个 gpt-oss 模型是具有链式思维和工具调用能力的文本推理大语言模型 (LLM),采用了广受欢迎的混合专家模型 (MoE) 架构和 SwigGLU 激活函数。其注意力层使用 RoPE 技术
    的头像 发表于 08-15 20:34 1961次阅读
    NVIDIA从云到边缘加速OpenAI <b class='flag-5'>gpt</b>-oss模型部署,实现150万TPS<b class='flag-5'>推理</b>

    华为亮相2025金融AI推理应用落地与发展论坛

    近日,2025金融AI推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团CEO曹冲出席本次论坛并发表致辞。论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士
    的头像 发表于 08-15 09:45 951次阅读

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

        降低HBM依赖,华为发布AI推理创新技术UCM   日前,华为正式发布AI推理创新技术UCM(推理记忆
    发表于 08-13 09:45 3559次阅读

    大模型推理显存和计算量估计方法研究

    方法。 一、引言 大模型推理是指在已知输入数据的情况下,通过深度学习模型进行预测或分类的过程。然而,大模型的推理过程对显存和计算资源的需求较高,这给实际应用带来了以下挑战: 显存不足:大模型在
    发表于 07-03 19:43

    GPT-5即将面市 性能远超GPT-4

    行业芯事
    电子发烧友网官方
    发布于 :2025年06月04日 13:38:23

    马斯克发布Grok 3大模型,超越GPT-4o

    近日,科技巨头马斯克宣布其最新研发的人工智能大模型——Grok 3正式发布。这一消息引起了业界的广泛关注。 据马斯克介绍,Grok 3在数学推理、科学逻辑推理以及代码写作等多项能力上均表现出色。在
    的头像 发表于 02-19 13:50 720次阅读

    OpenAI宣布GPT 4o升智计划

    透露,GPT 4o的智力水平将得到显著提升,目标直指o3 pro的水平。这一升级不仅意味着GPT 4o在理解和生成文本方面的能力将得到质的飞跃,更将使其在处理复杂问题、进行逻辑
    的头像 发表于 02-17 14:24 870次阅读

    OpenAI即将发布GPT-4.5与GPT-5

    GPT-4.5将在未来几周内率先亮相,它将是OpenAI通用GPT-4模型的继承者。这款新的算法在技术上进行了诸多优化和升级,旨在为用户提供更加精准、高效的AI服务。 而在GPT-4.5发布后不久
    的头像 发表于 02-13 13:43 1015次阅读

    GPT架构及推理原理

    导读 本篇是作者从开发人员的视角,围绕着大模型正向推理过程,对大模型的原理的系统性总结,希望对初学者有所帮助。 引言 什么是人工智能? 清华大学出版社出版的《人工智能概论》中提出,人工智能是对人
    的头像 发表于 01-20 13:41 2817次阅读
    <b class='flag-5'>GPT</b>架构及<b class='flag-5'>推理</b>原理

    中国电提出大模型推理加速新范式Falcon

    的 Falcon 方法是一种 增强半自回归投机解码框架 ,旨在增强 draft model 的并行性和输出质量,以有效提升大模型的推理速度。Falcon 可以实现约 2.91-3.51 倍的加速比,在多种数据上获得了很好的结果
    的头像 发表于 01-15 13:49 1461次阅读
    中国电<b class='flag-5'>提出</b>大模型<b class='flag-5'>推理</b>加速新范式Falcon

    华为云 Flexus X 实例下的场景体验——小企业的福星——最简单的 php 环境搭建

     前言 都是 php 是全世界最好的语言,我也是非常的喜欢,虽然我是搞大数据的,但是 php 在很逗情况下对于个人开发者来说是非常友好的,对于一般小企业来说使用【华为云 Flexus
    的头像 发表于 01-02 11:59 688次阅读
    <b class='flag-5'>华为</b>云 Flexus X 实例下的场景体验——小企业的福星——最简单的 <b class='flag-5'>php</b> 环境搭建