0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大型语言模型的逻辑推理能力探究

深度学习自然语言处理 来源:深度学习自然语言处理 2023-11-23 15:05 次阅读

最新研究揭示,尽管大语言模型LLMs在语言理解上表现出色,但在逻辑推理方面仍有待提高。为此,研究者们推出了GLoRE,一个全新的逻辑推理评估基准,包含12个数据集,覆盖三大任务类型。

实验对比发现,GPT-4在逻辑推理上的表现远超ChatGPT,但与人类表现和有监督的微调相比,仍有提高空间。

为此,研究者提出了自我一致性探测方法(self-consistency probing method)来进一步提升ChatGPT的准确性,并通过微调策略,进一步增强大型语言模型的逻辑推理能力。

让我们一起看看这篇研究吧!

GLoRE基准

逻辑推理,作为人类智能的核心,长期以来都是AI研究的热点。为了更好地评估LLMs在自然语言中处理复杂信息的能力,研究人员推出了通用逻辑推理评估(GLoRE)基准。与众所周知的GLUE和Super-GLUE评估自然语言理解能力类似,GLoRE汇集了多个逻辑推理数据集。

GLoRE主要包括三大任务:

多项选择阅读理解:系统给定段落和问题,目的是从答案中选择正确的选项。特别地,GLoRE包括五个此类数据集,如LogiQA、ReClor、AR-LSAT等。

自然语言推断(NLI):确定假设与前提之间的逻辑关系。包括ConTRoL、HELP、TaxiNLI等数据集。

真或假问题(TF:如FraCaS、RuleTaker和ProofWriter等数据集。

2f7b62ca-74be-11ee-939d-92fbcf53809c.png

这些数据集涵盖了从简单到复杂的各种逻辑推理情境,为我们评估大型语言模型的逻辑推理能力提供了合适的平替。其中,多项选择阅读理解深入探讨了逻辑MRC问题,而NLI任务关注文本分类中的蕴涵关系。而真或假问题主要测试了模型在多前提上下文的蕴涵问题上的处理能力。

实验设置

在这篇研究中,研究人员针对开源的LLMs和基于封闭API或UI的模型进行了评估,考虑了7种评估场景:

zero-shot评估:模型通过模板转换得到提示,并生成语言化的答案。

few-shot评估:LLMs使用带有答案的示例作为上下文进行推断。

指令调整:LLMs被训练以遵循自然语言指令,进行任务特定的微调。

自我一致性评估:模型需要全面了解上下文中的逻辑关系。

思维链评估:模型进行一步一步的逻辑思考。

聊天UI评估:基于GPT-4的手动聊天UI测试,更真实地反映用户与模型的互动。

生成响应的评估:对模型生成的响应进行质量评估,包括连贯性、完整性、正确性和相关性。

在实验中采用了RoBERTa-base作为基线,对比了数个LLMs如Falcon-40b-instruct和LLaMA-30b-supercot,以及OpenAI的ChatGPT和GPT-4。

评估指标主要以分类精度得分为指标,并设立人类基线,对于LogiQA22数据集特邀五名合著者进行测试。

主要结果

Zero-shot任务

下表展示了主要的zero-shot任务上的实验结果。

2f87ccae-74be-11ee-939d-92fbcf53809c.png

我们主要可以得出以下发现:

人类准确率: 人类在大多数逻辑推理任务上的平均准确率超过80%,尤其是在ReClor和AR-LSAT上,平均准确率分别为63.00%和56.00%。

RoBERTa-base表现: 该模型在多数逻辑推理任务上的表现落后于平均人类表现,但在特定的ProofWriter任务上有55.92%的准确率,显示出处理特定逻辑推理任务的潜力。

开源模型对比: LLaMA和Falcon在多数逻辑推理任务上的表现都不如微调的RoBERTa-base,特别是在MRC任务上。

ChatGPT和GPT-4: 两种模型在多数MRC基准测试中超过了RoBERTa-base。GPT-4在处理一些逻辑MRC数据集上展现出了显著的能力。

LogiQA 2.0深度分析: ChatGPT和GPT-4在分类推理上都展现出了超高的准确率,但在处理涉及析取的前提上面临挑战。

Few-shot任务

下表展示了不同模型在few-shot任务上的实验结果。GPT-4在与zero-shot相比的few-shot场景中获得了超过9个百分点的准确率提升。

2f911ce6-74be-11ee-939d-92fbcf53809c.png

推理任务

下表展示了不同推理类型的统计分析。

2f9c60ba-74be-11ee-939d-92fbcf53809c.png

ChatGPT和GPT-4在分类推理上表现出了超高的准确率,分别为83.83%和95.04%。

两模型在涉及析取的前提上面临挑战,可能是因为这些逻辑结构的固有复杂性和潜在的模糊性。

社区模型在分类推理上没有展现出特别强的表现,连词推理和析取推理对它们来说仍然是个挑战。

指令微调的有效性

使用Alpaca的指令进行微调后,所有任务的性能都得到了显著提高,证明了指令调整的强大效果。这种改进主要归因于模型增强的一般指令理解能力。

2fa47926-74be-11ee-939d-92fbcf53809c.png

经过调整的LLaMA-7B模型明显优于基线的LLaMA-7B模型和Alpaca。在LogiQA 2.0数据集上,模型的准确率从18.04%增加到52.74%,高于微调后的RoBERTa-base的48.76%。

尽管微调仅使用了LogiQA 2.0的训练数据集,但经过调整的模型成功地将其能力推广到其他数据集。在ReClor数据集上,经过调整的模型达到了55.20%的准确率,比Alpaca高出32.82个百分点。

Self-Consistency Probing评估

逻辑推理任务通常涉及处理一系列相关的陈述或事实,然后根据这些信息进行推断。这些任务需要理解不同信息之间的相互作用,而不是独立地处理它们。这意味着,即使事实的顺序或句子的结构发生变化,真正的逻辑结论也应该保持不变。因此,研究人员在实验中通过打乱句子为ChatGPT引入多样性,特别是对于那些固有地不是顺序的数据集。

2fae9c08-74be-11ee-939d-92fbcf53809c.png

由表可观察到,投票模型在多数数据集上优于单一模型。在LogiQA 2.0 zh数据集上,单一模型有更高的准确率,可能因为中文语言结构的特殊性。

打乱文本不会对ChatGPT的性能产生负面影响。在某些情况下,打乱的文本甚至提高了性能。类似的趋势也出现在其他CoT数据中,其中CoT序列的扰动对整体效率的影响很小。

CoT评估

下表展示了在GLoRE上使用/不使用CoT的结果。

2fc29c30-74be-11ee-939d-92fbcf53809c.png

除此之外,实验还计算了GPT-4结果的混淆矩阵。所有模型在使用CoT提示时都有性能提升,范围在2%到3%之间。混淆矩阵进一步说明了使用CoT提示提高性能的重要性。

2fd0490c-74be-11ee-939d-92fbcf53809c.png

GPT4的Chat UI评估

实验还对GPT-4模型在Chat UI界面上的性能进行了深入探索,并通过案例研究揭示了其在回答和推理上的特点。

2fdce6a8-74be-11ee-939d-92fbcf53809c.png

实验结果表明,没有观察到基于UI的输出和基于API的输出之间的明显质量差异。基于UI的评估结果在大多数数据集上略高于基于API的结果。评估指标可能是造成这种差异的一个原因。

案例研究主要有以下发现:

GPT-4在一些情况下能够正确地回答和推理,例如通过选择新证据来解决专家观点和证据之间的矛盾。

GPT-4有时会生成不正确的答案,如对人类起源的问题的回答。

在某些情况下,提供上下文示例可以帮助GPT-4更准确地回答问题。

CoT推理过程通过为GPT-4提供更相关的上下文来工作,但也可能依赖于表面的模式而不是深入的抽象。

人工评估

实验对模型的表现进行了人工评估,GPT-4在所有指标上都稳定地排名第一,ChatGPT紧随其后。评注者之间的一致性良好,Cohen's Kappa值为0.79。

2ff1a58e-74be-11ee-939d-92fbcf53809c.png

连贯性: GPT-4得分最高,为4.52,表现出其逻辑连贯输出的能力。ChatGPT紧随其后,得分为4.00。

完整性: ChatGPT和GPT-4并列第一,得分均为4.81,展示了其详尽的回应能力。

正确性: GPT-4得分为4.51,领先于其他模型,其回应准确率高。

相关性: GPT-4略微领先,得分为4.89,与ChatGPT得分4.72相当接近。

此外,使用GPT-4 API作为评估器对LLaMA-30-supercot模型进行了实验,其评估得分与人工评估得分相近,为逻辑推理任务的自动评估提供了信心。

结语

在这项研究中,研究团队提出了一个名为GLoRE的数据集,专门用于评估LLMs在处理多种逻辑推理任务上的表现。研究发现ChatGPT和GPT-4在大部分逻辑推理基准测试上都显著超越了传统的微调方法。尽管商业模型在GLoRE测试中的表现相对较弱,但通过对相似数据进行指令调整,模型的性能得到了显著提高。此外,通过监督微调、上下文学习和投票技术,研究团队成功地实现了更为出色的结果。在对模型进行量化和定性评估后,该团队指出,现有的LLMs在解决逻辑推理任务时,似乎更多地依赖于表面模式。因此,他们认为,对底层推理机制进行深入研究和增强,将是一个有益的方向。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    435

    浏览量

    10057
  • 自然语言
    +关注

    关注

    1

    文章

    270

    浏览量

    13208
  • ChatGPT
    +关注

    关注

    27

    文章

    1409

    浏览量

    4762

原文标题:GLoRE:大型语言模型的逻辑推理能力探究

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    安全协议一阶逻辑模型中攻击重构的实现

    针对安全协议一阶逻辑模型不能够给出易于理解的攻击序列的问题,对安全协议一阶逻辑模型进行扩展,对逻辑推理中的规则及合一化操作进行分类,给出操作
    发表于 03-20 16:01 25次下载

    基于逻辑推理的网络攻击想定生成系统

    本文研究并实现基于逻辑推理的网络攻击想定自动生成系统,用于网络安全模拟演练。采用Datalog描述与安全相关的网络配置信息和攻击规则,使用XSB推理引擎构造实现攻击目的的攻
    发表于 08-11 08:27 20次下载

    规则半自动学习的概率软逻辑推理模型

    的不正确的信息可能会影响推理的正确性。为了缓解这种困境,将C5.0算法和概率软逻辑相结合,让数据和知识共同驱动推理模型,提出了一种规则半自动学习方法。该方法利用C5.0算法提取规则,再辅以人工规则和优化调节后的规则作为改进的概
    发表于 11-22 16:01 6次下载
    规则半自动学习的概率软<b class='flag-5'>逻辑推理模型</b>

    深入理解语言模型的突显能力

    最近,人们对大型语言模型所展示的强大能力(例如思维链 ^[2]^ 、便签本 ^[3]^ )产生了极大的兴趣,并开展了许多工作。我们将之统称为大模型
    的头像 发表于 02-22 11:16 706次阅读
    深入理解<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的突显<b class='flag-5'>能力</b>

    大型语言模型有哪些用途?

    大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。 AI 应用在大型语言模型的帮助下,可
    的头像 发表于 02-23 19:50 4308次阅读

    大型语言模型有哪些用途?大型语言模型如何运作呢?

    大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。
    的头像 发表于 03-08 13:57 7174次阅读

    如何通过一个简单的方法来解锁大型语言模型推理能力

    近来NLP领域由于语言模型的发展取得了颠覆性的进展,扩大语言模型的规模带来了一系列的性能提升,然而单单是扩大模型规模对于一些具有挑战性的任务
    的头像 发表于 05-10 11:13 1562次阅读
    如何通过一个简单的方法来解锁<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的<b class='flag-5'>推理</b><b class='flag-5'>能力</b>?

    利用大语言模型做多模态任务

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。
    的头像 发表于 05-10 16:53 748次阅读
    利用大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>做多模态任务

    基于Transformer的大型语言模型(LLM)的内部机制

    本文旨在更好地理解基于 Transformer 的大型语言模型(LLM)的内部机制,以提高它们的可靠性和可解释性。 随着大型语言
    的头像 发表于 06-25 15:08 1042次阅读
    基于Transformer的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>(LLM)的内部机制

    星火智能涌现 讯飞大模型生态共增长

    模型将为产业智能化升级提供强劲的支撑。依托千亿甚至万亿参数,大模型覆盖了 NLP、CV 和跨模态等领域,拥有语言理解、逻辑推理等多种能力
    的头像 发表于 07-04 15:13 408次阅读
    星火智能涌现  讯飞大<b class='flag-5'>模型</b>生态共增长

    腾讯发布混元大语言模型

    能力和复杂语境下的逻辑推理能力;而且在时效性上比较强。 目前混元大语言模型已经在小程序、腾讯云、腾讯广告、腾讯游戏等开启内测。
    的头像 发表于 09-07 10:23 852次阅读

    腾讯对外开放混元大模型

    混元大模型是腾讯全链路自研的通用大语言模型,具备强大的中文创作能力、复杂语境下的逻辑推理能力以及
    的头像 发表于 09-18 15:12 793次阅读
    腾讯对外开放混元大<b class='flag-5'>模型</b>

    腾讯混元大模型将面向公众开放

    腾讯混元大模型是由腾讯自主研发的实用级大模型,参数规模超过千亿,预训练语料达到了2万亿tokens,具备出色的中文创作能力、复杂语境下的逻辑推理能力
    的头像 发表于 09-18 16:31 830次阅读

    思必驰探讨大模型下的智能座舱新生态

    为应对行业挑战,思必驰发布了定位为“针对垂域的、具有通用智能的行业语言模型”DFM-2。它不仅具备通用语言计算大模型的所有AGI特性,包括文案创作、代码生成、
    发表于 12-19 14:55 210次阅读
    思必驰探讨大<b class='flag-5'>模型</b>下的智能座舱新生态

    基于归结反演的大语言模型逻辑推断系统

    逻辑符号领域的逻辑推理方法的启发,我们引入了一个在一阶逻辑下完备的逻辑推理范式归结反演(其推理过程不会受到条件1的约束)来提高完备性,并提
    发表于 04-28 18:00 36次阅读
    基于归结反演的大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>逻辑</b>推断系统