0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

全新科学问答数据集ScienceQA让深度学习模型推理有了思维链

智能感知与物联网技术研究所 来源:智能感知与物联网技术研 作者:智能感知与物联网 2022-11-01 16:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在回答复杂的问题时,人类可以理解不同模态的信息,并形成一个完整的思维链(Chain of Thought, CoT)。深度学习模型是否可以打开「黑箱」,对其推理过程提供一个思维链呢?近日,UCLA 和艾伦人工智能研究院(AI2)提出了首个标注详细解释的多模态科学问答数据集 ScienceQA,用于测试模型的多模态推理能力。在 ScienceQA 任务中,作者提出 GPT-3 (CoT) 模型,即在 GPT-3 模型中引入基于思维链的提示学习,从而使得模型能在生成答案的同时,生成相应的推理解释。GPT-3 (CoT) 在 ScienceQA 上实现了 75.17% 的准确率;并且人类评估表明,其可以生成较高质量的解释。

像人类一样有效地学习并完成复杂的任务是人工智能追求的长远目标之一。人类在决策过程中可以遵循一个完整的思维链(CoT)推理过程,从而对给出的答案做出合理的解释。

然而,已有的机器学习模型大多依赖大量的输入 - 输出样本训练来完成具体的任务。这些黑箱模型往往直接生成最终的答案,而没有揭示具体的推理过程。

科学问答任务(Science Question Answering)可以很好地诊断人工智能模型是否具有多步推理能力和可解释性。为了回答科学问题,一个模型不仅需要理解多模态内容,还需要提取外部知识以得出正确答案。同时,一个可靠的模型还应该给出揭示其推理过程的解释。然而,目前的科学问答数据集大多缺乏对答案的详细解释,或者局限于文字模态。

因此,作者收集了全新的科学问答数据集 ScienceQA,它包含了 21,208 道来自中小学科学课程的问答多选题。一道典型的问题包含多模态的背景(context)、正确的选项、通用的背景知识(lecture)以及具体的解释(explanation)。

3cf72216-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 数据集的一个例子。

要回答上图所示的例子,我们首先要回忆关于力的定义:「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」,然后形成一个多步的推理过程:「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」,最终得到正确答案:「This force is a pull. 」。

在 ScienceQA 任务中,模型需要在预测答案的同时输出详细地解释。在本文中,作者利用大规模语言模型生成背景知识和解释,作为一种思维链(CoT)来模仿人类具有的多步推理能力。

实验表明,目前的多模态问答方法在 ScienceQA 任务不能取得很好的表现。相反,通过基于思维链的提示学习,GPT-3 模型能在 ScienceQA 数据集上取得 75.17% 的准确率,同时可以生成质量较高的解释:根据人类评估,其中 65.2% 的解释相关、正确且完整。思维链也可以帮助 UnifiedQA 模型在 ScienceQA 数据集上取得 3.99% 的提升。

1、ScienceQA 数据集

数据集统计

ScienceQA 的主要统计信息如下所示。

3dda2b56-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 数据集的主要信息

ScienceQA 包含21208个例子, 其中有9122个不同的问题(question)。10332 道(48.7%)有视觉背景信息,10220 道(48.2%)有文本背景信息,6532 道(30.8%)有视觉 + 文本的背景信息。绝大部分问题标注有详细的解释:83.9% 的问题有背景知识标注(lecture),而 90.5% 的问题有详细的解答(explanation)。

3f230d0c-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 数据集中问题和背景分布。

数据集主题分布

不同于已有的数据集,ScienceQA 涵盖自然科学、社会科学和语言学三大学科分支,包含 26 个主题(topic)、127 个分类(category)和 379 个知识技能(skill)。

3f38e23a-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 的主题分布。

数据集词云分布

如下图的词云分布所示,ScienceQA 中的问题具有丰富的语义多样性。模型需要理解不同的问题表达、场景和背景知识。

40810208-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 的词云分布。

数据集比较

ScienceQA 是第一个标注详细解释的多模态科学问答数据集。相比于已有的数据集,ScienceQA 的数据规模、题型多样性、主题多样性等多个维度体现了优势。

41ec4cb0-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 数据集与其它科学问答数据集的比较。

2、模型和方法

Baselines

作者在 ScienceQA 数据集了评估不同的基准方法,包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT,大规模语言模型如 UnifiedQA 和 GPT-3,以及 random chance 和 human performance。对于语言模型 UnifiedQA 和 GPT-3,背景图片会被转换成文本形式的注释(caption)。

GPT-3 (CoT)

最近的研究工作表明,在给定合适的提示后,GPT-3 模型可以在不同的下游任务表现出卓越的性能。为此,作者提出 GPT-3 (CoT) 模型,在提示中加入思维链(CoT),使得模型在生成答案的同时,可以生成对应的背景知识和解释。

具体的提示模板如下图所示。其中 Ii 表示训练例子,It 表示测试例子。训练例子包含问题(Question)、选项(Options)、背景(Context)和答案(Answer)元素,其中答案由正确答案、背景知识(Lecture)和解释(Explanation)组成。GPT-3 (CoT) 会根据输入的提示信息,补全测试例子的预测答案、背景知识和解释。

42167fa8-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 采用的提示模板。

3、实验与分析

实验结果

不同的基准和方法在 ScienceQA 测试集上的准确率结果如下表所示。当前最好的 VQA 模型之一的 VisualBERT 只能达到 61.87% 的准确率。在训练的过程引入 CoT 数据,UnifiedQA_BASE 模型可以实现 74.11% 的准确率。而 GPT-3 (CoT) 在 2 个训练例子的提示下,实现了 75.17% 的准确率,高于其它基准模型。人类在 ScienceQA 数据集上表现优异,可以达到 88.40% 的总体准确率,并且在不同类别的问题上表现稳定。

4234ac9e-5860-11ed-a3b6-dac502259ad0.png

不同的方法在 ScienceQA 测试集上的结果。

生成解释的评估

作者用自动评估指标如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 评估了不同方法生成的解释。由于自动评估指标只能衡量预测结果和标注内容的相似性,因此作者进一步采用了人工评估的方法,来评估生成解释的相关性、正确性和完整性。可以看到,GPT-3 (CoT) 生成的解释中 65.2% 符合了 Gold 标准。

4273fffc-5860-11ed-a3b6-dac502259ad0.png

不同评估方法对生成解释的结果。

不同的提示模板

作者比较了不同的提示模板对 GPT-3 (CoT) 准确率的影响。可以看到在 QAM-ALE 的模板下,GPT-3 (CoT) 可以获得最大的平均准确率和最小的方差。另外,GPT-3 (CoT) 在 2 个训练例子的提示下,表现最佳。

429455ea-5860-11ed-a3b6-dac502259ad0.png

不同提示模板的结果比较。

模型上限

为了探索 GPT-3 (CoT) 模型的性能上限,作者把标注的背景知识和解释加入模型的输入(QCMLE*-A)。我们可以看到 GPT-3 (CoT) 可以实现高达 94.13% 的准确率。这也提示了模型提升的一个可能方向:模型可以进行分步推理,即先检索到准确的背景知识和生成准确的解释,然后把这些结果作为输入。这个过程和人类解决复杂问题的过程很相似。

42a49f5e-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者进一步讨论了GPT-3 (CoT) 在生成预测时,不同的 ALE 位置对结果的影响。在 ScienceQA 上的实验结果表明,如果 GPT-3 (CoT) 先生成背景知识 L 或解释 E,再生成答案 A,其预测准确率会大幅下降。其主要原因是背景知识 L 和解释 E 有较多的词语数量,如果先生成 LE,GPT-3 模型有可能用完最大词数,或者提前停止生成文本,从而不能得到最终的答案 A。

42e3e650-5860-11ed-a3b6-dac502259ad0.png

不同的 LE 位置。

成功案例

如下 4 个例子中,GPT-3 (CoT)不但能生成正确的答案,也能给出相关、正确且完整的解释。这说明 GPT-3 (CoT) 在 ScienceQA 数据集上表现出较强的多步推理和解释能力。

42f6a452-5860-11ed-a3b6-dac502259ad0.png

43b82d0c-5860-11ed-a3b6-dac502259ad0.png

43e1b64a-5860-11ed-a3b6-dac502259ad0.png

440c169c-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 生成正确答案和解释的例子。

失败案例 I

在下面的三个例子中,GPT-3 (CoT)虽然生成了正确的答案,但是生成的解释不相关、不正确或者不完整。这说明 GPT-3 (CoT) 对于生成逻辑一致的长序列还面临较大的困难。

4427c04a-5860-11ed-a3b6-dac502259ad0.png

44d70ed8-5860-11ed-a3b6-dac502259ad0.png

44f11b70-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 能生成正确答案、但是生成的解释不正确的例子。

失败案例 II

在下面的四个例子中,GPT-3 (CoT) 不能生成正确的答案,也不能生成正确的解释。其中的原因有:(1)当前的 image captioning 模型还不能准确地描述示意图、表格等图片的语义信息,如果用图片注释文本表示图片,GPT-3 (CoT) 还不能很好地回答包含图表背景的问题;(2)GPT-3 (CoT) 生成长序列时,容易出现前后不一致(inconsistent)或不连贯(incoherent)的问题;(3)GPT-3 (CoT) 还不能很好地回答需要特定领域知识的问题。

455a2bec-5860-11ed-a3b6-dac502259ad0.png

4578dfec-5860-11ed-a3b6-dac502259ad0.png

46242bea-5860-11ed-a3b6-dac502259ad0.png

463ff8d4-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 能生成错误答案和解释的例子。

4、结论与展望

作者提出了首个标注详细解释的多模态科学问答数据集 ScienceQA。ScienceQA 包含 21208 道来自中小学科学学科的多选题,涵盖三大科学领域和丰富的话题,大部分问题标注有详细的背景知识和解释。ScienceQA 可以评估模型在多模态理解、多步推理和可解释性方面的能力。作者在 ScienceQA 数据集上评估了不同的基准模型,并提出 GPT-3 (CoT) 模型在生成答案的同时,可以生成相应的背景知识和解释。大量的实验分析和案例分析对模型的改进提出了有利的启发。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26044
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123899

原文标题:NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保护科学

    损坏的风险(所有浸入水中的技术设备都是如此),这意味着数据可能会在不知不觉中丢失,而基线数据的后续缺口可能会妨碍科学家得出具有统计意义的可靠结论。 在边缘部署
    发表于 10-27 09:18

    什么是AI模型推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定基础,该模型近日在 Hugging Face 的物理
    的头像 发表于 09-23 15:19 832次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    和灵感与诺贝尔奖和重大科学发现 科学发现中,直觉是重要的起点。是基于经验情感及知识的模式识别和类比能力,而不是基于逻辑和推理。 灵感通常是新的、创意的想法或者突破性的
    发表于 09-17 11:45

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案实现网络全流量
    发表于 07-16 15:29

    模型推理显存和计算量估计方法研究

    方法。 一、引言 大模型推理是指在已知输入数据的情况下,通过深度学习模型进行预测或分类的过程。然
    发表于 07-03 19:43

    CoT 数据如何模型学会一步一步思考?

    目前,大模型的回答路径基本遵循 input-output 的方式,在面对复杂任务时表现不佳。反之,人类会遵循一套有条理的思维流程,逐步推理得出正确答案。这种差异促使人们深入思考:如何才能让大
    的头像 发表于 04-24 16:51 1037次阅读
    CoT <b class='flag-5'>数据</b><b class='flag-5'>集</b>如何<b class='flag-5'>让</b>大<b class='flag-5'>模型</b>学会一步一步思考?

    首创开源架构,天玑AI开发套件端侧AI模型接入得心应手

    Studio提供最优解。Neuron Studio可针对模型到应用,提供一站式、全路、自动化的开发协助,不仅AI应用开发的全流程可视化,更带来整个多种工具的一站式开发能力,还支
    发表于 04-13 19:52

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命

    谷歌第七代TPU Ironwood深度解读:AI推理时代的硬件革命 Google 发布 Ironwood,这是其第七代张量处理单元 (TPU),专为推理而设计。这款功能强大的 AI
    的头像 发表于 04-12 11:10 2886次阅读
    谷歌第七代TPU Ironwood<b class='flag-5'>深度</b>解读:AI<b class='flag-5'>推理</b>时代的硬件革命

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    专业数据 注入大量数学/科学文献与合成推理数据 微调策略 多任务联合训练 推理强化
    发表于 02-14 02:08

    AI模型思维功能升级,提升透明度与可信度

    据外媒最新报道,OpenAI近期对其o3-mini AI模型进行了重要更新,引入了备受瞩目的“思维”功能。这一创新之举使得用户能够直观地观察到模型
    的头像 发表于 02-10 09:06 787次阅读

    OpenAI o3-mini模型思维遭质疑

    近日,OpenAI公开了其大模型o3-mini的推理思维,这一举措使得免费用户和付费用户都能深入了解模型的思考过程。这一透明度的提升,原本
    的头像 发表于 02-08 10:57 906次阅读

    科大讯飞发布星火深度推理模型X1

    今天,科大讯飞正式发布星火深度推理模型X1,星火4.0 Turbo底座全面升级,首发星火语音同传大模型
    的头像 发表于 01-15 15:54 1033次阅读

    科大讯飞即将发布讯飞星火深度推理模型X1

    近日,科大讯飞在1月7日成功举办的办公智能体产品升级发布会上,宣布一项令人振奋的新进展。据科大讯飞官方透露,公司将于1月15日正式对外发布其最新的“讯飞星火深度推理模型X1”。 这一新模型
    的头像 发表于 01-08 10:30 1025次阅读

    智谱推出深度推理模型GLM-Zero预览版

    近日,智谱公司正式发布深度推理模型GLM-Zero的预览版——GLM-Zero-Preview。这款模型标志着智谱在扩展强化学习技术训练
    的头像 发表于 01-03 10:42 764次阅读

    智谱GLM-Zero深度推理模型预览版正式上线

    近日,智谱公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上线。这款模型是智谱首个基于扩展强化学习技术训练的
    的头像 发表于 01-02 10:55 797次阅读