0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

全新科学问答数据集ScienceQA让深度学习模型推理有了思维链

智能感知与物联网技术研究所 来源:智能感知与物联网技术研 作者:智能感知与物联网 2022-11-01 16:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在回答复杂的问题时,人类可以理解不同模态的信息,并形成一个完整的思维链(Chain of Thought, CoT)。深度学习模型是否可以打开「黑箱」,对其推理过程提供一个思维链呢?近日,UCLA 和艾伦人工智能研究院(AI2)提出了首个标注详细解释的多模态科学问答数据集 ScienceQA,用于测试模型的多模态推理能力。在 ScienceQA 任务中,作者提出 GPT-3 (CoT) 模型,即在 GPT-3 模型中引入基于思维链的提示学习,从而使得模型能在生成答案的同时,生成相应的推理解释。GPT-3 (CoT) 在 ScienceQA 上实现了 75.17% 的准确率;并且人类评估表明,其可以生成较高质量的解释。

像人类一样有效地学习并完成复杂的任务是人工智能追求的长远目标之一。人类在决策过程中可以遵循一个完整的思维链(CoT)推理过程,从而对给出的答案做出合理的解释。

然而,已有的机器学习模型大多依赖大量的输入 - 输出样本训练来完成具体的任务。这些黑箱模型往往直接生成最终的答案,而没有揭示具体的推理过程。

科学问答任务(Science Question Answering)可以很好地诊断人工智能模型是否具有多步推理能力和可解释性。为了回答科学问题,一个模型不仅需要理解多模态内容,还需要提取外部知识以得出正确答案。同时,一个可靠的模型还应该给出揭示其推理过程的解释。然而,目前的科学问答数据集大多缺乏对答案的详细解释,或者局限于文字模态。

因此,作者收集了全新的科学问答数据集 ScienceQA,它包含了 21,208 道来自中小学科学课程的问答多选题。一道典型的问题包含多模态的背景(context)、正确的选项、通用的背景知识(lecture)以及具体的解释(explanation)。

3cf72216-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 数据集的一个例子。

要回答上图所示的例子,我们首先要回忆关于力的定义:「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」,然后形成一个多步的推理过程:「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」,最终得到正确答案:「This force is a pull. 」。

在 ScienceQA 任务中,模型需要在预测答案的同时输出详细地解释。在本文中,作者利用大规模语言模型生成背景知识和解释,作为一种思维链(CoT)来模仿人类具有的多步推理能力。

实验表明,目前的多模态问答方法在 ScienceQA 任务不能取得很好的表现。相反,通过基于思维链的提示学习,GPT-3 模型能在 ScienceQA 数据集上取得 75.17% 的准确率,同时可以生成质量较高的解释:根据人类评估,其中 65.2% 的解释相关、正确且完整。思维链也可以帮助 UnifiedQA 模型在 ScienceQA 数据集上取得 3.99% 的提升。

1、ScienceQA 数据集

数据集统计

ScienceQA 的主要统计信息如下所示。

3dda2b56-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 数据集的主要信息

ScienceQA 包含21208个例子, 其中有9122个不同的问题(question)。10332 道(48.7%)有视觉背景信息,10220 道(48.2%)有文本背景信息,6532 道(30.8%)有视觉 + 文本的背景信息。绝大部分问题标注有详细的解释:83.9% 的问题有背景知识标注(lecture),而 90.5% 的问题有详细的解答(explanation)。

3f230d0c-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 数据集中问题和背景分布。

数据集主题分布

不同于已有的数据集,ScienceQA 涵盖自然科学、社会科学和语言学三大学科分支,包含 26 个主题(topic)、127 个分类(category)和 379 个知识技能(skill)。

3f38e23a-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 的主题分布。

数据集词云分布

如下图的词云分布所示,ScienceQA 中的问题具有丰富的语义多样性。模型需要理解不同的问题表达、场景和背景知识。

40810208-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 的词云分布。

数据集比较

ScienceQA 是第一个标注详细解释的多模态科学问答数据集。相比于已有的数据集,ScienceQA 的数据规模、题型多样性、主题多样性等多个维度体现了优势。

41ec4cb0-5860-11ed-a3b6-dac502259ad0.png

ScienceQA 数据集与其它科学问答数据集的比较。

2、模型和方法

Baselines

作者在 ScienceQA 数据集了评估不同的基准方法,包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT,大规模语言模型如 UnifiedQA 和 GPT-3,以及 random chance 和 human performance。对于语言模型 UnifiedQA 和 GPT-3,背景图片会被转换成文本形式的注释(caption)。

GPT-3 (CoT)

最近的研究工作表明,在给定合适的提示后,GPT-3 模型可以在不同的下游任务表现出卓越的性能。为此,作者提出 GPT-3 (CoT) 模型,在提示中加入思维链(CoT),使得模型在生成答案的同时,可以生成对应的背景知识和解释。

具体的提示模板如下图所示。其中 Ii 表示训练例子,It 表示测试例子。训练例子包含问题(Question)、选项(Options)、背景(Context)和答案(Answer)元素,其中答案由正确答案、背景知识(Lecture)和解释(Explanation)组成。GPT-3 (CoT) 会根据输入的提示信息,补全测试例子的预测答案、背景知识和解释。

42167fa8-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 采用的提示模板。

3、实验与分析

实验结果

不同的基准和方法在 ScienceQA 测试集上的准确率结果如下表所示。当前最好的 VQA 模型之一的 VisualBERT 只能达到 61.87% 的准确率。在训练的过程引入 CoT 数据,UnifiedQA_BASE 模型可以实现 74.11% 的准确率。而 GPT-3 (CoT) 在 2 个训练例子的提示下,实现了 75.17% 的准确率,高于其它基准模型。人类在 ScienceQA 数据集上表现优异,可以达到 88.40% 的总体准确率,并且在不同类别的问题上表现稳定。

4234ac9e-5860-11ed-a3b6-dac502259ad0.png

不同的方法在 ScienceQA 测试集上的结果。

生成解释的评估

作者用自动评估指标如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 评估了不同方法生成的解释。由于自动评估指标只能衡量预测结果和标注内容的相似性,因此作者进一步采用了人工评估的方法,来评估生成解释的相关性、正确性和完整性。可以看到,GPT-3 (CoT) 生成的解释中 65.2% 符合了 Gold 标准。

4273fffc-5860-11ed-a3b6-dac502259ad0.png

不同评估方法对生成解释的结果。

不同的提示模板

作者比较了不同的提示模板对 GPT-3 (CoT) 准确率的影响。可以看到在 QAM-ALE 的模板下,GPT-3 (CoT) 可以获得最大的平均准确率和最小的方差。另外,GPT-3 (CoT) 在 2 个训练例子的提示下,表现最佳。

429455ea-5860-11ed-a3b6-dac502259ad0.png

不同提示模板的结果比较。

模型上限

为了探索 GPT-3 (CoT) 模型的性能上限,作者把标注的背景知识和解释加入模型的输入(QCMLE*-A)。我们可以看到 GPT-3 (CoT) 可以实现高达 94.13% 的准确率。这也提示了模型提升的一个可能方向:模型可以进行分步推理,即先检索到准确的背景知识和生成准确的解释,然后把这些结果作为输入。这个过程和人类解决复杂问题的过程很相似。

42a49f5e-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者进一步讨论了GPT-3 (CoT) 在生成预测时,不同的 ALE 位置对结果的影响。在 ScienceQA 上的实验结果表明,如果 GPT-3 (CoT) 先生成背景知识 L 或解释 E,再生成答案 A,其预测准确率会大幅下降。其主要原因是背景知识 L 和解释 E 有较多的词语数量,如果先生成 LE,GPT-3 模型有可能用完最大词数,或者提前停止生成文本,从而不能得到最终的答案 A。

42e3e650-5860-11ed-a3b6-dac502259ad0.png

不同的 LE 位置。

成功案例

如下 4 个例子中,GPT-3 (CoT)不但能生成正确的答案,也能给出相关、正确且完整的解释。这说明 GPT-3 (CoT) 在 ScienceQA 数据集上表现出较强的多步推理和解释能力。

42f6a452-5860-11ed-a3b6-dac502259ad0.png

43b82d0c-5860-11ed-a3b6-dac502259ad0.png

43e1b64a-5860-11ed-a3b6-dac502259ad0.png

440c169c-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 生成正确答案和解释的例子。

失败案例 I

在下面的三个例子中,GPT-3 (CoT)虽然生成了正确的答案,但是生成的解释不相关、不正确或者不完整。这说明 GPT-3 (CoT) 对于生成逻辑一致的长序列还面临较大的困难。

4427c04a-5860-11ed-a3b6-dac502259ad0.png

44d70ed8-5860-11ed-a3b6-dac502259ad0.png

44f11b70-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 能生成正确答案、但是生成的解释不正确的例子。

失败案例 II

在下面的四个例子中,GPT-3 (CoT) 不能生成正确的答案,也不能生成正确的解释。其中的原因有:(1)当前的 image captioning 模型还不能准确地描述示意图、表格等图片的语义信息,如果用图片注释文本表示图片,GPT-3 (CoT) 还不能很好地回答包含图表背景的问题;(2)GPT-3 (CoT) 生成长序列时,容易出现前后不一致(inconsistent)或不连贯(incoherent)的问题;(3)GPT-3 (CoT) 还不能很好地回答需要特定领域知识的问题。

455a2bec-5860-11ed-a3b6-dac502259ad0.png

4578dfec-5860-11ed-a3b6-dac502259ad0.png

46242bea-5860-11ed-a3b6-dac502259ad0.png

463ff8d4-5860-11ed-a3b6-dac502259ad0.png

GPT-3 (CoT) 能生成错误答案和解释的例子。

4、结论与展望

作者提出了首个标注详细解释的多模态科学问答数据集 ScienceQA。ScienceQA 包含 21208 道来自中小学科学学科的多选题,涵盖三大科学领域和丰富的话题,大部分问题标注有详细的背景知识和解释。ScienceQA 可以评估模型在多模态理解、多步推理和可解释性方面的能力。作者在 ScienceQA 数据集上评估了不同的基准模型,并提出 GPT-3 (CoT) 模型在生成答案的同时,可以生成相应的背景知识和解释。大量的实验分析和案例分析对模型的改进提出了有利的启发。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261
  • 深度学习
    +关注

    关注

    73

    文章

    5608

    浏览量

    124635

原文标题:NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集,深度学习模型推理有了思维链

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能多模态与视觉大模型开发实战 - 2026必会

    和训练,模型可以逐渐提升对图像的理解能力,实现对各种视觉任务的精准处理。 此外,视觉大模型的发展还得益于大规模数据和强大计算资源的支持。海量标注
    发表于 04-15 16:06

    【瑞萨AI挑战赛】手写数字识别模型在RA8P1 Titan Board上的部署

    轻量级深度学习模型端侧部署的优质硬件平台。本文将基于RA8P1 Titan Board开发板,结合ruhmi、RT-Thread Studio等工具,从开发环境搭建、手写数字识别模型
    发表于 03-15 20:42

    使用NORDIC AI的好处

    CPU 快 15× 能效最高可比最近的竞品 NPU 好 8×,推理速度快 7×。[Axon NPU 技术页] 开发门槛低、工具完整 Nordic Edge AI Lab :只需准备好数据
    发表于 01-31 23:16

    强化学习自动驾驶模型学习更快吗?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶大模型训练时,有的技术方案会采用模仿学习,而有些会采用强化学习。同样作为大模型的训练方式,强化学习
    的头像 发表于 01-31 09:34 831次阅读
    强化<b class='flag-5'>学习</b>会<b class='flag-5'>让</b>自动驾驶<b class='flag-5'>模型</b><b class='flag-5'>学习</b>更快吗?

    LLM推理模型是如何推理的?

    这篇文章《(How)DoReasoningModelsReason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键
    的头像 发表于 01-19 15:33 706次阅读
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    机器学习深度学习中需避免的 7 个常见错误与局限性

    ,并验证输出结果,就能不断提升专业技能,养成优秀数据科学家的工作习惯。需避免的机器学习深度学习数据
    的头像 发表于 01-07 15:37 350次阅读
    机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    中科曙光推出科学模型一站式开发平台OneScience

    for Science热点模型数据,支持地球科学、生物信息、流体仿真、材料化学等领域用户进一步开发新模型,并实现百倍提升
    的头像 发表于 10-28 17:29 1046次阅读

    利用 Banana Pi BPI-CM5 Pro(ARMSoM CM5 SoM) 加速保护科学

    损坏的风险(所有浸入水中的技术设备都是如此),这意味着数据可能会在不知不觉中丢失,而基线数据的后续缺口可能会妨碍科学家得出具有统计意义的可靠结论。 在边缘部署
    发表于 10-27 09:18

    什么是AI模型推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定基础,该模型近日在 Hugging Face 的物理
    的头像 发表于 09-23 15:19 1472次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    和灵感与诺贝尔奖和重大科学发现 科学发现中,直觉是重要的起点。是基于经验情感及知识的模式识别和类比能力,而不是基于逻辑和推理。 灵感通常是新的、创意的想法或者突破性的
    发表于 09-17 11:45

    深度学习对工业物联网哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供数据
    的头像 发表于 08-20 14:56 1211次阅读

    亚马逊云科技现已上线OpenAI开放权重模型

    开放权重模型,向数百万亚马逊云科技客户开放。 客户可利用这些全新开放权重模型的先进推理能力,支持Agentic工作流、代码生成、科学分析和数
    的头像 发表于 08-06 19:29 959次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    :路由专家) 这种创新AI的推理过程更接近人类思维,为解决复杂问题提供新的思路。 共享专家宛如一位知识渊博的通才,它始终参与模型的每一次
    发表于 07-22 22:14

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    网络智能诊断平台。通过对私有化网络数据的定向训练,信而泰打造高性能、高可靠性的网络诊断模型,显著提升了AI辅助诊断的精准度与实用性。该方案实现网络全流量
    发表于 07-16 15:29

    模型推理显存和计算量估计方法研究

    方法。 一、引言 大模型推理是指在已知输入数据的情况下,通过深度学习模型进行预测或分类的过程。然
    发表于 07-03 19:43