多模态机器学习的图像语言转换器-电子发烧友网

对于 AI 系统来说，将语言与视觉联系起来是它需要面对并学会解决的基本问题，例如在进行图像的检索时，AI 系统需要既能识别图像，也能识别语言，并将二者相关联起来。

对于这类需要 AI 系统识别不同种类或形式的信息来源的任务中，就需要多模态机器学习（MML/Multimodal Machine Learning）来发挥作用。所谓模态，指的是一种信息的来源或形式，例如文字、图像、视频、音频等都是模态。多模态机器学习是指利用机器学习来处理多种模态的信息。

近些年来，在多模态机器学习领域中，多模态图像语言转换器（Multimodal image–language transformers）已经取得了深刻进展，尤其在解决各种需要微调的任务，如视觉问答、图像检索中发挥了关键性作用。

但是，在既需要处理图像又需要处理语言文本的多模态机器学习任务中，有一类问题对于多模态图像语言转换器来说尤其棘手，那就是对文本中的动词的理解。例如要求 AI 系统来在图像中区分识别找出“踢球”和“抛球”这两种情景。在这一任务中，AI 系统不仅需要识别出图像中的“球”这一对象，还需要识别图像中不同对象之间的关系。

为了评估近年来多模态图像语言转换器的预训练水平，尤其是在“看图理解”中对于上文所说的动词的识别能力。近日，DeepMind 开发出一套方法，并引入了名为 SVO-Probes 的“图像－句子对” 数据集，来评估不同 AI 系统的多模态预训练模型对于动词的理解水平，尤其是了解这些 AI 系统多模态转换器的预训练模型在结合语言文本来识别图像时，到底是既能够识别中图片中的物体、也能区分中图像中的动作，还是只能够识别出图中的物体。

为了达到这一目的，DeepMind 建立的 SVO-Probes 数据集包含了 48000 个图像-句子对，可以测试 AI 系统对 447 个动词的理解，这些动词要么是视觉可以区分的，要么是在预训练数据中常见的，例如许多概念字幕数据集。这个数据集中的每个句子都可以分解成一个 <主语、动词、宾语> 三元组，也就是 SVO 三元组，并分别配对有与句子描述的内容相符和不符的图像，它们在是实验中分别被称为“正实例图像” 和 “负实例图像”。

图｜评估多模态语言图像转换器对于动词的识别能力的 SVO- Probes 数据集中的图像-句子对（来源：DeepMind）

上图显示了图像-句子对的几个例子，以左上角的图像-句子对为例，分别显示了与句子“孩子、过、马路”相符的正示例图像，以及与“女士、过、马路”不符的负示例图像，通过这一对可以测试 AI 系统识别图中的对象——也就是名词的能力；而上方中间的图像-句子对，则分别显示了”人、唱歌、演唱会上“ 的正示例图像和”“人、跳舞、演唱会上“ 的负示例图像。通过这一对就可以既测试 AI 系统识别图中的名词的能力，也能测试 AI 识别动词的能力。

在实验中使用这一 SVO-Probes 数据集以零样本的方式对 AI 预训练模型进行评估之后，DeepMind 的工程师发现，相比名词等其他词性，预训练模型在需要动词理解的情况下错误率要高很多。

下面的条形图详细说明了测试的结果。标准多模态转换器模型经过测试后总体准确率达到 64.3%，这也显示了 SVO- Probes 数据集确实具有挑战性。而这一 AI 模型在对于主语和宾语判断的准确率分别为 67.0% 和 73.4%，但是对于动词判断的准确率却下降到 60.8%。这一结果表明，动词识别确实对 AI 系统模型具有挑战性。

此外，该公司的工程师们还进一步总结调查了哪些类别的动词对于这些 AI 预训练模型尤其具有挑战性。结果发现，像“抓”这样的运动性动词以及“带领”这样在不同类型的语境中经常出现的动词对于 AI 来说更容易。而 AI 模型判断的正确率最高的动词有“打斗”“包围”“滑雪”“参加”等；而错误率最高的几个动词有“切”“争论”“断”等。

图｜多模态机器学习的图像语言转换器对于 SVO-Probes 数据集进行判断测试之后的结果（来源：DeepMind）

值得一提的是，当工程师们对哪些模型架构在 SVO-Probes 数据集上的表现更好这一问题进行探索时，他们惊讶地发现，相比图像建模能力更强的标准图像语言转换器模型，那些图像建模较弱的模型反而表现更好。对这一与直觉相反的发现的解释的一个假设是，标准转换器模型在图像识别方面可能有些“过度训练”了。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

转换器

转换器

+关注

关注
27

文章
8213

浏览量
142017
AI

AI

+关注

关注
87

文章
26485

浏览量
264130
数据集

数据集

+关注

关注
4

文章
1179

浏览量
24366

原文标题：AI多模态图像语言转换器在看图理解中对动词的识别力

文章出处：【微信号：WW_CGQJS，微信公众号：传感器技术】欢迎添加关注！文章转载请注明出处。

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据，为更丰富的交互和查询响应提供了可能性。

发表于 01-19 16:11 •287次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •130次阅读

<b class='flag-5'>机器</b>人基于开源的多<b class='flag-5'>模态</b><b class='flag-5'>语言</b>视觉大模型

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括

发表于 12-28 11:45 •215次阅读

自动驾驶和多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b>模型的发展历程

OBC车载充电机与DCDC转换器，可应用于电动汽车#车载充电机 #车载DCDC转换器 #电动汽车OBC

dcdc转换器

迪龙新能源

发布于 :2023年12月15日 14:29:13

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单

目前的 VL 预训练方法通常仅适用于视觉和语言模态，而现实世界中的应用场景往往包含更多的模态信息，如深度图、热图像等。如何整合和分析不同模态

发表于 11-23 15:46 •290次阅读

用<b class='flag-5'>语言</b>对齐多<b class='flag-5'>模态</b>信息，北大腾讯等提出LanguageBind，刷新多个榜单

Buck转换器如何工作

电路Buck转换器

油泼辣子

发布于 :2023年11月18日 11:51:37

岩土工程监测利器：多通道振弦传感器信号转换器指示灯说明

传感器转换器

河北稳控科技

发布于 :2023年09月08日 15:52:50

python机器学习概述

是一种非常流行的编程语言，因为它具有非常强大的数据分析和科学计算库。Python可以被用来完成一系列的任务，包括机器学习、数据分析、图像处理、自然语

发表于 08-17 16:11 •771次阅读

机器学习可以分为哪几类？机器学习技术有哪些？

对自然语言、图像、声音、视频等数据进行分析、分类、预测的重要方法之一。在日常生活和工作中，我们可以看到机器学习广泛应用于推荐系统、搜索引擎、语音识别、自然

发表于 08-17 16:11 •4406次阅读

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

热度。Flamingo 具备强大的多模态上下文少样本学习能力。 Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合，并插入可学习的层来捕捉跨

发表于 07-16 20:45 •407次阅读

如何减小模态转换的影响呢？

“传输通道结构发生变化时，在两种结构的交界处电磁场的模态（也就是场型、分布）会发生变化，进而产生模态转换。”

发表于 06-16 11:19 •1019次阅读

用图像对齐所有模态，Meta开源多感官AI基础模型，实现大一统

最近，很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此，视频 - 音

发表于 05-26 15:45 •574次阅读

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

大型语言模型（LLM）在各种自然语言处理任务上表现出惊人的能力。与此同时，多模态大型语言模型，如 GPT-4、PALM-E 和 LLaVA，已经探索了 LLM 理解多

发表于 05-22 14:38 •450次阅读

多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！

基于开源多模态模型 OpenFlamingo，作者使用公开数据集创建了各种视觉指令数据，包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外，还使用仅包含语言指令数据的语言

发表于 05-12 09:55 •891次阅读

ImageBind：跨模态之王，将6种模态全部绑定！

最近，很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此，视频 - 音

发表于 05-11 09:30 •681次阅读