0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多模态机器学习的图像语言转换器

传感器技术 来源:麻省科技评论 作者:麻省科技评论 2022-04-24 15:59 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对于 AI 系统来说,将语言与视觉联系起来是它需要面对并学会解决的基本问题,例如在进行图像的检索时,AI 系统需要既能识别图像,也能识别语言,并将二者相关联起来。

对于这类需要 AI 系统识别不同种类或形式的信息来源的任务中,就需要多模态机器学习(MML/Multimodal Machine Learning)来发挥作用。所谓模态,指的是一种信息的来源或形式,例如文字、图像、视频、音频等都是模态。多模态机器学习是指利用机器学习来处理多种模态的信息。

近些年来,在多模态机器学习领域中,多模态图像语言转换器(Multimodal image–language transformers)已经取得了深刻进展,尤其在解决各种需要微调的任务,如视觉问答、图像检索中发挥了关键性作用。

但是,在既需要处理图像又需要处理语言文本的多模态机器学习任务中,有一类问题对于多模态图像语言转换器来说尤其棘手,那就是对文本中的动词的理解。例如要求 AI 系统来在图像中区分识别找出“踢球”和“抛球”这两种情景。在这一任务中,AI 系统不仅需要识别出图像中的“球”这一对象,还需要识别图像中不同对象之间的关系。

为了评估近年来多模态图像语言转换器的预训练水平,尤其是在“看图理解”中对于上文所说的动词的识别能力。近日,DeepMind 开发出一套方法,并引入了名为 SVO-Probes 的“图像-句子对” 数据集,来评估不同 AI 系统的多模态预训练模型对于动词的理解水平,尤其是了解这些 AI 系统多模态转换器的预训练模型在结合语言文本来识别图像时,到底是既能够识别中图片中的物体、也能区分中图像中的动作,还是只能够识别出图中的物体。

为了达到这一目的,DeepMind 建立的 SVO-Probes 数据集包含了 48000 个图像-句子对,可以测试 AI 系统对 447 个动词的理解,这些动词要么是视觉可以区分的,要么是在预训练数据中常见的,例如许多概念字幕数据集。这个数据集中的每个句子都可以分解成 一个 <主语、动词、宾语> 三元组,也就是 SVO 三元组,并分别配对有与句子描述的内容相符和不符的图像,它们在是实验中分别被称为“正实例图像” 和 “负实例图像”。

69a52362-c3a0-11ec-bce3-dac502259ad0.png

图|评估多模态语言图像转换器对于动词的识别能力的 SVO- Probes 数据集中的图像-句子对(来源:DeepMind)

上图显示了图像-句子对的几个例子,以左上角的图像-句子对为例,分别显示了与句子“孩子、过、马路”相符的正示例图像,以及与“女士、过、马路”不符的负示例图像,通过这一对可以测试 AI 系统识别图中的对象——也就是名词的能力;而上方中间的图像-句子对,则分别显示了”人、唱歌、演唱会上“ 的正示例图像和”“人、跳舞、演唱会上“ 的负示例图像。通过这一对就可以既测试 AI 系统识别图中的名词的能力,也能测试 AI 识别动词的能力。

在实验中使用这一 SVO-Probes 数据集以零样本的方式对 AI 预训练模型进行评估之后,DeepMind 的工程师发现,相比名词等其他词性,预训练模型在需要动词理解的情况下错误率要高很多。

下面的条形图详细说明了测试的结果。标准多模态转换器模型经过测试后总体准确率达到 64.3%,这也显示了 SVO- Probes 数据集确实具有挑战性。而这一 AI 模型在对于主语和宾语判断的准确率分别为 67.0% 和 73.4%,但是对于动词判断的准确率却下降到 60.8%。这一结果表明,动词识别确实对 AI 系统模型具有挑战性。

此外,该公司的工程师们还进一步总结调查了哪些类别的动词对于这些 AI 预训练模型尤其具有挑战性。结果发现,像“抓”这样的运动性动词以及“带领”这样在不同类型的语境中经常出现的动词对于 AI 来说更容易。而 AI 模型判断的正确率最高的动词有“打斗”“包围”“滑雪”“参加”等;而错误率最高的几个动词有“切”“争论”“断”等。

69be475c-c3a0-11ec-bce3-dac502259ad0.png

图|多模态机器学习的图像语言转换器对于 SVO-Probes 数据集进行判断测试之后的结果(来源:DeepMind)

值得一提的是,当工程师们对哪些模型架构在 SVO-Probes 数据集上的表现更好这一问题进行探索时,他们惊讶地发现,相比图像建模能力更强的标准图像语言转换器模型,那些图像建模较弱的模型反而表现更好。对这一与直觉相反的发现的解释的一个假设是,标准转换器模型在图像识别方面可能有些“过度训练”了。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 转换器
    +关注

    关注

    27

    文章

    9448

    浏览量

    156968
  • AI
    AI
    +关注

    关注

    91

    文章

    41107

    浏览量

    302593
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261

原文标题:AI多模态图像语言转换器在看图理解中对动词的识别力

文章出处:【微信号:WW_CGQJS,微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AD9553:灵活的时钟转换器,满足领域需求

    AD9553:灵活的时钟转换器,满足领域需求 在电子设计领域,时钟转换器是确保系统稳定运行的关键组件之一。今天我们要介绍的 AD9553 时钟转换器,凭借其出色的性能和广泛的应用场景
    的头像 发表于 04-20 10:35 57次阅读

    LT8471:双路拓扑DC/DC转换器的卓越之选

    LT8471:双路拓扑DC/DC转换器的卓越之选 在电子设计领域,DC/DC转换器是实现电源转换和管理的关键组件。Linear Technology的LT8471作为一款双路
    的头像 发表于 03-31 16:05 136次阅读

    ADPD4100/ADPD4101模态传感前端:功能特点与应用解析

    ADPD4100/ADPD4101模态传感前端:功能特点与应用解析 一、引言 在电子设计领域,传感前端的性能对整个系统的表现起着至关重要的作用。ADPD4100/ADPD4101
    的头像 发表于 03-27 14:50 167次阅读

    ADPD4000/ADPD4001:模态传感前端的卓越之选

    ADPD4000/ADPD4001:模态传感前端的卓越之选 在当今电子设备日益智能化、多功能化的时代,模态传感
    的头像 发表于 03-27 14:45 180次阅读

    深入解析MAX77271:模式PA降压转换器的卓越性能与应用

    深入解析MAX77271:模式PA降压转换器的卓越性能与应用 在当今的电子设备中,功率放大器(PA)的高效供电至关重要。特别是在标准手机如LTE、WCDMA、TD - SCDMA、GSM
    的头像 发表于 03-16 10:40 209次阅读

    振弦信号转换器 多输出与导轨安装

    转换器
    稳控自动化
    发布于 :2026年02月05日 14:49:18

    北斗信号转发 通道GNSS卫星信号转发介绍 gps信号转换器

    转换器
    jf_47371611
    发布于 :2026年01月23日 10:27:08

    国产电平转换器双雄登场!GS0104/GS0108 如何破解场景电压适配难题?

    电平转换器
    聚洵半导体科技
    发布于 :2025年12月22日 14:27:36

    图像采集卡:机器视觉时代的图像数据核心枢纽

    一、图像采集卡的技术本质:从信号到数据的“转换器”与“传输通道”图像采集卡(ImageCaptureCard)是机器视觉系统的核心硬件组件,本质是通过专用芯片(如FPGA、ASIC)实
    的头像 发表于 11-12 15:15 866次阅读
    <b class='flag-5'>图像</b>采集卡:<b class='flag-5'>机器</b>视觉时代的<b class='flag-5'>图像</b>数据核心枢纽

    格灵深瞳模态大模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本、图像、音频乃至视频,实现跨
    的头像 发表于 11-02 15:56 1855次阅读
    格灵深瞳<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态嵌入模型。该模型是首个通过单一模型支持文本、
    的头像 发表于 10-29 17:15 371次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    细化需求,系统需实时调整响应策略 1.2 轮对话系统鸟瞰:三颗“核心”协同驱动RK3576 模态交互对话方案基于 RKLLM 的核心运作,依赖于图像视觉编码
    发表于 09-05 17:25

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单一的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这一进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“机器可读教材
    的头像 发表于 09-05 13:49 2755次阅读

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    关键词:瑞芯微 RK3576、NPU(神经网络处理)、端侧小语言模型(SLM)、模态 LLM、边缘 AI 部署、开发板、RKLLM随着大语言
    发表于 08-29 18:08

    飞凌嵌入式RK3576模态大模型图像理解助手,让嵌入式设备“看懂”世界

    (LLM)+视觉语言模型(VLM)模态架构,推出模态大模型图像理解助手,为嵌入式设备打造 “
    的头像 发表于 07-25 11:09 1822次阅读
    飞凌嵌入式RK3576<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型<b class='flag-5'>图像</b>理解助手,让嵌入式设备“看懂”世界