0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

智能感知与物联网技术研究所 来源:未知 2023-10-30 11:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

视觉幻觉是常见于多模态大语言模型 (Multimodal Large Language Models, MLLMs) 的一个典型问题,它指的是"模型输出的描述与图片内容不相符"这一现象,如下图所示:

wKgZomVQmI6AfJAeAASklfYgC5Y728.png

图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。

以往的方法主要集中在 MLLM 本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的 MLLM。这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的 MLLMs。

近日,来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架构“啄木鸟(Woodpecker)”,通过修正的方式解决 MLLM 输出幻觉的问题。

wKgZomU_Ho6AbEbEAAL-ApHKwQg789.png

论文链接:
https://arxiv.org/pdf/2310.16045.pdf
代码链接:
https://github.com/BradyFU/Woodpecker
Woodpecker 可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。例如,面对描述任务,Woodpecker 可以修正其中带有幻觉的部分。

wKgaomVQmKeAOfU4AARjczA60Ts920.png

对于 MLLM 难以检测到的小对象,Woodpecker 也可以精准修正:

wKgaomVQmMCAb8c_AAE0uSDzseg010.png

面对 MLLM 难以解决的复杂的计数场景,Woodpecker 同样可以进行解决:

wKgZomVQmNqAAe6EAAJhEa7mVbI506.png

对于目标属性类的幻觉问题,Woopecker 处理地也很好:

wKgaomVQmQGAZktYAAGhMIx_etY271.png

我们还提供了 Demo 供读者测试使用,如下图所示,上传图片并输入请求,就可以得到修正前以及修正后的模型答复,以及供参考验证的新图片。

wKgaomVQmSWAM2BhAAR7XPMAejw641.png

wKgZomU_Ho-AGLnMAAAl6LOgh3c590.png

方法

Woodpecker 的架构如下,它包括五个主要步骤:关键概念提取、问题构造、视觉知识检验、视觉断言生成以及幻觉修正

wKgZomVQmUOAKZCGAASXeRgIHgo653.png

关键概念提取:关键概念指的是 MLLM 的输出中最可能存在幻觉的存在性目标,例如上图描述中的“自行车;垃圾桶;人”。我们可以 Prompt 大语言模型来提取出这些关键概念,这些关键概念是后续步骤进行的基础;

问题构造:围绕着前一步提取出的关键概念,Prompt 大语言模型来提出一些有助于检验图片描述真伪的问题,如“图中有几辆自行车?”、“垃圾桶边上的是什么?”等等;

视觉知识检验:使用视觉基础模型对提出的问题进行检验,获得与图片以及描述文本相关的信息。例如,我们可以利用 GroundingDINO 来进行目标检测,确定关键目标是否存在以及关键目标的数量。这里我们认为像 GroundingDINO 这类视觉基础模型对图片的感知能力比 MLLM 本身的感知能力更强。对于目标颜色等这类属性问题,我们可以利用 BLIP-2 来进行回答。BLIP-2这类传统 VQA 模型输出答案的长度有限,幻觉问题也更少;

视觉断言生成:基于前两步中获得的问题以及对应的视觉信息,合成结构化的“视觉断言”。这些视觉断言可以看做与原有 MLLM 的回答以及输入图片相关的视觉知识库;

幻觉修正:基于前面得到的,使用大语言模型对 MLLM 的文本输出进行逐一修正,并提供目标对应的检测框信息作为视觉检验的参照。

wKgZomU_HpCAWuRJAAAuhh9-KLM103.png  

实验效果

实验选取了几个典型的 MLLM 作为基线,包括:LLaVA,mPLUG-Owl,Otter,MiniGPT-4 论文中首先测试了 Woodpecker 在面对目标幻觉时的修正能力,在 POPE 验证集的实验结果如下表所示:

wKgZomU_HpCAYpNeAAUJbot3fhA482.png

结果表明在不同的 MLLM 上应用 Woodpecker 修正后,均有不同程度的提升。在随机设定下,Woodpecker 给 MiniGPT-4和 mPLUG-Owl 和在准确率指标上分别带来了 30.66% 和 24.33% 的提升。

此外,研究者还应用更全面的验证集 MME,进一步测试 Woodpecker 在面对属性幻觉时的修正能力,结果如下表所示:

wKgZomU_HpCAZZxiAAVN85YCstY979.png

从表中可见 Woodpecker 不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现。LLaVA 的颜色得分从 78.33 分大幅提升到 155 分!经过 Woodpecker 修正后,四个基线模型在四个测试子集上的总分均超过 500 分,在总体感知能力上获得了显著提升。

为了更直接地衡量修正表现,更直接的方式是使用开放评测。不同于以往将图片转译后送入纯文本 GPT-4 的做法,文章利用 OpenAI 最近开放的视觉接口,提出使用 GPT-4 (Vision) 对修正前后的图片描述直接对下列两个维度进行打分:
  • 准确度:模型的答复相对于图片内容是否准确
  • 详细程度:模型答复的细节丰富度

在该实验条件下,实验结果如下表所示:

wKgZomU_HpCANOUaAAMOsiQfU-E600.png

结果表明经过 Woodpecker 修正后图片描述的准确性有一定的提升,这说明该框架可以有效修正描述中幻视的部分。另一方面,Woodpecker 修正后引入的定位信息丰富了文本描述,提供了进一步的位置信息,从而提升了细节丰富度。GPT-4V 辅助的评测样例如下图所示:

wKgaomVQmY2ABM_cAAS4Bjh-SKE689.png

·


原文标题:幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2951

    文章

    48282

    浏览量

    419769

原文标题:幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    模态模型 前沿算法与实战应用 第一季》精品课程简介

    部署延迟问题 采用模型剪枝、量化(如INT8)和知识蒸馏降低推理延迟。例如将CLIP模型蒸馏为更小的学生模型,在保持80%性能的同时将推理速度提升3倍。 四、技术演进趋势
    发表于 05-01 17:46

    海康威视推出森林防火模态智能研判大模型产品

    海康威视公共服务行业软件特推出森林防火模态智能研判大模型产品,依托海康威视观澜大模型能力,对不同等级的火情分类处理,减少90%的无效告警² ,让
    的头像 发表于 04-14 15:26 888次阅读

    海光DCU完成Qwen3.5模态MoE模型全量适配

    近日,海光DCU完成Qwen3.5-397B MoE旗舰模态模型、Qwen3.5-35B-A3B MoE模态
    的头像 发表于 03-26 09:35 904次阅读

    嵌入式AI开发必看:杜绝幻觉,才是工业级IDE的核心底气

    验机制,通过自动化测试用例对生成代码进行持续验证,结合工业场景规则库进行自我修正。 无需人工干预即可完成轮校验,确保代码符合工业控制系统“可预测、可验证、可交付”的核心要求,从根源杜绝 AI 幻觉
    发表于 03-18 13:49

    模态感知大模型驱动的密闭空间自主勘探系统的应用与未来发展

        模态感知大模型驱动的密闭空间自主勘探系统    北京华盛恒辉模态感知大模型驱动的密闭
    的头像 发表于 12-29 11:27 559次阅读

    模态模型驱动的复杂环境精准导航避障系统平台的应用

    模态模型驱动的复杂环境精准导航避障系统平台的应用
    的头像 发表于 12-22 13:15 476次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>驱动的复杂环境精准导航避障系统平台的应用

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova 模态
    的头像 发表于 12-08 11:19 1252次阅读
    商汤科技正式发布并开源全新<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>模型</b>架构NEO

    格灵深瞳模态模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本、图像、音频乃至视频,实现跨
    的头像 发表于 11-02 15:56 1944次阅读
    格灵深瞳<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 443次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    商汤日日新V6.5模态模型登顶全球权威榜单

    根据权威评测平台OpenCompass模态模型学术榜单(Multi-modal Academic Leaderboard)最新数据显示,商汤「日日新 V6.5」(SenseNova-V6.5
    的头像 发表于 09-10 09:55 1048次阅读

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    RK3576 给出了首个可量产的答案:一套完整的模态交互对话解决方案。 RK3576 模态纯文字:自我介绍 如今,“端侧能否独立运行
    发表于 09-05 17:25

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单一的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这一进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“机器可读教材
    的头像 发表于 09-05 13:49 3011次阅读

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    )的端侧部署需求设计,提供从模型转换到推理的完整工具链,包括量化、性能调优和模态支持。 RKLLM 量化类型:量化通过降低模型精度来提高
    发表于 08-29 18:08

    AI智能体+AIoT:智能时代的关键联结,还是又一场幻觉与泡沫?

    从大模型的爆发,到边缘计算的逐渐普及,从智能语音助手走进家庭,到智能设备接入云端,AI智能体与AIoT的结合,正成为产业界的新热点。但在技术热潮的背后,我们必须提出一个冷静的问题:我们是为了更好
    的头像 发表于 07-11 14:57 1983次阅读
    AI智能体+AIoT:智能时代的关键联结,还是又一场<b class='flag-5'>幻觉</b>与泡沫?

    商汤日日新SenseNova融合模态模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI模态模型首轮评估。 商汤日日新SenseNova融合模态模型在所有
    的头像 发表于 06-11 11:57 1640次阅读