幻觉降低30%！首个多模态大模型幻觉修正工作Woodpecker-电子发烧友网

视觉幻觉是常见于多模态大语言模型 (Multimodal Large Language Models, MLLMs) 的一个典型问题，它指的是"模型输出的描述与图片内容不相符"这一现象，如下图所示：

图中体现了两种幻觉，红色部分错误地描述了狗的颜色（属性幻觉），蓝色部分描述了图中实际不存在的事物（目标幻觉）。幻觉对模型的可靠性产生了显著的负面影响，因此引起了许多研究者的重视。

以往的方法主要集中在 MLLM 本身，通过在训练数据以及架构上进行改进，以重新微调的方式训练一个新的 MLLM。这种方式会造成较大的数据构建和训练开销，且较难推广到各种已有的 MLLMs。

近日，来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架构“啄木鸟（Woodpecker）”，通过修正的方式解决 MLLM 输出幻觉的问题。

论文链接：

https://arxiv.org/pdf/2310.16045.pdf

代码链接：

https://github.com/BradyFU/Woodpecker

Woodpecker 可以修正各种场景下模型输出的幻觉，并输出检测框作为引证，表明相应的目标确实存在。例如，面对描述任务，Woodpecker 可以修正其中带有幻觉的部分。

对于 MLLM 难以检测到的小对象，Woodpecker 也可以精准修正：

面对 MLLM 难以解决的复杂的计数场景，Woodpecker 同样可以进行解决：

对于目标属性类的幻觉问题，Woopecker 处理地也很好：

我们还提供了 Demo 供读者测试使用，如下图所示，上传图片并输入请求，就可以得到修正前以及修正后的模型答复，以及供参考验证的新图片。

方法

Woodpecker 的架构如下，它包括五个主要步骤：关键概念提取、问题构造、视觉知识检验、视觉断言生成以及幻觉修正。

关键概念提取：关键概念指的是 MLLM 的输出中最可能存在幻觉的存在性目标，例如上图描述中的“自行车；垃圾桶；人”。我们可以 Prompt 大语言模型来提取出这些关键概念，这些关键概念是后续步骤进行的基础；

问题构造：围绕着前一步提取出的关键概念，Prompt 大语言模型来提出一些有助于检验图片描述真伪的问题，如“图中有几辆自行车？”、“垃圾桶边上的是什么？”等等；

视觉知识检验：使用视觉基础模型对提出的问题进行检验，获得与图片以及描述文本相关的信息。例如，我们可以利用 GroundingDINO 来进行目标检测，确定关键目标是否存在以及关键目标的数量。这里我们认为像 GroundingDINO 这类视觉基础模型对图片的感知能力比 MLLM 本身的感知能力更强。对于目标颜色等这类属性问题，我们可以利用 BLIP-2 来进行回答。BLIP-2这类传统 VQA 模型输出答案的长度有限，幻觉问题也更少；

视觉断言生成：基于前两步中获得的问题以及对应的视觉信息，合成结构化的“视觉断言”。这些视觉断言可以看做与原有 MLLM 的回答以及输入图片相关的视觉知识库；

幻觉修正：基于前面得到的，使用大语言模型对 MLLM 的文本输出进行逐一修正，并提供目标对应的检测框信息作为视觉检验的参照。

实验效果

实验选取了几个典型的 MLLM 作为基线，包括：LLaVA，mPLUG-Owl，Otter，MiniGPT-4 论文中首先测试了 Woodpecker 在面对目标幻觉时的修正能力，在 POPE 验证集的实验结果如下表所示：

结果表明在不同的 MLLM 上应用 Woodpecker 修正后，均有不同程度的提升。在随机设定下，Woodpecker 给 MiniGPT-4和 mPLUG-Owl 和在准确率指标上分别带来了 30.66% 和 24.33% 的提升。

此外，研究者还应用更全面的验证集 MME，进一步测试 Woodpecker 在面对属性幻觉时的修正能力，结果如下表所示：

从表中可见 Woodpecker 不仅在应对目标幻觉时有效，在修正颜色等属性幻觉时也具有出色的表现。LLaVA 的颜色得分从 78.33 分大幅提升到 155 分！经过 Woodpecker 修正后，四个基线模型在四个测试子集上的总分均超过 500 分，在总体感知能力上获得了显著提升。

为了更直接地衡量修正表现，更直接的方式是使用开放评测。不同于以往将图片转译后送入纯文本 GPT-4 的做法，文章利用 OpenAI 最近开放的视觉接口，提出使用 GPT-4 (Vision) 对修正前后的图片描述直接对下列两个维度进行打分：

准确度：模型的答复相对于图片内容是否准确
详细程度：模型答复的细节丰富度

在该实验条件下，实验结果如下表所示：

结果表明经过 Woodpecker 修正后图片描述的准确性有一定的提升，这说明该框架可以有效修正描述中幻视的部分。另一方面，Woodpecker 修正后引入的定位信息丰富了文本描述，提供了进一步的位置信息，从而提升了细节丰富度。GPT-4V 辅助的评测样例如下图所示：

原文标题：幻觉降低30%！首个多模态大模型幻觉修正工作Woodpecker

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2870

文章
41671

浏览量
358488

原文标题：幻觉降低30%！首个多模态大模型幻觉修正工作Woodpecker

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

商汤科技联合海通证券发布业内首个面向金融行业的多模态全栈式大模型

4月23日，商汤科技正式推出“日日新SenseNova 5.0”大模型体系，并与海通证券联合发布业内首个面向金融行业的多模态全栈式大模型。

发表于 04-26 09:48 •113次阅读

商汤科技联合海通证券发布业内<b class='flag-5'>首个</b>面向金融行业的多<b class='flag-5'>模态</b>全栈式大<b class='flag-5'>模型</b>

微软下架最新大语言模型WizardLM-2，缘因“幻觉测试疏忽”

对此，微软技术人员在X平台发表声明，表示因对新模型发布流程不够了解，且忽略了幻觉测试环节，导致模型被紧急下线。目前，开发团队正在全力以赴进行测试，预计完成后将尽快重新上线。

发表于 04-22 14:15 •129次阅读

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（下）

对于语言模型（LLM）幻觉，知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息，减少了LLM中出现幻觉的可能性。

发表于 02-22 14:13 •285次阅读

利用知识图谱与Llama-Index技术构建大<b class='flag-5'>模型</b>驱动的RAG系统（下）

LLM的幻觉问题最新综述

幻觉被描述为无意义或不忠实于所提供源内容的生成内容。根据与源内容的矛盾，这些幻觉又进一步分为内在幻觉和外在幻觉。在LLMs中，幻觉的范围包含

发表于 11-22 17:40 •558次阅读

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态

发表于 11-09 14:53 •261次阅读

探究编辑多<b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>的可行性

全球首款支持 8K（8192）输入长度的开源向量模型发布

在大模型时代，向量模型的重要性进一步增强。尤其是在检索增强生成（RAG）场景中，它成为了一个核心组件，用于解决大模型的上下文长度限制、幻觉问题和知识注入问题。

发表于 11-02 14:53 •404次阅读

全球首款支持 8K（8192）输入长度的开源向量<b class='flag-5'>模型</b>发布

企业级生成式AI应用，如何克服“幻觉”问题

然而，企业级 AI 应用与个人 AI 应用需求之间存在巨大差异，对技术本身的要求也不在一个量级。仅拿当下生成式 AI 应用最让人诟病的“AI 幻觉”问题来说，放在企业级生产环境，对此几乎是“零容忍”。

发表于 09-21 16:00 •455次阅读

腾讯混元大语言模型发布：超千亿参数规模

根据官方说法，与chatgpt-3.5/4.0相比，混元大模型“幻觉”现象发生概率可减少30%-50%，同时也减少了与创作无关的描写。另外，对于安全诱导问题，可以将拒绝率提高20个百分点。

发表于 09-08 10:38 •480次阅读

大模型现存的10个问题和挑战

减轻幻觉问题并开发用于衡量幻觉的度量标准是一个蓬勃发展的研究课题。有许多初创公司专注于解决这个问题。还有一些降低幻觉的方法，例如在提示中添加更多的上下文、思维链、自我一致性，或要求

发表于 09-05 17:05 •755次阅读

大模型现存的10个问题和挑战

来源：Coggle数据科学大模型现存的问题和挑战这篇文章介绍了关于大型语言模型（LLMs）研究中的十个主要方向和问题：1.减少和度量幻觉：幻觉指的是AI

发表于 09-04 16:42 •531次阅读

大型语言模型在关键任务和实际应用中的挑战

大型语言模型的出现极大地推动了自然语言处理领域的进步，但同时也存在一些局限性，比如模型可能会产生看似合理但实际上是错误或虚假的内容，这一现象被称为幻觉（hallucination）。幻觉

发表于 08-15 09:33 •1142次阅读

大模型应用，必须警惕“速成幻觉”

大模型洗牌正当时，创业公司即将上演“大逃杀”.

发表于 07-26 09:08 •670次阅读

一种令人拍案叫绝的ChatGPT攻击手段！

众所周知，现在的大语言模型，在提供答案时，或多或少都会出现 Hallucination（幻觉）。所谓的幻觉，就是 AI 在回答时，会一本正经的胡编乱造一些不存在的内容。

发表于 06-21 10:19 •475次阅读

OpenAI称找到新方法减轻大模型“幻觉”

据说，如果open ai开发的chatgpt和谷歌开发的bard等模型完全捏造信息，就像罗列事实一样，显示ai的“幻觉（hallucination）”。例如，在谷歌今年2月公开的bard宣传视频中，聊天机器人对詹姆斯-韦伯太空望远镜进行了虚假说明。

发表于 06-02 09:50 •1649次阅读

搜索历史

幻觉降低30%！首个多模态大模型幻觉修正工作Woodpecker

论文链接：

https://arxiv.org/pdf/2310.16045.pdf

代码链接：

https://github.com/BradyFU/Woodpecker

评论

商汤科技联合海通证券发布业内首个面向金融行业的多模态全栈式大模型

微软下架最新大语言模型WizardLM-2，缘因“幻觉测试疏忽”

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（下）

LLM的幻觉问题最新综述

探究编辑多模态大语言模型的可行性

全球首款支持 8K（8192）输入长度的开源向量模型发布

最新研究综述——探索基础模型中的“幻觉”现象

企业级生成式AI应用，如何克服“幻觉”问题

腾讯混元大语言模型发布：超千亿参数规模

大模型现存的10个问题和挑战

大模型现存的10个问题和挑战

大型语言模型在关键任务和实际应用中的挑战

大模型应用，必须警惕“速成幻觉”

一种令人拍案叫绝的ChatGPT攻击手段！

OpenAI称找到新方法减轻大模型“幻觉”