理解指向，说出坐标，Shikra开启多模态大模型参考对话新维度-电子发烧友网

在人类的日常交流中，经常会关注场景中不同的区域或物体，人们可以通过说话并指向这些区域来进行高效的信息交换。这种交互模式被称为参考对话（Referential Dialogue）。

如果 MLLM 擅长这项技能，它将带来许多令人兴奋的应用。例如，将其应用到 Apple Vision Pro 等混合现实 (XR) 眼镜中，用户可以使用视线注视指示任何内容与 AI 对话。同时 AI 也可以通过高亮等形式来指向某些区域，实现与用户的高效交流。

本文提出的Shikra 模型，就赋予了 MLLM 这样的参考对话能力，既可以理解位置输入，也可以产生位置输出。

论文地址：http://arxiv.org/abs/2306.15195
代码地址：https://github.com/shikras/shikra

核心亮点

Shikra 能够理解用户输入的 point/bounding box，并支持 point/bounding box 的输出，可以和人类无缝地进行参考对话。

Shikra 设计简单直接，采用非拼接式设计，不需要额外的位置编码器、前 / 后目标检测器或外部插件模块，甚至不需要额外的词汇表。

如上图所示，Shikra 能够精确理解用户输入的定位区域，并能在输出中引用与输入时不同的区域进行交流，像人类一样通过对话和定位进行高效交流。

如上图所示，Shikra 不仅具备 LLM 所有的基本常识，还能够基于位置信息做出推理。

如上图所示，Shikra 可以对图片中正在发生的事情产生详细的描述，并为参考的物体生成准确的定位。

尽管Shikra没有在 OCR 数据集上专门训练，但也具有基本的 OCR 能力。

更多例子

其他传统任务

方法

模型架构采用 CLIP ViT-L/14 作为视觉主干，Vicuna-7/13B 作为基语言模型，使用一层线性映射连接 CLIP 和 Vicuna 的特征空间。

Shikra 直接使用自然语言中的数字来表示物体位置，使用 [xmin, ymin, xmax, ymax] 表示边界框，使用 [xcenter, ycenter] 表示区域中心点，区域的 xy 坐标根据图像大小进行归一化。每个数字默认保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。记录坐标的方括号也自然地出现在句子中。

实验结果

Shikra 在传统 REC、VQA、Caption 任务上都能取得优良表现。同时在 PointQA-Twice、Point-V7W 等需要理解位置输入的 VQA 任务上取得了 SOTA 结果。

本文使用 POPE benchmark 评估了 Shikra 产生幻觉的程度。Shikra 得到了和 InstrcutBLIP 相当的结果，并远超近期其他 MLLM。

思想链（CoT），旨在通过在最终答案前添加推理过程以帮助 LLM 回答复杂的 QA 问题。这一技术已被广泛应用到自然语言处理的各种任务中。然而如何在多模态场景下应用 CoT 则尚待研究。尤其因为目前的 MLLM 还存在严重的幻视问题，CoT 经常会产生幻觉，影响最终答案的正确性。通过在合成数据集 CLEVR 上的实验，研究发现，使用带有位置信息的 CoT 时，可以有效减少模型幻觉提高模型性能。

结论

本文介绍了一种名为 Shikra 的简单且统一的模型，以自然语言的方式理解并输出空间坐标，为 MLLM 增加了类似于人类的参考对话能力，且无需引入额外的词汇表、位置编码器或外部插件。

THE END

原文标题：理解指向，说出坐标，Shikra开启多模态大模型参考对话新维度

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2870

文章
41662

浏览量
358436

原文标题：理解指向，说出坐标，Shikra开启多模态大模型参考对话新维度

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互，同时多模态问答技术的加持，能实现所见即所问

发表于 04-18 17:01 •283次阅读

李未可科技正式推出WAKE-AI多<b class='flag-5'>模态</b>AI大<b class='flag-5'>模型</b>

AI机器人迎来多模态模型

配备 GR00T 模型的机器人由于需要“吸收消化”外界的多模态信息，还要快速完成理解、决策、行动等一系列动作，因此对于算力的需求是巨量的。

发表于 04-12 10:39 •91次阅读

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据，为更丰富的交互和查询响应提供了可能性。

发表于 01-19 16:11 •285次阅读

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

发表于 12-28 11:19 •480次阅读

从Google多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>看后续大<b class='flag-5'>模型</b>应该具备哪些能力

谷歌Gemini模型AI网络及TPU拆解

Gemini 是一款新型的多模态大语言模型，此前多模态大模型在处理视频、文字、图像等多维度输入信息时是采用分别训练分别输出再进行拼接的方式，

发表于 12-14 09:55 •534次阅读

谷歌Gemini<b class='flag-5'>模型</b>AI网络及TPU拆解

大模型+多模态的3种实现方法

我们知道，预训练LLM已经取得了诸多惊人的成就，然而其明显的劣势是不支持其他模态（包括图像、语音、视频模态）的输入和输出，那么如何在预训练LLM的基础上引入跨模态的信息，让其变得更强大、更通用呢？本节将介绍“大

发表于 12-13 13:55 •741次阅读

大<b class='flag-5'>模型</b>+多<b class='flag-5'>模态</b>的3种实现方法

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态

发表于 11-09 14:53 •258次阅读

探究编辑多<b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>的可行性

DreamLLM：多功能多模态大型语言模型，你的DreamLLM~

由于固有的模态缺口，如CLIP语义主要关注模态共享信息，往往忽略了可以增强多模态理解的模态特定知识。因此，这些研究并没有充分认识到多模式创造

发表于 09-25 17:26 •398次阅读

DreamLLM：多功能多<b class='flag-5'>模态</b>大型语言<b class='flag-5'>模型</b>，你的DreamLLM~

中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

如上图所示，UniDoc基于预训练的视觉大模型及大语言模型，将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务，通过多模态

发表于 08-31 15:29 •1085次阅读

对话文本数据的珍贵贡献：训练大模型赋予智能与情感理解

在当今信息爆炸的时代，对话文本数据正成为塑造人工智能大模型的重要基石，为这些模型注入智能和情感理解的能力。这些数据不仅在培养模型的语言表达能

发表于 08-14 10:09 •392次阅读

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

当前学界和工业界都对多模态大模型研究热情高涨。去年，谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ，它使用单一视觉语言模型

发表于 07-16 20:45 •406次阅读

VisCPM：迈向多语言多模态大模型时代

可以大致分为两类： 1. 在图生文（image-to-text generation）方面，以 GPT-4 为代表的多模态大模型，可以面向图像进行开放域对话和深度推理； 2. 在文生

发表于 07-10 10:05 •463次阅读

单张消费级显卡微调多模态大模型

把大模型的训练门槛打下来！我们在单张消费级显卡上实现了多模态大模型（LaVIN-7B, LaVIN-13B）的适配和训练

发表于 06-30 10:43 •1370次阅读

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

大型语言模型（LLM）在各种自然语言处理任务上表现出惊人的能力。与此同时，多模态大型语言模型，如 GPT-4、PALM-E 和 LLaVA，已经探索了 LLM 理解多

发表于 05-22 14:38 •450次阅读

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态

发表于 05-11 17:09 •682次阅读