0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度

智能感知与物联网技术研究所 来源:未知 2023-07-02 20:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在人类的日常交流中,经常会关注场景中不同的区域或物体,人们可以通过说话并指向这些区域来进行高效的信息交换。这种交互模式被称为参考对话(Referential Dialogue)

如果 MLLM 擅长这项技能,它将带来许多令人兴奋的应用。例如,将其应用到 Apple Vision Pro 等混合现实 (XR) 眼镜中,用户可以使用视线注视指示任何内容与 AI 对话。同时 AI 也可以通过高亮等形式来指向某些区域,实现与用户的高效交流。

本文提出的Shikra 模型,就赋予了 MLLM 这样的参考对话能力,既可以理解位置输入,也可以产生位置输出

bec5cf4c-18d4-11ee-962d-dac502259ad0.png

  • 论文地址:http://arxiv.org/abs/2306.15195

  • 代码地址:https://github.com/shikras/shikra

核心亮点

Shikra 能够理解用户输入的 point/bounding box,并支持 point/bounding box 的输出,可以和人类无缝地进行参考对话

Shikra 设计简单直接,采用非拼接式设计,不需要额外的位置编码器、前 / 后目标检测器或外部插件模块,甚至不需要额外的词汇表。

wKgaomTYg76AbCsLAAEgWXrk07s875.png

如上图所示,Shikra 能够精确理解用户输入的定位区域,并能在输出中引用与输入时不同的区域进行交流,像人类一样通过对话和定位进行高效交流。

wKgZomTYg_OAd3UQAAV75HGNYVs579.png

如上图所示,Shikra 不仅具备 LLM 所有的基本常识,还能够基于位置信息做出推理。

wKgaomTYhBWALYBTAAcHcL5EIns310.png

如上图所示,Shikra 可以对图片中正在发生的事情产生详细的描述,并为参考的物体生成准确的定位。

wKgZomTYhCeAAlPgAAGwEUh_yGQ075.png

尽管Shikra没有在 OCR 数据集上专门训练,但也具有基本的 OCR 能力。

更多例子

wKgZomTYhEuAfTF0AASeQIX7Um0293.png

其他传统任务

wKgaomTYhJiAWGQxAAwtCcQoUoM525.png

方法

模型架构采用 CLIP ViT-L/14 作为视觉主干,Vicuna-7/13B 作为基语言模型,使用一层线性映射连接 CLIP 和 Vicuna 的特征空间。

Shikra 直接使用自然语言中的数字来表示物体位置,使用 [xmin, ymin, xmax, ymax] 表示边界框,使用 [xcenter, ycenter] 表示区域中心点,区域的 xy 坐标根据图像大小进行归一化每个数字默认保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。记录坐标的方括号也自然地出现在句子中。

实验结果

Shikra 在传统 REC、VQA、Caption 任务上都能取得优良表现。同时在 PointQA-Twice、Point-V7W 等需要理解位置输入的 VQA 任务上取得了 SOTA 结果。

c25f8134-18d4-11ee-962d-dac502259ad0.png

c2b6e686-18d4-11ee-962d-dac502259ad0.png

c2d11042-18d4-11ee-962d-dac502259ad0.png

c2e079a6-18d4-11ee-962d-dac502259ad0.png

本文使用 POPE benchmark 评估了 Shikra 产生幻觉的程度。Shikra 得到了和 InstrcutBLIP 相当的结果,并远超近期其他 MLLM。

c2f4afb6-18d4-11ee-962d-dac502259ad0.png

思想链(CoT),旨在通过在最终答案前添加推理过程以帮助 LLM 回答复杂的 QA 问题。这一技术已被广泛应用到自然语言处理的各种任务中。然而如何在多模态场景下应用 CoT 则尚待研究。尤其因为目前的 MLLM 还存在严重的幻视问题,CoT 经常会产生幻觉,影响最终答案的正确性。通过在合成数据集 CLEVR 上的实验,研究发现,使用带有位置信息的 CoT 时,可以有效减少模型幻觉提高模型性能。

c33f0b10-18d4-11ee-962d-dac502259ad0.png

结论

本文介绍了一种名为 Shikra 的简单且统一的模型,以自然语言的方式理解并输出空间坐标,为 MLLM 增加了类似于人类的参考对话能力,且无需引入额外的词汇表、位置编码器或外部插件。

THE END


原文标题:理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2950

    文章

    48127

    浏览量

    418510

原文标题:理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    海光DCU完成Qwen3.5模态MoE模型全量适配

    近日,海光DCU完成Qwen3.5-397B MoE旗舰模态模型、Qwen3.5-35B-A3B MoE模态
    的头像 发表于 03-26 09:35 711次阅读

    商汤科技正式开源模态自主推理模型SenseNova-MARS

    今日,商汤正式开源模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在模态搜索与推理的核心基准测试中以 69.7
    的头像 发表于 01-30 10:13 786次阅读
    商汤科技正式开源<b class='flag-5'>多</b><b class='flag-5'>模态</b>自主推理<b class='flag-5'>模型</b>SenseNova-MARS

    商汤科技日日新V6.5荣获2025年模态模型全国第一

    近日,权威大模型评测基准 SuperCLUE 发布《中文模态视觉语言模型测评基准12月报告》,商汤日日新V6.5(SenseNova V6.5 Pro)以75.35的总分位列国内第一
    的头像 发表于 01-06 14:44 933次阅读
    商汤科技日日新V6.5荣获2025年<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>全国第一

    模态感知大模型驱动的密闭空间自主勘探系统的应用与未来发展

        模态感知大模型驱动的密闭空间自主勘探系统    北京华盛恒辉模态感知大模型驱动的密闭
    的头像 发表于 12-29 11:27 461次阅读

    模态模型驱动的复杂环境精准导航避障系统平台的应用

    模态模型驱动的复杂环境精准导航避障系统平台的应用
    的头像 发表于 12-22 13:15 405次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>驱动的复杂环境精准导航避障系统平台的应用

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova 模态
    的头像 发表于 12-08 11:19 1157次阅读
    商汤科技正式发布并开源全新<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>模型</b>架构NEO

    格灵深瞳模态模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解
    的头像 发表于 11-02 15:56 1856次阅读
    格灵深瞳<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 372次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    商汤日日新V6.5模态模型登顶全球权威榜单

    根据权威评测平台OpenCompass模态模型学术榜单(Multi-modal Academic Leaderboard)最新数据显示,商汤「日日新 V6.5」(SenseNova-V6.5
    的头像 发表于 09-10 09:55 949次阅读

    米尔RK3576部署端侧模态对话,6TOPS算力驱动30亿参数LLM

    :基于历史回答图中女孩头发和衣服分别是什么颜色 上一次我们详细讲解在RK3576上部署模态模型的案例,这次将继续讲解对话的部署流程。整
    发表于 09-05 17:25

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单一的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这一进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“机器
    的头像 发表于 09-05 13:49 2764次阅读

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    这类模态模型(支持图像和文本交互)中,“视觉 + 投影”(Vision + Projector)是模型处理图像输入的核心组件,作用是将图像信息转换为
    发表于 08-29 18:08

    飞凌嵌入式RK3576模态模型图像理解助手,让嵌入式设备“看懂”世界

    (LLM)+视觉语言模型(VLM)模态架构,推出模态模型图像
    的头像 发表于 07-25 11:09 1825次阅读
    飞凌嵌入式RK3576<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>图像<b class='flag-5'>理解</b>助手,让嵌入式设备“看懂”世界

    研华科技携手创新奇智推出模态模型AI一体机

    这是一款基于研华高性能边缘计算平台MIC-733,深度集成创新奇智视觉小模型模态模型的边缘智能终端,通过创新的“视觉识别 + 深度语义理解
    的头像 发表于 07-17 17:14 1081次阅读
    研华科技携手创新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>AI一体机

    商汤日日新SenseNova融合模态模型 国内首家获得最高评级的大模型

    的大模型。 可信AI模态模型评估2025年1月启动,由中国信通院人工智能研究所牵头,依据由业界60余家单位共同编制的《
    的头像 发表于 06-11 11:57 1566次阅读