0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

CVer 来源:CVer 2023-12-04 15:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

低成本扩大输入分辨率:探秘98亿参数多模态大模型--Monkey眼中的世界

【导读】11月,华中科技大学团队发布了新的多模态大模型——Monkey,通过专注于大分辨率,使得Monkey能够处理分辨率高达1344×896的图像,并加入了有着详细描述的高质量图文数据进行训练,帮助Monkey炼就洞察图像细节的火眼金睛,取得了与Caption和QA任务相关的16个数据集的SOTA,甚至与GPT4V相比,在密集文本问答任务上也有着亮眼的表现。

论文链接:https://arxiv.org/abs/2311.06607

代码地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的问答任务上取得了很不错的效果,可以根据问题的要求进行推理,能够适配中文问答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本较少的场景中Monkey也展现了不俗的问答能力,自身拥有丰富的知识库,可以根据问题进行外推,从而回答出正确的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任务上同样取得了出色的结果,不仅仅是对图片进行准确详细的描述,同时能够合理发散,分析出图片所传达的一些抽象含义

以下是Monkey同GPT4V在密集文本与图表上进行问答的可视化结果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下图展示了Monkey的卓越性能,在 18 个不同的数据集上进行测试的结果表明,Monkey能够很好地胜任图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务,并在16个数据集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介绍:

1. 增大输入分辨率

将原始输入图片裁剪成多个图片块,再将这些图片块和原始输入图片统一到448*448的尺寸。每个图片块经过视觉编码时会加入一个专属的Lora以此更好地提取图片块的局部视觉特征,训练时仅训练Lora部分,而原始的输入图像则用于提取全局特征,以此方法达到增大输入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多级特征融合的详细描述生成方法生成高质量图文数据

主要分为五个步骤:第一步,使用BLIP2对整张图生成全局描述;第二步用 GRIT生成区域框,并提供区域中对象的名称和详细描述,同时使用PPOCR提取区域的文本框坐标和文本内容;第三步使用SAM进行分割,并送入BLIP2生成对各个物体及其组成部分的详细描述;第四步使用BLIP-2 评估过滤掉低分匹配;最后使用ChatGPT 对上述得到的描述进行总结从而得到图像的详细描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下图为使用使用多级特征融合的详细描述生成方法后得到的标注与原始CC3M标注的对比,不难看出,两种标注之间存在着较大的差距,生成的详细标注尽可能地包含了图片中的各种细节,而不像是CC3M地原始标注那样一句带过。利用这样高质量的图文数据进行训练,使得Monkey能够更好地把握图文之间的关系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可视化对比结果与展示:

通过下图展示的Monkey在QA任务上与多种大模型的对比结果,从中我们能够更加直观地感受到Monkey强大的问答能力,能够准确地把握住问题并给出正确的回答,尤其是在密集文本问答任务上,目前的大模型或多或少都面临着一定的问题,Monkey为解决这一难题提供了一条可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

总结

Monkey提出了一种训练高效的方法,无需预训练即可有效地提高模型的输入分辨率,最高可达896 x 1344像素。为了弥补简单文本标签和高分辨率输入之间的差距,Monkey提出了一种多级特征融合的详细描述生成方法,它可以自动提供丰富的信息,以引导模型学习图像中各个物体的属性及其联系。通过这两种设计的协同作用,Monkey练就了一双火眼金睛,在多个基准测试中取得了出色的结果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 高分辨率
    +关注

    关注

    0

    文章

    65

    浏览量

    15790
  • 图像
    +关注

    关注

    2

    文章

    1097

    浏览量

    42512
  • 大模型
    +关注

    关注

    2

    文章

    3879

    浏览量

    5303

原文标题:低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高光谱相机的“鱼与熊掌”:空间分辨率与光谱分辨率,如何兼得?

    ”的超级感官。 然而,高光谱相机的研发者和使用者,始终面临一个 灵魂拷问 : 空间分辨率 (看得清不清)和 光谱分辨率 (分得细不细),就像鱼和熊掌,常常 不可兼得 。今天,我们就来聊聊这个高光谱领域的核心难题,以及那
    的头像 发表于 05-06 16:16 346次阅读

    模态模型 前沿算法与实战应用 第一季》精品课程简介

    ;模态拼接\"向\"模态共生\"演进: 统一架构 :如GPT-4V、Flamingo等模型通过单一Transformer处理任意模态输入,实
    发表于 05-01 17:46

    浅谈扫描电镜的分辨率概念

    扫描电镜(SEM)的分辨率是指其能够分辨样品表面两点之间的最小距离,是衡量其成像能力的关键指标。
    的头像 发表于 01-14 16:55 1769次阅读
    浅谈扫描电镜的<b class='flag-5'>分辨率</b>概念

    红外焦平面探测器的分辨率有哪些?高分辨率有哪些优势?

    分辨率是我们选购红外探测器时的一个关键参数,它代表了热成像像素点的数量。分辨率越高,像素点就越多,图像就越清晰,观测的距离也越远。红外热成像常见的分辨率有120x90、256x192、384x288
    的头像 发表于 12-10 16:12 1608次阅读
    红外焦平面探测器的<b class='flag-5'>分辨率</b>有哪些?高<b class='flag-5'>分辨率</b>有哪些优势?

    ADC分辨率与精度的区别是什么

    简单点说,“精度”是用来描述物理量的准确程度的,而“分辨率”是 用来描述刻度划分的。从定义上看,这两个量应该是风马牛不相及的。(是不是有朋友感到愕然^_^)。 很多卖传感器的JS就是利用这一点
    发表于 12-05 06:24

    镜头分辨率如何匹配工业相机的分辨率

    能被分辨开来的两个物点之间的最小距离,就是镜头的物方分辨率。单位为µm。这只是单纯镜头本身的参数,只反映镜头的解析能力,而和工业相机多少像素无关!它直接反映了,一个理想物点经过镜头成像后,会模糊
    的头像 发表于 11-21 15:43 595次阅读
    镜头<b class='flag-5'>分辨率</b>如何匹配工业相机的<b class='flag-5'>分辨率</b>

    提高电能质量在线监测装置的暂态记录分辨率的方法有哪些?

      提高电能质量在线监测装置暂态记录分辨率,核心是从 硬件升级、算法优化、数据处理、校准同步 四个维度突破,同时平衡 “分辨率提升” 与 “成本、功耗、稳定性”,具体方法可落地为以下 6 类关键措施
    的头像 发表于 11-14 16:12 2251次阅读

    电能质量在线监测装置的暂态记录分辨率如何影响故障类型识别?

    暂态记录分辨率是故障类型识别的 “细节放大镜”—— 核心通过 采样、幅值分辨率、时间分辨率 决定故障波形 “特征细节的完整性”,高分辨率
    的头像 发表于 11-14 16:10 2073次阅读
    电能质量在线监测装置的暂态记录<b class='flag-5'>分辨率</b>如何影响故障类型识别?

    格灵深瞳模态模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时
    的头像 发表于 11-02 15:56 1951次阅读
    格灵深瞳<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 446次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    分辨率对于模拟到数字转换器有什么重要性

    )。输入带宽:高分辨率ADC需配合宽输入带宽,以避免高频信号在采样前失真。例如,12位ADC若需处理100MHz信号,其输入带宽需远高于100MHz。功耗与
    发表于 09-18 09:31

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    与特征提取读取输入图片后,先将其扩展为正方形并填充背景色以统一尺寸,再调整至模型要求的 392x392 分辨率,最后送入视觉编码模型进行处理,生成图片的 embedding 向量,完成
    发表于 09-05 17:25

    迅为RK3588开发板Android系统修改屏幕分辨率和density

    先来了解下屏幕相关的基本概念 修改屏幕分辨率和 density 有俩种方法。 方法一: 输入以下命令查看分辨率的大小,如下图所示: wm size 输入以下命令修改屏幕
    发表于 08-12 16:53

    分辨率 vs 噪声 —— ADC的挑战

    设计者常用高分辨率 ADC 以降低最低可量测单位(LSB),提高检测精度。 比如一个 16 位 ADC 在 5V 范围内, LSB ≈ 76 μV ;理想情况下可以检测到微弱电信号。 问题是: 若
    的头像 发表于 06-23 07:38 2550次阅读
    <b class='flag-5'>分辨率</b> vs 噪声 —— ADC的挑战

    如何计算存储示波器的垂直分辨率

    存储示波器的垂直分辨率是指示波器能够分辨的最小电压变化量,它反映了示波器对信号幅度细节的测量能力,通常用位数(bit)来表示,也可通过相关公式换算为具体的电压值。以下为你详细介绍其计算方法:了解关键
    发表于 05-30 14:03