0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多模态大模型最全综述来了!

深度学习自然语言处理 来源:量子位 2023-09-26 16:42 次阅读

多模态大模型最全综述来了!

由微软7位华人研究员撰写,足足119页——

0ef65ffa-5c36-11ee-939d-92fbcf53809c.png

它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:

视觉理解

视觉生成

统一视觉模型

LLM加持的多模态大模型

多模态agent

0f01b436-5c36-11ee-939d-92fbcf53809c.gif

‍并重点关注到一个现象:

多模态基础模型已经从专用走向通用

Ps. 这也是为什么论文开头作者就直接画了一个哆啦A梦的形象。

谁适合阅读这份综述(报告)?

用微软的原话来说:

只要你想学习多模‍态基础模型的基础知识和最新进展,不管你是专业研究员,还是在校学生,它都是你的“菜”。

一起来看看~

一文摸清多模态大模型现状

这五个具体主题中的前2个为目前已经成熟的领域,后3个则还属于前沿领域。

1、视觉理解

这部分的核心问题是如何预训练一个强大的图像理解backbone。

如下图所示,根据用于训练模型的监督信号的不同,我们可以将方法分为三类:

标签监督、语言监督(以CLIP为代表)和只有图像的自监督。

其中最后一个表示监督信号是从图像本身中挖掘出来的,流行的方法包括对比学习、非对比学习和masked image建模。

在这些方法之外,文章也进一步讨论了多模态融合、区域级和像素级图像理解等类别的预训练方法。

0f15730e-5c36-11ee-939d-92fbcf53809c.png

还列出了以上这些方法各自的代表作品。

0f2ac5ce-5c36-11ee-939d-92fbcf53809c.png

2、视觉生成

这个主题是AIGC的核心,不限于图像生成,还包括视频、3D点云图等等。

并且它的用处不止于艺术、设计等领域——还非常有助于合成训练数据,直接帮助我们实现多模态内容理解和生成的闭环。

在这部分,作者重点讨论了生成与人类意图严格一致的效果的重要性和方法(重点是图像生成)。

具体则从空间可控生成、基于文本再编辑、更好地遵循文本提示和生成概念定制(concept customization)四个方面展开。

0f346552-5c36-11ee-939d-92fbcf53809c.png

在本节最后,作者还分享了他们对当前研究趋势和短期未来研究方向的看法。

即,开发一个通用的文生图模型,它可以更好地遵循人类的意图,并使上述四个方向都能应用得更加灵活并可替代。

同样列出了四个方向的各自代表作:

0f411f5e-5c36-11ee-939d-92fbcf53809c.png

3、统一视觉模型

这部分讨论了构建统一视觉模型的挑战:

‍一是输入类型不同;

二是不同的任务需要不同的粒度,输出也要求不同的格式;

三是在建模之外,数据也有挑战。

比如不同类型的标签注释成本差异很大,收集成本比文本数据高得多,这导致视觉数据的规模通常比文本语料库小得多。

不过,尽管挑战多多,作者指出:

CV领域对于开发通用、统一的视觉系统的兴趣是越来越高涨,还衍生出来三类趋势:

0f4de108-5c36-11ee-939d-92fbcf53809c.png

一是从闭集(closed-set)到开集(open-set),它可以更好地将文本和视觉匹配起来。

二是从特定任务到通用能力,这个转变最重要的原因还是因为为每一项新任务都开发一个新模型的成本实在太高了;

三是从静态模型到可提示模型,LLM可以采用不同的语言和上下文提示作为输入,并在不进行微调的情况下产生用户想要的输出。我们要打造的通用视觉模型应该具有相同的上下文学习能力。

4、LLM加持的多模态大模型

本节全面探讨多模态大模型。

先是深入研究背景和代表实例,并讨论OpenAI的多模态研究进展,确定该领域现有的研究空白。

接下来作者详细考察了大语言模型中指令微调的重要性。

再接着,作者探讨了多模态大模型中的指令微调工作,包括原理、意义和应用。

最后,涉及多模态模型领域中的一些高阶主题,方便我们进行更深入的了解,包括:

更多超越视觉和语言的模态、多模态的上下文学习、参数高效训练以及Benchmark等内容。

5、多模态agent

所谓多模态agent,就是一种将不同的多模态专家与LLM联系起来解决复杂多模态理解问题的办法。

这部分,作者主要先带大家回顾了这种模式的转变,总结该方法与传统方法的根本差异。

然后以MM-REACT为代表带大家看了这种方法的具体运作方式。

接着全面总结了如何构建多模态agent,它在多模态理解方面的新兴能力,以及如何轻松扩展到包含最新、最强的LLM和潜在的数百万种工具中。

当然,最后也是一些高阶主题讨论,包括如何改进/评估多多模态agent,由它建成的各种应用程序等。

0f55cde6-5c36-11ee-939d-92fbcf53809c.png

作者介绍

本报告一共7位作者。

发起人和整体负责人为Chunyuan Li。

他是微软雷德蒙德首席研究员,博士毕业于杜克大学,最近研究兴趣为CV和NLP中的大规模预训练。

他负责了开头介绍和结尾总结以及“利用LLM训练的多模态大模型”这章的撰写。

核心作者一共4位:

Zhe Gan

目前已进入Apple AI/ML工作,负责大规模视觉和多模态基础模型研究。此前是Microsoft Azure AI的首席研究员,北大本硕毕业,杜克大学博士毕业。

Zhengyuan Yang

微软高级研究员,罗切斯特大学博士毕业,获得了ACM SIGMM杰出博士奖等荣誉,本科就读于中科大。

Jianwei Yang

微软雷德蒙德研究院深度学习小组首席研究员。佐治亚理工学院博士毕业。

Linjie Li(女)

Microsoft Cloud & AI计算机视觉组研究员,普渡大学硕士毕业。

他们分别负责了剩下四个主题章节的撰写。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1069

    浏览量

    40098
  • AIGC
    +关注

    关注

    1

    文章

    277

    浏览量

    1084
  • 大模型
    +关注

    关注

    2

    文章

    1740

    浏览量

    1337

原文标题:综述 | 多模态大模型最全综述来了!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    航空电子设备PCB组件的实验模态分析

    ,本文试图采用有限元分析(FEA)与实验模态分析(EMA)相结合的预试验分析技术来进行某航电设备PCB 组件(图1 所示)的动态特性分析,并建立了该PCB 组件的有限元动力学分析模型。  1 有限元模态
    发表于 09-13 16:40

    有限集模型预测控制策略综述

    有限集模型预测控制的综述
    发表于 11-20 11:27

    简单的模型进行流固耦合的模态分析

      本次分享,对一个简单的模型进行流固耦合的模态分析,有限元科技小编主要给大家演示如何使用Hypermesh与Nastran对流固耦合的结构进行模态分析,以及了解声腔对结构模态的影响。
    发表于 07-07 17:15

    什么是模型呢?模型给我们带来了什么?

    什么是模型呢?什么是关系?怎样确定一个模型模型给我们带来了什么?
    发表于 07-02 07:13

    蛋白质能量模型的多模态优化算法综述

    算法的基础,提出了一种基于二面角相似度的蛋白质构象多模态优化方法。首先,执行模态探测,将 Rosetta粗粒度能量模型作为筛选高质量新个体的标准,进行种群更新,増加种群构象的多样性;然后,建立二面角相似度
    发表于 05-18 15:33 1次下载

    涡扇发动机风扇管道声模态识别测量综述

    涡扇发动机风扇管道声模态识别测量综述
    发表于 07-02 15:46 12次下载

    抖动按键技术及双狄拉克模型综述

    抖动按键技术及双狄拉克模型综述
    发表于 07-16 14:15 2次下载

    单张消费级显卡微调多模态模型

    把大模型的训练门槛打下来!我们在单张消费级显卡上实现了多模态模型(LaVIN-7B, LaVIN-13B)的适配和训练
    的头像 发表于 06-30 10:43 1557次阅读
    单张消费级显卡微调多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    VisCPM:迈向多语言多模态模型时代

    随着 GPT-4 和 Stable Diffusion 等模型模态能力的突飞猛进,多模态模型已经成为大模型迈向通用人工智能(AGI)目标
    的头像 发表于 07-10 10:05 495次阅读
    VisCPM:迈向多语言多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>时代

    更强更通用:智源「悟道3.0」Emu多模态模型开源,在多模态序列中「补全一切」

    当前学界和工业界都对多模态模型研究热情高涨。去年,谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ,它使用单一视觉语言模型
    的头像 发表于 07-16 20:45 428次阅读
    更强更通用:智源「悟道3.0」Emu多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>开源,在多<b class='flag-5'>模态</b>序列中「补全一切」

    探究编辑多模态大语言模型的可行性

    不同于单模态模型编辑,多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态
    发表于 11-09 14:53 292次阅读
    探究编辑多<b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>的可行性

    模型+多模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强大、更通用呢?本节将介绍“大
    的头像 发表于 12-13 13:55 888次阅读
    大<b class='flag-5'>模型</b>+多<b class='flag-5'>模态</b>的3种实现方法

    从Google多模态模型看后续大模型应该具备哪些能力

    前段时间Google推出Gemini多模态模型,展示了不凡的对话能力和多模态能力,其表现究竟如何呢?
    的头像 发表于 12-28 11:19 562次阅读
    从Google多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>看后续大<b class='flag-5'>模型</b>应该具备哪些能力

    蚂蚁推出20亿参数多模态遥感模型SkySense

    据了解,负责开发的百灵团队利用自身拥有的19亿遥感影像数据集进行了预训练,从而生成了具有20.6亿参数的SkySense大模型。官方称其为全球范围内参数规模最大、任务覆盖最全且识别精度最高的多模态遥感大
    的头像 发表于 02-28 15:53 294次阅读

    蚂蚁集团推出20亿参数多模态遥感基础模型SkySense

    近日,蚂蚁集团联合武汉大学宣布成功研发出20亿参数多模态遥感基础模型SkySense。这一创新模型由蚂蚁集团的AI创新研发部门NextEvo与武汉大学共同完成,是迄今为止国际上参数规模最大、覆盖任务
    的头像 发表于 03-04 11:22 348次阅读