DreamLLM：多功能多模态大型语言模型，你的DreamLLM~-电子发烧友网

今天为大家介绍西安交大，清华大学、华中科大联合MEGVII Technology的一篇关于多模态LLM学习框架的论文，名为DREAMLLM。

论文：DreamLLM: Synergistic Multimodal Comprehension and Creation
论文链接：https://arxiv.org/abs/2309.11499
GitHub：https://github.com/RunpeiDong/DreamLLM

摘要

DREAMLLM是一个学习框架，实现了通用的多模态大型语言模型（Multimodal Large Language Models，MLLMs），该模型利用了多模态理解和创造之间经常被忽视的协同作用。DREAMLLM的运作遵循两个基本原则：一是在原始多模态空间中通过直接采样对语言和图像后验进行生成建模有助于获取更彻底的多模态理解。二是促进了原始、交错文档的生成，对文本和图像内容以及非结构化布局进行建模，使得模型能够有效地学习所有条件、边际和联合多模式分布。

简介

在多模态任务中，内容理解和创作是机器智能的终极目标之一。为此，多模式大语言模型成功进入视觉领域。MLLMs在多模态理解能力方面取得了前所未有的进展。通常通过将图像作为多模式输入来增强LLM，以促进语言输出的多模式理解。其目的是通过语言后验来捕捉多模式的条件分布或边际分布。然而，涉及生成图像、文本或两者的多模式创作，需要一个通用的生成模型来同时学习语言和图像后验，而这一点目前尚未得到充分的探索。最近，一些工作显示出使用MLLMs的条件图像生成的成功。如下图所示，

由于固有的模态缺口，如CLIP语义主要关注模态共享信息，往往忽略了可以增强多模态理解的模态特定知识。因此，这些研究并没有充分认识到多模式创造和理解之间潜在的学习协同作用，只显示出创造力的微小提高，并且在多模式理解方面仍然存在不足。

创新点：DREAMLLM以统一的自回归方式生成原始语言和图像输入，本质上实现了交错生成。

知识背景

Autoregressive Generative Modeling：自回归生成建模
Diffusion Model：扩散模型

MLLMs具体做法：现有策略会导致MLLMs出现语义减少的问题，偏离其原始输出空间，为了避免，提出了替代学习方法如下图所示，即DREAMLLM模型框架。

DREAMLLM架构

DREAMLLM框架如上图所示，使用交错的文档用作输入，解码以产生输出。文本和图像都被编码成用于MLLM输入的顺序的、离散的token嵌入。特殊的＜dream＞标记可以预测在哪里生成图像。随后，一系列dream查询被输入到MLLM中，捕获整体历史语义。图像由stable diffusion图像解码器以查询的语义为条件进行合成。然后将合成的图像反馈到MLLM中用于随后的理解。

其中MLLM是基于在shareGPT上训练的LLama的Vicuna，采用CLIP-Large作为图像编码器，为了合成图像使用Stable Diffusion作为图像解码器。

模型训练

模型训练分为对齐训练、I-GPT预训练和监督微调。

实验结果

多模态理解：多模式理解使人类能够与以单词和视觉内容为条件的主体进行互动。本文评估了DREAMLLM在几个基准上的多模式视觉和语言能力。此外，对最近开发的MMBench和MM-Vet基准进行了零样本评估，以评估模型在复杂多模式任务中的性能。

发现，DREAMLLM在所有基准测试中都优于其他MLLM。值得注意的是，DREAMLLM-7B在图像合成能力方面大大超过了并发MLLMs，与Emu-13B相比，VQAv2的精度提高了16.6。在MMBench和MMVet等综合基准测试中，DREAMLLM与所有7B同行相比都取得了最先进的性能。
条件文本图像合成：条件文本图像合成是创造性内容生成最常用的技术之一，它通过自由形式的语言生成遵循人类描述的图像。

其结果如上表所示。结果显示：DREAMLLM 在阶段I对齐后显示出比Stable Diffusion基线显着提高FID，在 MS-COCO 和 LN-COCO 上分别将分数分别降低了 3.67 和 11.83。此外，预训练和监督微调后实现了 3.97 和 13.73 的 FID 改进。LN-COCO 的实质性改进强调了 DREAMLLM 在处理长上下文信息方面的卓越性能。与之前的专家模型相比，DREAMLLM 基于 SD 图像解码器提供了有竞争力的结果。DREAMLLM 始终优于基于并发 MLLM 的图像合成方法。
多模态联合创建于比较：分别进行了自由形式的交错文档创建、图片质量和人工评估三个实验。实验结果表明：DREAMLLM可以根据给定的指令生成有意义的响应。系统可以通过预测所提出的令牌在任何指定位置自主创建图像，从而消除了对额外人工干预的需要。DREAMLLM生成的图像准确地对应于相关文本。证明了所提方法的有效性。

总结

本文介绍了一个名为DREAMLLM的学习框架，它能够同时实现多模态理解和创作。DREAMLLM具有两个基本原则：第一个原则是通过在原始多模态空间中进行直接采样，生成语言和图像后验概率的生成建模。第二个原则是促进生成原始、交错文档，模拟文本和图像内容以及无结构的布局，使DREAMLLM能够有效地学习所有条件、边际和联合多模态分布。实验结果表明，DREAMLLM是第一个能够生成自由形式交错内容的MLLM，并具有卓越的性能。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

框架

框架

+关注

关注
0

文章
301

浏览量
17049
语言模型

语言模型

+关注

关注
0

文章
436

浏览量
10059
机器智能

机器智能

+关注

关注
0

文章
55

浏览量
8514

原文标题：DreamLLM：多功能多模态大型语言模型，你的DreamLLM~

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

如何利用Transformers了解视觉语言模型

将模型称为 “视觉语言” 模型是什么意思？一个结合了视觉和语言模态的模型？但这到底是什么意思呢？

发表于 03-03 09:49 •747次阅读

如何利用Transformers了解视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

的未来发展方向进行了展望，包括跨领域、跨模态和自动提示生成能力方向，为读者提供了对未来技术发展的深刻见解。《大语言模型原理与工程实践》是一本内容丰富、深入浅出的技术书籍。它不仅为读者提供了大语

发表于 04-30 15:35

简单的模型进行流固耦合的模态分析

　　本次分享，对一个简单的模型进行流固耦合的模态分析，有限元科技小编主要给大家演示如何使用Hypermesh与Nastran对流固耦合的结构进行模态分析，以及了解声腔对结构模态的影响。

发表于 07-07 17:15

大型语言模型有哪些用途？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。 AI 应用在大型语言模型的帮助下，可

发表于 02-23 19:50 •4326次阅读

大型语言模型有哪些用途？大型语言模型如何运作呢？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。

发表于 03-08 13:57 •7184次阅读

利用大语言模型做多模态任务

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。

发表于 05-10 16:53 •749次阅读

邱锡鹏团队提出SpeechGPT：具有内生跨模态能力的大语言模型

虽然现有的级联方法或口语语言模型能够感知和生成语音，但仍存在一些限制。首先，在级联模型中，LLM 仅充当内容生成器。由于语音和文本的表示没有对齐，LLM 的知识无法迁移到语音模态中。

发表于 05-22 10:19 •428次阅读

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

大型语言模型（LLM）在各种自然语言处理任务上表现出惊人的能力。与此同时，多模态大型

发表于 05-22 14:38 •450次阅读

大型语言模型的应用

大型语言模型（LLM）是一种深度学习算法，可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。大语言模型（LL

发表于 07-05 10:27 •1631次阅读

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

当前学界和工业界都对多模态大模型研究热情高涨。去年，谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ，它使用单一视觉

发表于 07-16 20:45 •407次阅读

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态

发表于 11-09 14:53 •262次阅读

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频

发表于 12-28 11:45 •215次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •130次阅读

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据

发表于 01-19 16:11 •287次阅读

谷歌模型软件有哪些功能

谷歌模型软件通常指的是谷歌推出的一系列人工智能模型和软件工具，其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind团队开发的一款大型语言

发表于 03-01 16:20 •212次阅读