0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」

智能感知与物联网技术研究所 来源:未知 2023-07-16 20:45 次阅读

当前学界和工业界都对多模态大模型研究热情高涨。去年,谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ,它使用单一视觉语言模型处理多项任务,在多模态大模型领域保持较高热度。Flamingo 具备强大的多模态上下文少样本学习能力。

Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合,并插入可学习的层来捕捉跨模态依赖,其采用图文对、图文交错文档、视频文本对组成的多模态数据训练,在少样本上下文学习方面表现出强大能力。但是,Flamingo 在训练时只使用预测下一个文本单词作为目标,并没有对视觉部分施加专门的监督信号,直接导致了在推理阶段,其只能支持以文本作为输出的多模态任务,大大限制了模型的能力以及应用场景。

Flamingo 目前并没有开源,今年 3 月,非盈利机构 LAION 开源了 Flamingo 模型的复现版本 OpenFlamingo。

近日,智源研究院「悟道・视界」研究团队提出了一种新的多模态大模型训练范式,发布并开源了首个打通从多模态输入到多模态输出的「全能高手」,统一多模态预训练模型 Emu 。

Emu 模型创造性地建立了统一的多模态预训练框架,即将图文对、图文交错文档、视频、视频文本对等海量形式各异的多模态数据统一成图文交错序列的格式,并在统一的学习目标下进行训练,即预测序列中的下一个元素 (所有元素,包含文本 token 和图像 embedding)。此外,Emu 首次提出使用大量采用视频作为图文交错数据源,视频数据相比于 Common Crawl 上的图文交错文档,视觉信号更加稠密,且图像与文本之间的关联也更加紧密,更加适合作为图文交错数据去激发模型的多模态上下文学习能力。

论文结果显示,Emu 超越了此前 DeepMind 的多模态大模型 Flamingo,刷新 8 项性能指标。

除以文本作为输出的任务指标之外,Emu 模型具有更加通用的功能,能够同时完成以图片作为输出的任务,如文生图;且具备很多新型能力,如多模态上下文图像生成。Emu 的能力覆盖图像与文本的生成及视频理解。

  • 论文链接:https://arxiv.org/pdf/2307.05222.pdf

  • 模型链接:https://github.com/baaivision/Emu

  • Demo 链接:https://emu.ssi.plus/

作为一种通用界面,Emu 可用于多种视觉、语言应用

超越 Flamingo、Kosmos,8 项基准测试表现优异

在 8 个涵盖多模态图像 / 视频和语言任务的基准测试中,Emu 均有不俗表现,对比来自 DeepMind 的 Flamingo 与来自微软的 Kosmos 亦有所超越。

Emu 在众多常用测试基准上表现出极强的零样本性能,展现了模型在遇到未知任务时强大的泛化能力。其中,Emu 在图像描述 COCO Caption 的 CIDEr 得分为 112.4,且模型对图片的描述中包含丰富的世界知识。此外,Emu 在图像问答 VQAv2 和视频问答 MSRVTT 数据集上也展现了强劲的视觉问答功能。

df5e362a-23d5-11ee-962d-dac502259ad0.png

同时,Emu 具备强大的少样本上下文学习能力,即对于给定任务提供几个示例样本,模型可以进行上下文学习从而更好地完成任务。Emu 在视觉问答数据集 VQAv2、VizWiz、MSRVTTQA 上的少样本上下文学习表现突出。

df87263e-23d5-11ee-962d-dac502259ad0.png

全能高手:在多模态序列中进行「图文任意模态生成」

Emu 模型能力覆盖图像与文本的生成及视频理解, 相比其他多模态模型更具通用性,能完成任意图生文以及文生图的多模态任务。例如,精准图像认知、少样本图文推理、视频问答、文图生成、上下文图像生成、图像融合、多模态多轮对话等。

Emu 是一个基于 Transformer 的多模态基础模型,可以接受并处理形式各异的多模态数据,输出指定的多模态数据。Emu 将图文对、图文交错文档、视频、视频文本对等形式各异的海量多模态数据统一成图文交错序列的格式,并在统一的学习目标下进行训练,即预测序列中的下一个元素 (所有元素,包含文本 token 和图像 embedding)。训练完成后,Emu 能对任意形式的多模态上下文序列进行多模态补全,对图像、文本和视频等多种模态的数据进行感知、推理和生成

视频理解、多模态上下文生成、多模态对话是 Emu 模型的技术亮点。

Emu 模型具有强大的视频理解能力,如在下图演示中,针对下面 “视频中的女主人公在干什么” 这一问题,Emu 模型给出了具有精准事实细节(苹果 VR 设备)、连贯动作描述(坐在飞机上并使用 VR 设备)、合理行动猜测(可能在看一段视频或 360 度视角的飞机外景象)的丰富回答。

Emu 不只能理解视频信息,还能做到对视频中时序信息的精细理解。例如下图展示的奶昔制作视频,Emu 分步且完整地描述了奶昔制作步骤。

Emu 新增了图像融合能力,可以对输入的图像进行创造性地融合,并生成新的图片。例如下图最后一行,将两幅世界名画作为输入,Emu 可以生成风格、元素类似的全新画作:

上下文图像生成也是一项全新的功能,Emu 可以将输入的文本 - 图片对作为 prompt,结合上下文信息进行图片生成。例如在下图第一行,输入两张图片,并输入文本指令让 Emu 生成以图 1 的动物为中心,但以图 2 为风格的图片。依赖于强大的多模态上下文生成能力,Emu 可以完成相应的指令。下图的第二行展示了如果在 “文生图” 时提供了 context,Emu 会结合 context 的风格,生成油画风格的图片,而相同的文本在无 context 的情况下进行 “文生图” 只会生成现实风格的图片:

图像生成方面,Emu 可以根据给定的文本生成多幅语义相关的图像:

Emu 可根据一张或者多张图或视频进行问答和多轮对话。如下第一张图所示,给出一张景点图并询问旅游注意事项,Emu 给出了 5 个要点,其中再就第 5 个要点 “ safety equipment” 提问时,Emu 能够针对这一点进行更加详细地阐述。最后,Emu 还可以根据图片作诗。

Emu 还有一项突出的能力是它的世界知识更丰富。如下图所示,给出两张动物的图,询问这两张图的区别,Emu 可以准确描述动物的名称及分布地:

Emu 模型可以准确识别画作,例如下图输入莫奈的《日出・印象》这幅作品, Emu 不仅准确回答出了作品的名字,描述了画面信息,还给出了很多背景知识,例如这是著名印象派风格的作品。而 mPLUG-Owl 、LLaVA 并不知道画作的名称,只是简单描述了画中场景。InstructBLIP 给出了作品名称和描述,但在背景知识上略逊于 Emu。

再看下图,给出阿加莎・克里斯蒂的肖像,问题是 “说出这位女性写的 8 本书并推荐一本给我”,Emu 正确理解了这个问题,识别出作者并列出其 8 个作品,并从中挑选了伟大的代表作推荐。LLaVA 人物识别准确,只部分理解了题意,给出推荐作品,但并没有给出 8 个代表作。mPLUG-Owl 识别出了人物 ,也是部分理解了问题,只给出了 4 部作品和一句话简介。InstructBLIP 则给出了一个错误答案。

首次大量采用视频数据,创新性建立统一的多模态学习框架

现有多模态领域的研究工作常将大语言模型与预训练视觉编码器连接来构建多模态大模型(LMM)。尽管现有的 LMMs 很有效,但主要以预测下一个文本 token 作为训练目标,而对视觉模态缺乏监督。这样的训练目标也限制了模型在推理应用时只能输出文本回复,而不具有生成图片回复的能力。

此外,数据直接影响到模型的搭建,视频数据愈来愈成为图像信息时代的主要信息形态。带有交错图像字幕的视频数据,相比于图文交错文档,天然包含更密集的视觉信号,且与文本编码有更强的跨模态关联性。而现有工作主要利用图像 - 文本对及图文文档进行训练,对视频数据有所忽略。

如何把海量多模态数据包括视频数据纳入一个更加「统一」的多模态学习框架,从而提升多模态大模型的通用性,智源视觉团队解决了几个重要问题:

  • 对不同来源的多模态交错数据进行处理,以自动回归的方式统一建模。

智源视觉团队采用的多模态交错数据具体包括图像 - 文本对 (LAION-2B、LAION-COCO)、交错图像 - 文本数据 (MMC4)、视频 - 文本对 (Webvid-10M) 和交错视频 - 文本数据 (YT-Storyboard-1B),将视觉表征与文本序列共同构成多模态序列,并进行统一的自回归建模。

Emu 以自动回归的方式统一了不同模态的建模

  • 特别地,Emu 首次采用了海量视频作为图文交错序列数据。

视频训练数据源自研究团队从 YouTube 上收集的 1800 万个视频(非原始视频,故事板图像)及其相应的字幕,二者结合创造了一个按时间戳顺序排序的视频和文本的自然交错序列。

交错的视频 - 文本数据

  • 预测多模态序列的下一个元素。

模型训练方面,Emu 将自回归地预测多模态序列中的下一个元素(既包含文本也包含图像)作为统一的学习目标进行预训练。在这种不同形式的数据、统一形式的目标下完成训练后。Emu 便成为了一个 “通才” 模型,可以轻松应对各种多模态任务,包括图生文以及文生图。


原文标题:更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2869

    文章

    41622

    浏览量

    358381

原文标题:更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    李未可科技正式推出WAKE-AI多模态AI大模型

    李未可科技多模态 AI 大模型正式发布,积极推进 AI 在终端的场景应用   4月18日,2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态模型
    发表于 04-18 17:01 275次阅读
    李未可科技正式推出WAKE-AI多<b class='flag-5'>模态</b>AI大<b class='flag-5'>模型</b>

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作
    发表于 01-19 11:43 124次阅读
    机器人基于<b class='flag-5'>开源</b>的多<b class='flag-5'>模态</b>语言视觉大<b class='flag-5'>模型</b>

    什么是多模态?多模态的难题是什么?

    模态模型,通常大于100M~1B参数。具有较强的通用性,比如对图片中任意物体进行分割,或者生成任意内容的图片或声音。极大降低了场景的定制成本。
    的头像 发表于 01-17 10:03 646次阅读
    什么是多<b class='flag-5'>模态</b>?多<b class='flag-5'>模态</b>的难题是什么?

    OneLLM:对齐所有模态的框架!

    OneLLM 是第一个在单个模型中集成八种不同模态的MLLM。通过统一的框架和渐进式多模态对齐pipelines,可以很容易地扩展OneLLM以包含更多数据模式。
    的头像 发表于 01-04 11:27 341次阅读
    OneLLM:对齐所有<b class='flag-5'>模态</b>的框架!

    从Google多模态模型看后续大模型应该具备哪些能力

    前段时间Google推出Gemini多模态模型,展示了不凡的对话能力和多模态能力,其表现究竟如何呢?
    的头像 发表于 12-28 11:19 476次阅读
    从Google多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>看后续大<b class='flag-5'>模型</b>应该具备哪些能力

    模型+多模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强
    的头像 发表于 12-13 13:55 726次阅读
    大<b class='flag-5'>模型</b>+多<b class='flag-5'>模态</b>的3种实现方法

    千亿参数多模态模型,“紫东太初”规模化应用加速

    电子发烧友网报道(文/李弯弯)过去近一年时间,国内外大模型技术越来越成熟,并逐步在不同场景中实现实现应用。在国内,作为早早布局多模态模型的科研机构,中国科学院自动化研究所自2019年开始在语音
    的头像 发表于 12-08 00:09 1367次阅读

    探究编辑多模态大语言模型的可行性

    不同于单模态模型编辑,多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态
    发表于 11-09 14:53 255次阅读
    探究编辑多<b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>的可行性

    VisCPM:迈向多语言多模态模型时代

    随着 GPT-4 和 Stable Diffusion 等模型模态能力的突飞猛进,多模态模型已经成为大模型迈向
    的头像 发表于 07-10 10:05 461次阅读
    VisCPM:迈向多语言多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>时代

    单张消费级显卡微调多模态模型

    把大模型的训练门槛打下来!我们在单张消费级显卡上实现了多模态模型(LaVIN-7B, LaVIN-13B)的适配和训练
    的头像 发表于 06-30 10:43 1364次阅读
    单张消费级显卡微调多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    悟道·视界」视觉大模型系列,6项领先成果技术详解

    日前,智源「悟道·视界」通用视觉大模型系列,带来计算机视觉多任务处理能力方面的6项国际领先技术,迎接通用视觉智能曙光降临,包括: 在多模态
    的头像 发表于 06-27 16:40 469次阅读

    悟道3.0”系列大模型全面开源,有助于AI应用普及!

    新阶段,此次发布的一系列成果包括“悟道·天鹰”(Aquila)语言大模型系列、天秤(FlagEval)开源模型评测体系与开放平台、“悟道
    的头像 发表于 06-14 00:06 1523次阅读
    “<b class='flag-5'>悟道</b><b class='flag-5'>3.0</b>”系列大<b class='flag-5'>模型</b>全面<b class='flag-5'>开源</b>,有助于AI应用普及!

    邱锡鹏团队提出具有内生跨模态能力的SpeechGPT,为多模态LLM指明方向

    大型语言模型(LLM)在各种自然语言处理任务上表现出惊人的能力。与此同时,多模态大型语言模型,如 GPT-4、PALM-E 和 LLaVA,已经探索了 LLM 理解多模态信息的能力。然
    的头像 发表于 05-22 14:38 448次阅读
    邱锡鹏团队提出具有内生跨<b class='flag-5'>模态</b>能力的SpeechGPT,为多<b class='flag-5'>模态</b>LLM指明方向

    如何利用LLM做多模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口并且不会透露任何
    的头像 发表于 05-11 17:09 679次阅读
    如何利用LLM做多<b class='flag-5'>模态</b>任务?

    ImageBind:跨模态之王,将6种模态全部绑定!

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音频嵌入无法直接用于图像 - 文本任务,反之亦然。学习真正的联合嵌入面临的一个主要障碍是缺
    的头像 发表于 05-11 09:30 676次阅读
    ImageBind:跨<b class='flag-5'>模态</b>之王,将6种<b class='flag-5'>模态</b>全部绑定!