0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从Google多模态大模型看后续大模型应该具备哪些能力

深度学习自然语言处理 来源:NLP PaperWeekly 2023-12-28 11:19 次阅读

前段时间Google推出Gemini多模态大模型,展示了不凡的对话能力和多模态能力,其表现究竟如何呢?

本文对Gemini报告进行分析,总的来说Gemini模型在图像、音频视频和文本理解方面表现出卓越的能力。其包括 Ultra、Pro 和 Nano 尺寸,能够适用于从复杂推理任务到设备内存受限用例的各种应用。

不像OpenAI接入多模态能力需要利用多个不同的模型,Google直接在预训练阶段直接接受多模态的输入是Gemini的特点之一,它能够直接处理多模态的数据,并且各项指标都还不错。另外可以看出具备图文理解等能力后,再结合大模型的对话能力,能够带来更惊艳的效果体验。

一、概述

1Motivation

发布Google的能与GPT4竞争的大模型,同时兼具多模态能力,包括文字、图像、视频、音频识别与理解能力。

2Methods

1 Gemini模型支持4种格式输入,2种格式输出

2f30a1b2-a3d6-11ee-8b88-92fbcf53809c.png

特点:同时支持text文本,image图像,video视频和audio音频输入,支持文本和图片的输出。可以直接处理音频文件,不需要将音频转为文字等。

猜测的训练方法:

多模态训练方法:Gemini是几种模态一起联合从头训练的,包括文本、图片、音频、视频等。这与目前通常的多模态做法不太一样,目前的多模态模型一般是使用现成的语言大模型或者经过预训练过的图片模型(比如CLIP的图片编码部分),然后利用多模态训练数据在此基础上加上新的网络层训练;如果是几个模态从头开始一起训练,那么按理说应该都遵循next token prediction的模式,就应该是LVM的那个路子,其它模态的数据打成token,然后图片、视频等平面数据先转换成比如16*16=256个token,然后搞成一维线性输入,让模型预测next token,这样就把不同模态在训练阶段统一起来。

解码结构:Decoder only的模型结构,针对结构和优化目标做了优化,优化目的是大规模训练的时候的训练和推理的稳定性,所以大结构应该是类似GPT的Decoder-only预测next token prediction的模式。目前支持32K上下文。

命令理解方面:和GPT一样,采用多模态instruct数据进行SFT+RM+RLHF三阶段,这里的RM部分在训练打分模型的时候,采用了加权的多目标优化,三个目标helpfulness factuality和 safety,猜测应该是对于某个prompt,模型生成的结果,按照三个指标各自给了一个排序结果。

模型大小:硬件描述部分来看,意思是动用了前所未有的TPU集群,所以推测Gemini Ultra的模型规模应该相当大,猜测如果是MOE大概要对标到GPT 4到1.8T的模型容量,如果是Dense模型估计要大于200B参数。考虑到引入视频音频(当然是来自于Youtube了,难道会来自TikTok么)多模态数据,所以总数据量*模型参数,会是非常巨大的算力要求,技术报告说可以一周或者两周做一次训练。

训练细节:可能分成多个阶段,最后阶段提高了领域数据的混合配比,猜测应该指的是逻辑和数学类的训练数据增加了配比,目前貌似很多这么做的,对于提升模型逻辑能力有直接帮助。

代码能力:AlphaCode2是在Gemini pro基础上,使用编程竞赛的数据fine-tune出来的,效果提升很明显,在编程竞赛上排名超过85%的人类选手,之前的AlphaCode1超过50%的人类选手;

2 Gemini模型有多个版本,最小有1.8B

2f4ab408-a3d6-11ee-8b88-92fbcf53809c.png

特点:其中Nano首先从大模型蒸馏,然后4bit量化。Gemini Nano包含两个版本:1.8B面向低端手机,3.25B面向高端手机。

3 Conclusion

1 文本理解:Ultra性能超过了GPT4

2f6478f2-a3d6-11ee-8b88-92fbcf53809c.png

Ultra比gpt4效果好,pro比gpt3.5效果好,MMNLU第一次超过人类专家水平。

Gemini Ultra 在六个不同数据集上都是最佳。Gemini Pro是Gemini系列中的第二大模型,效率更高的同时也颇具竞争力。

2 图像理解:zero-shot效果超过很多微调后的模型

2f796316-a3d6-11ee-8b88-92fbcf53809c.png

3 视频理解:超过之前的few-shot SoTA模型

2f8f90dc-a3d6-11ee-8b88-92fbcf53809c.png

也是取得了SoTA,特别是英语视频字幕数据集(VATEXT、YouCook2)上提升比较大,其他感觉提升没那么大。相关评估指标如下:视频字幕 -> CIDER,NextQA -> WUPS,Perception Test -> top-1 accuracy,ActivityNet-QA -> ActivityNet-QA。

4 不同版Genmini模型的性能

2fb6b9be-a3d6-11ee-8b88-92fbcf53809c.png

“事实性” :涵盖开放/闭卷检索和问题回答任务;

“长文本” :涵盖长篇摘要、检索和问题回答任务;

“数学/科学” :包括数学问题解决、定理证明和科学考试等任务;

“推理” :需要算术、科学和常识推理的任务;

“多语言” :用于多语言翻译、摘要和推理的任务。

2fce511e-a3d6-11ee-8b88-92fbcf53809c.png

Nano2模型很多超过了Pro版本的50%,部分达到90的水平,效果还不错。

5 多语种翻译:性能超过GPT4

2fe2ccfc-a3d6-11ee-8b88-92fbcf53809c.png

翻译能力也是比GPT-4好,WMT23指标中4个有3个超过GPT4的表现。

6 图像理解数据集:MMMU数据集表现

2ff0d644-a3d6-11ee-8b88-92fbcf53809c.png

MMMU(Yue et al., 2023):是最近发布的评估基准,由6个学科的图像问题组成,每个学科内有多个主题,需要大学水平的知识来解决这些问题。

Gemini Ultra将最先进的结果提高了 5 个百分点以上,6个学科中有5个学科中超越了之前的最佳成绩,展示了其多模态推理能力。

二、详细内容

1 多模态推理能力:识别手写答案,对物理问题进行解答

30009a34-a3d6-11ee-8b88-92fbcf53809c.png

特点:识别书写结果,这个和OpenAI之前演示的根据草图写前端代码是一样的,不过识别的准确率是存疑的。

2 多模态推理能力:重新组织子图顺序

301ad34a-a3d6-11ee-8b88-92fbcf53809c.png

Gemini的多模态推理能力可生成用于重新排列子图的matplotlib代码。

Prompt:识别当前子图的结果,重新组织子图的顺序并解释。

解决此任务需要模型具备以下能力:

(1) 识别图中描绘的函数;

(2) 逆向图形来推断生成子图的代码;

(3) 按照指令将子图放置在所需的位置;

(4) 抽象推理,推断指数图必须留在原来的位置,因为正弦图必须为 3 维图移动。

3 图像生成能力:多模态理解+图像生成

3039b904-a3d6-11ee-8b88-92fbcf53809c.png

要具备上面的功能需要以下能力:

(1)识别图像中的颜色。这个难度不大。

(2)生成文字+图片结果。这个难度好像也没有那么大,可能有two-stage的实现方法或者end-to-end的实现方法。不太确定google用的哪种方法。

4 语音理解能力:具备语音识别和语音翻译能力

3054eea4-a3d6-11ee-8b88-92fbcf53809c.png

对比的是OpenAI的Whisper,看着Gemini就是把多个SoTA模型包装起来了。

5 多模态理解:支持图片+音频输入

3068d78e-a3d6-11ee-8b88-92fbcf53809c.png

这个gptv+加个语音转文字的模型可以做,这里的特点可能是直接用一个模型就可以解决?

三、多模态能力展示

1 几何推理能力:求平行四边形的高

30928bc4-a3d6-11ee-8b88-92fbcf53809c.png

2 视觉多模态推理能力:根据图片确定地点

30a979c4-a3d6-11ee-8b88-92fbcf53809c.png

3 多语言常识推理:识别中文关系图

30b7ebb2-a3d6-11ee-8b88-92fbcf53809c.png

4 视频理解能力:分析视频中的人如何提升足球技术

30cc1cea-a3d6-11ee-8b88-92fbcf53809c.png

四、总结

直接支持多模态的能力是Gemini的特点,Google从预训练阶段就统一了多模态大模型的训练,该策略也可能是后续大模型的发展趋势,但是其具体实现方法、带来的增益、以及cost还未知。OpenAI多模态的能力是引入(支持语音)其他模型或者通过插件(支持图像)来实现。

2f30a1b2-a3d6-11ee-8b88-92fbcf53809c.png

Gemini的多模态能力比GPT4-V要强,科学推理能力可能稍微弱于GPT4。

2ff0d644-a3d6-11ee-8b88-92fbcf53809c.png

图文理解+视频理解等多模态能力与最新的大模型强强组合确实能带来惊艳的效果,但是其稳定性,是否真实能落地还有待进一步观察。例如结合图像信息求平行四边行的高,在教育领域相对于纯文本可能会更有价值,但是OCR等技术还面临鲁棒性偏差的问题,Google的模型段时间应该还是没办法解决这些问题。

30928bc4-a3d6-11ee-8b88-92fbcf53809c.png









审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SFT
    SFT
    +关注

    关注

    0

    文章

    9

    浏览量

    6747
  • TPU
    TPU
    +关注

    关注

    0

    文章

    132

    浏览量

    20546
  • GPT
    GPT
    +关注

    关注

    0

    文章

    300

    浏览量

    14869
  • OpenAI
    +关注

    关注

    8

    文章

    757

    浏览量

    5913

原文标题:Gemini技术报告解读:从Google多模态大模型看后续大模型应该具备哪些能力

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    简单的模型进行流固耦合的模态分析

      本次分享,对一个简单的模型进行流固耦合的模态分析,有限元科技小编主要给大家演示如何使用Hypermesh与Nastran对流固耦合的结构进行模态分析,以及了解声腔对结构模态的影响。
    发表于 07-07 17:15

    如何提升模型能力

    目标检测的模型集成方法及实验常见的提升模型能力的方式
    发表于 02-24 07:10

    OpenHarmony应用模型的构成要素与Stage优势

    ,便捷实现跨端迁移。 在多端协同场景下,应用组件具备组件间通信的RPC调用能力,天然支持跨设备应用组件的交互。 支持设备和多窗口形态 应用组件管理和窗口管理在架构层面解耦: 便于系统对应用组件进行裁剪
    发表于 09-26 16:48

    鸿蒙原生应用/元服务开发-Stage模型能力接口(八)

    一、说明 ExtensionAbility是特定场景扩展能力的基类,提供系统配置更新回调和系统内存调整回调。本模块首批接口API version 9 开始支持。后续版本的新增接口,采用上角标单
    发表于 12-20 16:12

    邱锡鹏团队提出SpeechGPT:具有内生跨模态能力的大语言模型

    虽然现有的级联方法或口语语言模型能够感知和生成语音,但仍存在一些限制。首先,在级联模型中,LLM 仅充当内容生成器。由于语音和文本的表示没有对齐,LLM 的知识无法迁移到语音模态中。
    的头像 发表于 05-22 10:19 418次阅读
    邱锡鹏团队提出SpeechGPT:具有内生跨<b class='flag-5'>模态</b><b class='flag-5'>能力</b>的大语言<b class='flag-5'>模型</b>

    单张消费级显卡微调多模态模型

    把大模型的训练门槛打下来!我们在单张消费级显卡上实现了多模态模型(LaVIN-7B, LaVIN-13B)的适配和训练
    的头像 发表于 06-30 10:43 1364次阅读
    单张消费级显卡微调多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    VisCPM:迈向多语言多模态模型时代

    随着 GPT-4 和 Stable Diffusion 等模型模态能力的突飞猛进,多模态模型已经成为大
    的头像 发表于 07-10 10:05 461次阅读
    VisCPM:迈向多语言多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>时代

    更强更通用:智源「悟道3.0」Emu多模态模型开源,在多模态序列中「补全一切」

    热度。Flamingo 具备强大的多模态上下文少样本学习能力。 Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合,并插入可学习的层来捕捉跨
    的头像 发表于 07-16 20:45 403次阅读
    更强更通用:智源「悟道3.0」Emu多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>开源,在多<b class='flag-5'>模态</b>序列中「补全一切」

    北大&amp;华为提出:多模态基础大模型的高效微调

    深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显
    的头像 发表于 11-08 16:20 316次阅读
    北大&amp;华为提出:多<b class='flag-5'>模态</b>基础大<b class='flag-5'>模型</b>的高效微调

    探究编辑多模态大语言模型的可行性

    不同于单模态模型编辑,多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态
    发表于 11-09 14:53 255次阅读
    探究编辑多<b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>的可行性

    模型+多模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强大、更通用呢?本节将介绍“大
    的头像 发表于 12-13 13:55 726次阅读
    大<b class='flag-5'>模型</b>+多<b class='flag-5'>模态</b>的3种实现方法

    自动驾驶和多模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将文本与相应的视频
    发表于 12-28 11:45 206次阅读
    自动驾驶和多<b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>的发展历程

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 124次阅读
    机器人基于开源的多<b class='flag-5'>模态</b>语言视觉大<b class='flag-5'>模型</b>

    李未可科技正式推出WAKE-AI多模态AI大模型

    李未可科技多模态 AI 大模型正式发布,积极推进 AI 在终端的场景应用   4月18日,2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态模型
    发表于 04-18 17:01 275次阅读
    李未可科技正式推出WAKE-AI多<b class='flag-5'>模态</b>AI大<b class='flag-5'>模型</b>

    商汤科技发布5.0多模态模型,综合能力全面对标GPT-4 Turbo

    商汤科技发布5.0多模态模型,综合能力全面对标GPT-4 Turbo 4月23日,商汤科技董事长兼CEO徐立在2024商汤技术交流日上发布了行业首个云、端、边全栈大模型产品矩阵,能够
    的头像 发表于 04-24 16:49 468次阅读