0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-4 的模型结构和训练方法

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-22 15:21 次阅读

在 GPT-4 的发布报道上,GPT-4 的多模态能力让人印象深刻,它可以理解图片内容给出图片描述,甚至能在图片内容的基础上理解其中的隐喻或推断下一时刻的发展无疑,面向所谓的 AGI(通用人工智能),多模态显然是必经之路。但是遗憾 GPT-4 的图片输入能力尚且没有完全放开,而即使放开我们对 GPT-4 的模型结构和训练方法也知之甚少。

而最近,中科院自动化所带来了一项有趣的工作,推出了多模态的大规模语言模型 X-LLM,同时支持图片、语音以及视频等多种模态信息作为大模型的输入,并且展现了类似于 GPT-4 的表现。比如当输入图像时,X-LLM 可以识别图像位置、理解图像中的食物。当输入视频时,X-LLM 也可以总结视频内容,检索电影片段的电影名称,基于视频内容结合图像回答问题等等。以论文中的一张图片为例,当用户希望 X-LLM 介绍输入的图片时,X-LLM 准确的理解了图片相关于游戏王者荣耀,并且给出了一定的介绍。

从性能来看,作者团队使用了 30 张模型未见过的图像,每张图像都与相关于对话、详细描述以及推理三类的问题,从而形成了 90 个指令-图像对以测试 X-LLM 与 GPT-4 的表现。可以看到,通过使用 ChatGPT 从 1 到 10 为模型回复进行评分,与 GPT-4 相比 X-LLM 取得了 84.5% 的相对分数,表明了模型在多模态的环境中是有效的

960f3906-f70c-11ed-90ce-dac502259ad0.png

除此之外,这篇工作也开源了相关的代码和一个简洁高质量的中文多模态指令数据集,帮助后续工作使用 X-LLM 的框架进行研究,

在进入论文之前,首先来想想一个问题,GPT-4 是如何获得其强大的多模态能力的呢?论文作者给出了一个假设:“GPT-4 的多模态能力来源于其更先进,更大的语音模型,即 GPT-4 是用语言的形式表达出了其他模态的内容”

这个假设也就是讲,需要将多模态的数据“对齐”到语言数据之中,然后再投入大模型以获得多模态能力,在这个假设的基础上,作者提出了 X2L 接口,其中 X 意味着多模态数据,而 L 则表示语言,X2L 接口即将多个单模态编码器与一个大规模语言模型(LLM)进行对齐。其中,图像接口 I2L 采用 BLIP-2 中的 Q-Former,视频接口 V2L 复用图像接口的参数,但是考虑了编码后的视频特征,语言接口 S2L 采用 CIF 与 Transformer 结构将语音转换为语言。整个 X-LLM 的训练包含三个阶段,分别是(1)转换多模态信息;(2)将 X2L 对齐到 LLM;(3)将多模态数据整合到 LLM 中。

96193f0a-f70c-11ed-90ce-dac502259ad0.png

具体而言,多模态信息转换的三个接口设计如下:

图像接口:图像接口由 Q-Formers 和 I-Adapter 模块组成。Q-Formers的目标是将图像转换为语言,将从图像编码器获得的图像特征转换为长度为 L 的准语言嵌入的序列。I-Adapter 模块旨在对齐准语言嵌入的维数和 LLM 的嵌入维数;

视频接口:视频接口与图像接口采用相同的结构,并且均匀采样使用 T 帧表示每个视频,再将每帧视频视为图像,构建长度为 T x L 的准语言嵌入序列;

语言接口:语音接口由两部分组成,即 C-Former 和 S-Adaptor。C-Former 是 CIF 模块和 12 层 Transformer 模块的组合。CIF 模块通过变长下采样将语音编码器的语音特征序列压缩为相同长度的令牌级语音嵌入序列,而 Transformer 结构为令牌级语音嵌入提供了更强的上下文建模。S-Adaptor 用于将 Transformer 结构的输出投影到 LLM 的输入向量空间,从而进一步缩小了语音与语言之间的差距。

而在第二阶段,Q-Former 的参数来源于 BLIP2 中的 Q-Former 的参数。为了使得 Q-Former 适应中文 LLM,作者们使用了一个总共包括约 1400 万个中文图片-文本对的数据集进行训练,并使用图片中训练好的接口初始化视频中的 Q-Former 和 V-Adapter,最后,使用 ASR 数据训练语音接口,使语音界面的输出与 LLM 对齐。在整个过程中,Encoder 部分与 LLM 部分都不参与训练,只有接口部分进行训练

而最后第三阶段,论文使用多模态联合训练增强 X-LLM 的多模态能力,但是可以看到,在没有进行联合训练时,X-LLM 已经具有了识别多模态的能力,这种能力很有可能是来自于 LLM。而为了进行联合训练,作者构建了一个多模态指令数据集对接口进行微调,包含(1) 图像-文本指令数据,(2)语音-文本指令数据,(3) 视频-文本指令数据以及 (4) 图像-文本-语音指令数据。整个数据集主要来源于 MiniGPT-4(图像,3.5k)、AISHELL-2(语音,2k)以及 ActivityNet(视频,1k)。

9622e208-f70c-11ed-90ce-dac502259ad0.png

而在实验方面,论文作者开发了一个聊天界面,用以与其他开源的多模态大规模语言模型( LLaVA 与 MiniGPT-4)做对比,整体而言,X-LLM 具备了相当不错的阅读和理解图片的能力,并且可以更好的捕捉其中具有“中国特色”的预料,如下图问答所示,当输入天安门的图片时,X-LLM 准确的识别出了它是北京的故宫,并且给出了一些历史的介绍,而相应 LLaVA 与 MiniGPT-4 仅仅识别出来了中国的宫殿和旗帜,但是并没有提到 Forbidden City。

同时,X-LLM 也能准确的识别和理解语音信息,这里的“详细描述一下这个“照片”是以语音形式进行的输入,可以看到 X-LLM 也能给出相当不错的回答,并且可以进行延申交流。

此外,在视频问答方面,X-LLM 也表现得相当不错,对于输入的水母游动的视频,X-LLM 可以颇为准确的为视频做出标题,并配以文字

对于敏感信息,X-LLM 也能做到识别

除了 X-LLM 这样一个将大规模语音模型向多模态方向扎实推进了一步的框架外,作者也意外的发现,在英文数据集上训练的 Q-former 的参数可以转移到其他语言(汉语),并仍然保持有效性。这种语言的可传递性极大地增加了使用英语图像文本数据和其训练的模型参数平移到其他语言中的可能性,并提高了在其他语言中训练多模态 LLM 的效率。

透过这篇工作,或许我们可以一窥多模态大模型光明的未来,回到开头,多模型必然是 AGI 的必经之路,那么以语言为基准统一多模态可不可以实现呢?那就要看跟随这篇工作出现的未来了吧!

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6514

    浏览量

    87610
  • 模型
    +关注

    关注

    1

    文章

    2707

    浏览量

    47707
  • 语言模型
    +关注

    关注

    0

    文章

    436

    浏览量

    10059

原文标题:中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    优化神经网络训练方法有哪些?

    优化神经网络训练方法有哪些?
    发表于 09-06 09:52

    一种侧重于学习情感特征的预训练方法

    在大规模无监督语料上预训练的语言模型正逐渐受到自然语言处理领琙硏究者的关注。现有模型在预训练阶段主要提取文本的语义和结构特征,针对情感类任务
    发表于 04-13 11:40 4次下载
    一种侧重于学习情感特征的预<b class='flag-5'>训练方法</b>

    ChatGPT升级 OpenAI史上最强大模型GPT-4发布

    是 Generative Pre-trained Transformer 4 的缩写,即生成型预训练变换模型 4,是一个多模态大型语言模型。根据OpenAI的描述,GPT-4 支持接
    的头像 发表于 03-15 18:15 2422次阅读

    GPT-4多模态模型发布,对ChatGPT的升级和断崖式领先

    而且 GPT-4 是多模态的,同时支持文本和图像输入功能。此外,GPT-4 比以前的版本“更大”,这意味着其已经在更多的数据上进行了训练,并且在模型文件中有更多的权重,这也使得它的运行
    的头像 发表于 03-17 10:31 3013次阅读

    GPT-4是这样搞电机的

    GPT-4写电机基础程序没问题
    的头像 发表于 04-17 09:41 675次阅读
    <b class='flag-5'>GPT-4</b>是这样搞电机的

    深度:构建GPT-4模型,如何商业落地?

    GPT-4引发海量算力需求,把握算力产业链机会。根据测算,我们认为,在中性假设下,ChatGPT一年产生的API调用费用约为6.2亿美元,与此同时,ChatGPT将在训练和推理层面对GPU产生巨大需求。
    的头像 发表于 05-06 11:24 984次阅读
    深度:构建<b class='flag-5'>GPT-4</b><b class='flag-5'>模型</b>,如何商业落地?

    GPT-4已经会自己设计芯片了吗?

      GPT-4已经会自己设计芯片了!芯片设计行业的一个老大难问题HDL,已经被GPT-4顺利解决。并且,它设计的130nm芯片,已经成功流片。 GPT-4,已经可以帮人类造芯片了! 只用简单的英语
    的头像 发表于 06-20 11:51 610次阅读
    <b class='flag-5'>GPT-4</b>已经会自己设计芯片了吗?

    GPT-4催生的接口IP市场空间

    。陆奇称由GPT-4开启的新时代在高速地进行,速度越来越快。他将这种引起社会、产业发生的结构性改变称之为新范式。 从本质上看,以GPT-4为代表的新范式是基于数据中心发展起来的新兴AI应用,可以通过大量的数据
    的头像 发表于 07-03 14:17 521次阅读

    爆了!GPT-4模型架构、训练成本、数据集信息都被扒出来了

    文章称,他们从许多来源收集了大量有关 GPT-4 的信息,包括模型架构、训练基础设施、推理基础设施、参数量、训练数据集组成、token 量、层数、并行策略、多模态视觉适应、不同工程权衡
    的头像 发表于 07-12 14:16 465次阅读
    爆了!<b class='flag-5'>GPT-4</b><b class='flag-5'>模型</b>架构、<b class='flag-5'>训练</b>成本、数据集信息都被扒出来了

    OpenAI宣布GPT-4 API全面开放使用!

    OpenAI 在博客文章中写道:“自 3 月份以来,数百万开发者请求访问 GPT-4 API,并且利用 GPT-4 的创新产品范围每天都在增长。” “我们设想基于对话的模型未来可以支持任何用例。”
    的头像 发表于 07-12 14:55 883次阅读

    GPT-4没有推理能力吗?

    今年三月,OpenAI 重磅发布了 GPT-4模型,带来了比 ChatGPT 背后 GPT-3.5 更强的推理、计算、逻辑能力,也引发了全民使用的热潮。在各行各领域研究人员、开发者、设计师的使用过程中,「
    的头像 发表于 08-11 14:20 674次阅读
    <b class='flag-5'>GPT-4</b>没有推理能力吗?

    谷歌Gemini被曝算力达GPT-4五倍,手握TPU王牌碾压OpenAI

    根据Patel和Nishball的说法,此前屡屡被爆料将成为GPT-4大杀器的谷歌Gemini,已经开始在新的TPUv5 Pod上进行训练了,算力高达~1e26 FLOPS,比训练GPT-4
    的头像 发表于 09-04 16:02 590次阅读
    谷歌Gemini被曝算力达<b class='flag-5'>GPT-4</b>五倍,手握TPU王牌碾压OpenAI

    OpenAI最新大模型曝光!剑指多模态,GPT-4之后最大升级!

    目前为止,OpenAI还没有对爆料中的传闻做出回应,但此前发布过多模态模型测试。CEO奥特曼在回应有关GPT-5的传闻时,也暗示过GPT-4“正在增强”。
    的头像 发表于 09-20 17:34 860次阅读
    OpenAI最新大<b class='flag-5'>模型</b>曝光!剑指多模态,<b class='flag-5'>GPT-4</b>之后最大升级!

    ChatGPT重磅更新 OpenAI发布GPT-4 Turbo模型价格大降2/3

    ChatGPT重磅更新 OpenAI发布GPT-4 Turbo模型价格大降2/3 目前OpenAI算是全球大模型的引领者,一举一动都牵动着大家的关注,现在ChatGPT迎来重磅更新。 OpenAI
    的头像 发表于 11-07 18:20 2163次阅读
    ChatGPT重磅更新 OpenAI发布<b class='flag-5'>GPT-4</b> Turbo<b class='flag-5'>模型</b>价格大降2/3

    微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

    起初,Copilot作为Bing Chat AI助手推出,初期采用GPT-3.5模型,随后升级至GPT-4取得显著进步,如今再次更新至性能卓越的GPT-4 Turbo
    的头像 发表于 03-13 13:42 255次阅读