0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-12 09:55 次阅读

使用视觉和语言指令训练一个多模态聊天机器人

基于开源多模态模型OpenFlamingo,作者使用公开数据集创建了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,还使用仅包含语言指令数据的语言模型组件进行了训练。

视觉和语言指令的联合训练有效提高了模型的性能!

具体细节就跟随小编继续往下看看吧~

总结

本文提出一种多模态GPT(视觉、语言),与人类进行多轮对话,同时设计了统一化多模态的指令数据模板

能够遵循的指令类型:生成详细的标题、计算特定的对象、处理一般的询问

基准模型:OpenFlamingo(用LoRA方式训练)

联合训练的数据:1.纯文本数据 2.图像-文本数据

其他的一些多模态GPT模型:GPT-4[1]、Mini-GPT[2]、LLaVA[3]

提到的其他LLM:Vicuna[4]、LLaMA[5]

提到的其他数据集:VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR

1.引言

人类交流/理解世界的方式:视觉、语言等

AI智能助手的作用:根据多种模态的指令,理解人类意图,完成各种任务

之前的方法:将视觉表示与LLM的输入空间对齐,随后利用LLM中的原始自我注意来处理视觉信息

本文的方法:微调Flamingo(开源)

视觉编码器

门限交叉注意力机制

预训练使用“图文对”数据

统一多模态的指令模板

语言数据、语言-视觉数据,进行联合训练

本文目标:在多模态对话任务上,接近人的性能表现

2.统一指令模板

主要是提出了一个统一的训练数据模板,把以下两种数据整合起来,提高模型理解能力

2.1 仅语言的指令模板

d79a4b50-f062-11ed-90ce-dac502259ad0.png

仅包含语言的指令提示模板

{instruction},{input}为输入文本,{response},用于计算损失

使用数据:

Dolly15k数据集

AlpacaGPT4数据集

2.2 视觉-语言的指令模板

d7af6f3a-f062-11ed-90ce-dac502259ad0.png

包含视觉-语言的指令提示模板

其中,{question}是原始文本,是表示图像存在的token,{response}、用于计算损失

使用数据集:

LLaVA

Mini-GPT4

A-OKVQA

COCOcaption(不直接作为训练集,而是用GPT-4转化,再加入训练集)

OCRVQA

上述合成指令使得训练集较为丰富,则模型能够更健壮

图像描述的指令,举例如下:

d7c48348-f062-11ed-90ce-dac502259ad0.png

本文方法

d7dc55ea-f062-11ed-90ce-dac502259ad0.png

模型结构图

基线模型:open-flamingo模型

组成:

视觉编码器:CLIP

感知重采样

语言解码器:LLaMA (自注意力、交叉注意力、FFW中加入LoRA,便于微调)

训练数据:用2.1和2.2两种数据,进行联合训练

训练过程:通过预测文本的下一个标记进行训练,只有{responce}和标记参与损失计算

4.实验

实验设置:

实验参数 取值
GPU A100*8
epoch 1
batch_size 1
LoRA参数更新 每16轮
learningrate 1e-5

Demos展示:

给出一个烤千层面的食谱,并告诉用户在哪里吃到它

d7fc15a6-f062-11ed-90ce-dac502259ad0.png

能够识别埃隆·马斯克的形象,并回答关于埃隆·马斯克的问题

d8337690-f062-11ed-90ce-dac502259ad0.png

我知道照片上有4个女人,也知道她们在做什么

d858884a-f062-11ed-90ce-dac502259ad0.png

认得出电影,也知道电影是由哪个电影公司制作的

d87ee3be-f062-11ed-90ce-dac502259ad0.png

能识别图像中的人物,并认识该书的作者

d8a9a662-f062-11ed-90ce-dac502259ad0.png

可以回答关于用户旅行的一般问题

d8cdcefc-f062-11ed-90ce-dac502259ad0.png

可以为图像生成详细的描述,并有能力推理得到在图像中的季节

d8ec6484-f062-11ed-90ce-dac502259ad0.png

在线网站

感兴趣可以去官方网站[6]去尝试下,真的很棒!点击阅读原文也可直达!

d9263600-f062-11ed-90ce-dac502259ad0.png

缺点是好像只支持英文~

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    2985

    浏览量

    41718
  • 语言模型
    +关注

    关注

    0

    文章

    434

    浏览量

    10044
  • 聊天机器人
    +关注

    关注

    0

    文章

    276

    浏览量

    12103

原文标题:多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    揭秘聊天机器人的“大脑”-大语言模型

    如果说 AI 正处于改变历史的“iPhone 时刻”,那么聊天机器人就是其首批热门应用之一。
    的头像 发表于 04-17 10:01 320次阅读
    揭秘<b class='flag-5'>聊天机器人</b>的“大脑”-大语言模型

    AI机器人迎来多模态模型

    配备 GR00T 模型的机器人由于需要“吸收消化”外界的多模态信息,还要快速完成理解、决策、行动等一系列动作,因此对于算力的需求是巨量的。
    发表于 04-12 10:39 80次阅读

    谷歌AI聊天机器人改名为Gemini

    谷歌(Google)近日宣布,旗下备受瞩目的AI聊天机器人Bard正式更名为Gemini,并推出了一款功能更加强大的付费版本——Gemini Advanced。这一战略调整旨在与微软、OpenAI等科技巨头在AI聊天机器人市场展
    的头像 发表于 02-18 11:28 528次阅读

    字节跳动推出AI聊天机器人Coze扣子

    近日,字节跳动正式推出了名为“Coze扣子”的AI聊天机器人开发平台。自2月1日起,这一平台已正式上线,为开发者和用户提供了一个全新的交互体验。
    的头像 发表于 02-03 09:31 758次阅读

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 124次阅读
    <b class='flag-5'>机器人</b>基于开源的多<b class='flag-5'>模态</b>语言视觉大模型

    OpenAI将推出GPT Store,供用户销售及分享基于GPT聊天机器人

    为方便用户使用,GPTStore将设置搜索栏,以供快速查找相关的聊天机器人。排行榜则会甄选热门的GPT及受欢迎程度高的开发者作品予以展示。
    的头像 发表于 01-05 10:41 207次阅读

    如何用AI聊天机器人写出万字长文

    如何用AI聊天机器人写出万字长文
    的头像 发表于 12-26 16:25 487次阅读

    Meta面向年轻用户推出一款生成型人工智能聊天机器人

    据《华尔街日报》报道,Meta正准备在内部推出一款名为“Gen AI Personas”的生成型人工智能聊天机器人,面向年轻用户。据报道,它们将于近日开始的公司Meta Connect活动期间推出
    的头像 发表于 10-07 17:05 750次阅读

    OpenAI最新大模型曝光!剑指多模态GPT-4之后最大升级!

    目前为止,OpenAI还没有对爆料中的传闻做出回应,但此前发布过多模态模型测试。CEO奥特曼在回应有关GPT-5的传闻时,也暗示过GPT-4“正在增强”。
    的头像 发表于 09-20 17:34 858次阅读
    OpenAI最新大模型曝光!剑指多<b class='flag-5'>模态</b>,<b class='flag-5'>GPT</b>-4之后最大升级!

    全球与中国AI聊天机器人市场:增长趋势、竞争格局与前景展望

    与人类用户进行对话。 它可以使用自然语言处理(NLP)和机器学习(ML)等各种技术和方法来构建。 聊天机器人有多种类型,包括基于规则的聊天机器人和自学习
    的头像 发表于 08-01 18:07 1100次阅读

    印度Dukaan推出应用生成式AI聊天机器人

          近日印度电子商务初创公司Dukaan宣布采用生成式人工智能(AI)聊天机器人来改善其客服工作。据了解这一举措大大提高了客服效率,并显著降低了成本。 Dukaan公司在应用生成式AI聊天机器人
    的头像 发表于 07-17 10:21 385次阅读

    聊天机器人开源分享

    电子发烧友网站提供《聊天机器人开源分享.zip》资料免费下载
    发表于 06-20 15:07 1次下载
    <b class='flag-5'>聊天机器人</b>开源分享

    Snapchat将免费提供其人工智能聊天机器人

    Snap将向Snapchat的7.5亿月用户免费发布其“My AI”聊天机器人,这一举措距离OpenAI驱动的聊天机器人首次向该应用的300多万付费用户开放不到两个月。
    的头像 发表于 05-18 17:37 1758次阅读

    如何利用LLM做多模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布GPT4具备图片理解能力,但目前还未开放多模态输入接口并且不会透露任何模型上技术细节
    的头像 发表于 05-11 17:09 679次阅读
    如何利用LLM做多<b class='flag-5'>模态</b>任务?

    ImageBind:跨模态之王,将6种模态全部绑定!

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音频嵌入无法直接用于图像 - 文本任务,反之亦然。学习真正的联合嵌入面临的一个主要障碍是缺
    的头像 发表于 05-11 09:30 676次阅读
    ImageBind:跨<b class='flag-5'>模态</b>之王,将6种<b class='flag-5'>模态</b>全部绑定!