0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-12 09:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

使用视觉和语言指令训练一个多模态聊天机器人

基于开源多模态模型OpenFlamingo,作者使用公开数据集创建了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,还使用仅包含语言指令数据的语言模型组件进行了训练。

视觉和语言指令的联合训练有效提高了模型的性能!

具体细节就跟随小编继续往下看看吧~

总结

本文提出一种多模态GPT(视觉、语言),与人类进行多轮对话,同时设计了统一化多模态的指令数据模板

能够遵循的指令类型:生成详细的标题、计算特定的对象、处理一般的询问

基准模型:OpenFlamingo(用LoRA方式训练)

联合训练的数据:1.纯文本数据 2.图像-文本数据

其他的一些多模态GPT模型:GPT-4[1]、Mini-GPT[2]、LLaVA[3]

提到的其他LLM:Vicuna[4]、LLaMA[5]

提到的其他数据集:VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR

1.引言

人类交流/理解世界的方式:视觉、语言等

AI智能助手的作用:根据多种模态的指令,理解人类意图,完成各种任务

之前的方法:将视觉表示与LLM的输入空间对齐,随后利用LLM中的原始自我注意来处理视觉信息

本文的方法:微调Flamingo(开源)

视觉编码器

门限交叉注意力机制

预训练使用“图文对”数据

统一多模态的指令模板

语言数据、语言-视觉数据,进行联合训练

本文目标:在多模态对话任务上,接近人的性能表现

2.统一指令模板

主要是提出了一个统一的训练数据模板,把以下两种数据整合起来,提高模型理解能力

2.1 仅语言的指令模板

d79a4b50-f062-11ed-90ce-dac502259ad0.png

仅包含语言的指令提示模板

{instruction},{input}为输入文本,{response},用于计算损失

使用数据:

Dolly15k数据集

AlpacaGPT4数据集

2.2 视觉-语言的指令模板

d7af6f3a-f062-11ed-90ce-dac502259ad0.png

包含视觉-语言的指令提示模板

其中,{question}是原始文本,是表示图像存在的token,{response}、用于计算损失

使用数据集:

LLaVA

Mini-GPT4

A-OKVQA

COCOcaption(不直接作为训练集,而是用GPT-4转化,再加入训练集)

OCRVQA

上述合成指令使得训练集较为丰富,则模型能够更健壮

图像描述的指令,举例如下:

d7c48348-f062-11ed-90ce-dac502259ad0.png

本文方法

d7dc55ea-f062-11ed-90ce-dac502259ad0.png

模型结构图

基线模型:open-flamingo模型

组成:

视觉编码器:CLIP

感知重采样

语言解码器:LLaMA (自注意力、交叉注意力、FFW中加入LoRA,便于微调)

训练数据:用2.1和2.2两种数据,进行联合训练

训练过程:通过预测文本的下一个标记进行训练,只有{responce}和标记参与损失计算

4.实验

实验设置:

实验参数 取值
GPU A100*8
epoch 1
batch_size 1
LoRA参数更新 每16轮
learningrate 1e-5

Demos展示:

给出一个烤千层面的食谱,并告诉用户在哪里吃到它

d7fc15a6-f062-11ed-90ce-dac502259ad0.png

能够识别埃隆·马斯克的形象,并回答关于埃隆·马斯克的问题

d8337690-f062-11ed-90ce-dac502259ad0.png

我知道照片上有4个女人,也知道她们在做什么

d858884a-f062-11ed-90ce-dac502259ad0.png

认得出电影,也知道电影是由哪个电影公司制作的

d87ee3be-f062-11ed-90ce-dac502259ad0.png

能识别图像中的人物,并认识该书的作者

d8a9a662-f062-11ed-90ce-dac502259ad0.png

可以回答关于用户旅行的一般问题

d8cdcefc-f062-11ed-90ce-dac502259ad0.png

可以为图像生成详细的描述,并有能力推理得到在图像中的季节

d8ec6484-f062-11ed-90ce-dac502259ad0.png

在线网站

感兴趣可以去官方网站[6]去尝试下,真的很棒!点击阅读原文也可直达!

d9263600-f062-11ed-90ce-dac502259ad0.png

缺点是好像只支持英文~

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45562
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11253
  • 聊天机器人
    +关注

    关注

    0

    文章

    348

    浏览量

    13035

原文标题:多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 111次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    商汤日日新V6.5模态大模型登顶全球权威榜单

    Pro)模态大模型以82.2的综合成绩登顶榜首,领先Gemini 2.5 Pro以及GPT-5等国际顶尖模型。
    的头像 发表于 09-10 09:55 480次阅读

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“
    的头像 发表于 09-05 13:49 750次阅读

    为旌科技VS859:国产具身智能“感算控”体SoC,赋能边缘模态智能场景

      VS859是上海为旌科技有限公司推出的一款面向国产具身智能的模态“感算控”体化单芯片解决方案。是一款专为边缘智能场景设计的高集成度S
    的头像 发表于 05-14 14:29 1182次阅读
    为旌科技VS859:国产具身智能“感算控”<b class='flag-5'>一</b>体SoC,赋能边缘<b class='flag-5'>多</b><b class='flag-5'>模态</b>智能场景

    江智机器人公司《模态下人机协同交互系统与方法》发明专利已具有高价值发明专利属性

    深圳市江智工业技术有限公司自2016年开始进入机器人产业领域近10年,不仅成功开发了10以上桌面与地面机器人,并主要应用于老年陪伴,慢
    的头像 发表于 05-02 19:11 958次阅读
    江智<b class='flag-5'>机器人</b>公司《<b class='flag-5'>多</b><b class='flag-5'>模态</b>下人机协同交互系统与方法》发明专利已具有高价值发明专利属性

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态大模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态大模型适配上直处于主动紧跟的节奏。先后适配了国内最早开源的
    的头像 发表于 04-21 10:56 2590次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型

    海康威视发布模态大模型AI融合巡检超脑

    基于海康观澜大模型技术体系,海康威视推出新模态大模型AI融合巡检超脑,全面升级、车、行为、事件等算法,为行业带来全新的
    的头像 发表于 04-17 17:12 1331次阅读

    模态交互技术解析

    模态交互 模态交互( Multimodal Interaction )是指通过多种感官通道(如视觉、听觉、触觉等)或多种交互方式(如语音、手势、触控、眼动等)与计算机系统进行自然、
    的头像 发表于 03-17 15:12 3500次阅读

    海康威视发布模态大模型文搜存储系列产品

    模态大模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威视将大参数量、大样本量的图文模态大模型与嵌入式智能硬件深度融合,发布
    的头像 发表于 02-18 10:33 1017次阅读

    马斯克DOGE团队开发政府AI聊天机器人

    近日,据媒体引述消息人士透露,全球首富马斯克旗下的政府效率部门(DOGE)正着手为美国联邦总务署(GSA)打造一款定制的生成式人工智能(GenAI)聊天机器人——GSAi。
    的头像 发表于 02-10 18:04 1018次阅读

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    模态融合的创新与突破 机器人控制技术的另个重要突破在于模态大模型的应用。相比于仅通过文
    发表于 12-29 23:04

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    重大数据瓶颈的严重阻碍。与主要由用户生成的输入组成且相对容易收集和汇总的 Internet 数据不同,EAI 的数据涉及机器人与其动态环境之间的复杂交互。这根本差异意味着,虽然可以从跨数字平台的用户
    发表于 12-24 00:33

    商汤日日新模态大模型权威评测第

    刚刚,商汤科技日日新SenseNova模态大模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第
    的头像 发表于 12-20 10:39 1496次阅读

    亥步模态医疗大模型发布:人工智能引领医疗新纪元

    当下,人工智能(AI)正以不可阻挡之势渗透到各行各业,包括医疗行业。12月14日,2024中国医学人工智能大会的召开。会上,一款名为“亥步”的模态医疗大模型的正式发布
    的头像 发表于 12-19 17:56 780次阅读