0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TextBind:在开放世界中多轮交织的多模态指令跟随

深度学习自然语言处理 来源:深度学习自然语言处理 2023-09-19 16:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

摘要

拥有指令跟随能力的大型语言模型已经彻底改变了人工智能领域。这些模型通过其自然语言界面展现出卓越的通用性,能够应对各种现实世界任务。

然而,它们的性能在很大程度上依赖于高质量的示例数据,通常难以获得。当涉及到多模态指令跟随时,这一挑战进一步加剧。

我们介绍了TextBind,这是一个几乎无需注释的框架,用于赋予更大型的语言模型多轮交织的多模态指令跟随能力。

我们的方法仅需要图像描述对,并从语言模型生成多轮多模态指令-响应对话。我们发布了我们的数据集、模型和演示,以促进未来在多模态指令跟随领域的研究。

数据

TextBind提供了处理和生成任意交织的图像和文本内容的示例,使语言模型能够在开放世界场景中与用户进行自然互动。

388a482c-56c3-11ee-939d-92fbcf53809c.png

38abc77c-56c3-11ee-939d-92fbcf53809c.png

模型

我们的模型包括一个图像编码器、一个图像解码器、一个语言模型,以及连接它们的桥接网络,支持多轮交织的多模态指令跟随。它可以生成并处理任意交织的图像和文本内容。

38bbbf56-56c3-11ee-939d-92fbcf53809c.png

demo

语言模型能够执行各种任务,包括根据一组图像创作引人入胜的故事,比较多个图像中的共同和不同之处,用生动的图像解释概念,生成带有插图的长篇连贯故事等等。最有趣的是,我们模型的核心创新在于其能够在广泛的真实场景中与用户自然互动。欢迎访问我们的demo[1]。

38d54c96-56c3-11ee-939d-92fbcf53809c.png

例子

39000292-56c3-11ee-939d-92fbcf53809c.png

391420a6-56c3-11ee-939d-92fbcf53809c.png

392f0fd8-56c3-11ee-939d-92fbcf53809c.png


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3905

    浏览量

    141475
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42163
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11256

原文标题:TextBind:在开放世界中多轮交织的多模态指令跟随

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    话:基于历史回答图中女孩头发和衣服分别是什么颜色 上一次我们详细讲解RK3576上部署模态模型的案例,这次将继续讲解轮对话的部署流程。整体流程基于 rknn-llm 里的
    发表于 09-05 17:25

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    交织址接入系统信道容量证明

    交织址接入系统信道容量证明:交织址接入系统(IDMA)是使用低速率码并利用交织器区分用户的
    发表于 10-20 17:48 5次下载

    lABCIWQmultyWindows模态窗口2010

    lABCIWQmultyWindows模态窗口2010。
    发表于 05-17 17:47 0次下载

    文化场景下的模态情感识别

    自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.本文探讨了文化场景下的模态情感识别问题.我们从语音声学和面部表情等模态
    发表于 12-18 14:47 0次下载

    Transformer模型的模态学习应用

    随着Transformer视觉的崛起,Transformer模态应用也是合情合理的事情
    的头像 发表于 03-25 09:29 1.2w次阅读
    Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模态</b>学习应用

    模态MR和特征融合的GBM自动分割算法

    模态MR和特征融合的GBM自动分割算法
    发表于 06-27 11:45 32次下载

    一个真实闲聊模态数据集TikTalk

    随着大量预训练语言模型文本对话任务的出色表现,以及模态的发展,在对话引入
    的头像 发表于 02-09 09:31 3112次阅读

    中文模态对话数据集

    随着大量预训练语言模型文本对话任务的出色表现,以及模态的发展,在对话引入
    的头像 发表于 02-22 11:03 2146次阅读
    中文<b class='flag-5'>多</b><b class='flag-5'>模态</b>对话数据集

    模态上下文指令调优数据集MIMIC-IT

    然而,一个理想的 AI 对话助手应该能够解决涉及多种模态的任务。这需要获得一个多样化和高质量的模式指令跟随数据集。比如,LLaVAInstruct-150K 数据集(也被称为 LLa
    的头像 发表于 06-12 16:36 1448次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>上下文<b class='flag-5'>指令</b>调优数据集MIMIC-IT

    VisCPM:迈向多语言模态大模型时代

    可以大致分为两类: 1. 图生文(image-to-text generation)方面,以 GPT-4 为代表的模态大模型,可以面向图像进行开放域对话和深度推理; 2.
    的头像 发表于 07-10 10:05 1208次阅读
    VisCPM:迈向多语言<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型时代

    更强更通用:智源「悟道3.0」Emu模态大模型开源,模态序列「补全一切」

    当前学界和工业界都对模态大模型研究热情高涨。去年,谷歌的 Deepmind 发布了模态视觉语言模型 Flamingo ,它使用单一视觉语言模型处理多项任务,
    的头像 发表于 07-16 20:45 1324次阅读
    更强更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型开源,<b class='flag-5'>在</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>序列<b class='flag-5'>中</b>「补全一切」

    基于Transformer模态先导性工作

    模态(Multimodality)是指在信息处理、传递和表达涉及多种不同的感知模态或信息来源。这些感知模态可以包括语言、视觉、听觉、触觉
    的头像 发表于 08-21 09:49 1443次阅读
    基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模态</b>先导性工作

    商汤日日新模态大模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态大模型,权威综合评测权威平台OpenCompass的模态评测
    的头像 发表于 12-20 10:39 1506次阅读

    智谱 GLM-PC 开放体验,模态 Agent 升级

    1月23日,北京智谱华章科技有限公司宣布旗下智谱GLM-PC开放体验,标志着自主操作电脑的模态Agent迎来重要升级。 GLM-PC是基于智谱
    的头像 发表于 01-24 14:10 1206次阅读