摘要
拥有指令跟随能力的大型语言模型已经彻底改变了人工智能领域。这些模型通过其自然语言界面展现出卓越的通用性,能够应对各种现实世界任务。
然而,它们的性能在很大程度上依赖于高质量的示例数据,通常难以获得。当涉及到多模态指令跟随时,这一挑战进一步加剧。
我们介绍了TextBind,这是一个几乎无需注释的框架,用于赋予更大型的语言模型多轮交织的多模态指令跟随能力。
我们的方法仅需要图像描述对,并从语言模型生成多轮多模态指令-响应对话。我们发布了我们的数据集、模型和演示,以促进未来在多模态指令跟随领域的研究。
数据
TextBind提供了处理和生成任意交织的图像和文本内容的示例,使语言模型能够在开放世界场景中与用户进行自然互动。


模型
我们的模型包括一个图像编码器、一个图像解码器、一个语言模型,以及连接它们的桥接网络,支持多轮交织的多模态指令跟随。它可以生成并处理任意交织的图像和文本内容。

demo
语言模型能够执行各种任务,包括根据一组图像创作引人入胜的故事,比较多个图像中的共同和不同之处,用生动的图像解释概念,生成带有插图的长篇连贯故事等等。最有趣的是,我们模型的核心创新在于其能够在广泛的真实场景中与用户自然互动。欢迎访问我们的demo[1]。

例子



-
编码器
+关注
关注
45文章
3905浏览量
141475 -
图像
+关注
关注
2文章
1096浏览量
42163 -
语言模型
+关注
关注
0文章
570浏览量
11256
原文标题:TextBind:在开放世界中多轮交织的多模态指令跟随
文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM
多文化场景下的多模态情感识别
多模态上下文指令调优数据集MIMIC-IT
VisCPM:迈向多语言多模态大模型时代
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」

TextBind:在开放世界中多轮交织的多模态指令跟随
评论