0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入

jf_WZTOguxH 来源:AI前线 2023-08-25 15:12 次阅读

继 8 月初阿里云开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat 后,又一大模型实现了开源。 阿里云开源通义千问多模态大模型 Qwen-VL

InfoQ 获悉,8 月 25 日,阿里云开源通义千问多模态大模型 Qwen-VL。这是继 8 月初阿里云开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat 后,又开源的一大模型。

据介绍,Qwen-VL 是支持中英文等多种语言的视觉语言(Vision Language,VL)模型。相较于此前的 VL 模型,Qwen-VL 除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。

0f7b6358-4309-11ee-a2ef-92fbcf53809c.png

具体来说,Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出,可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等多种场景。比如,一位不懂中文的外国游客到医院看病,不知道怎么去往对应科室,他拍下楼层导览图问 Qwen-VL“骨科在哪层”“耳鼻喉科去哪层”,Qwen-VL 会根据图片信息给出文字回复。

0fc6260e-4309-11ee-a2ef-92fbcf53809c.png

此外,Qwen-VL 还是业界首个支持中文开放域定位的通用模型,可以通过中文开放域语言表达进行检测框标注。开放域视觉定位能力决定了大模型“视力”的精准度,这意味着具备该能力的大模型能在画面中精准地找出想找的事物。比如,输入一张上海外滩的照片,让 Qwen-VL 找出东方明珠,Qwen-VL 能用检测框准确圈出对应建筑。

0fecc17e-4309-11ee-a2ef-92fbcf53809c.png

据了解,Qwen-VL 以 Qwen-7B 为基座语言模型研发,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,并通过设计训练过程,让模型具备对视觉信号的细粒度感知和理解能力。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注,相比于目前其它开源 LVLM 使用的 224 分辨率,Qwen-VL 是首个开源的 448 分辨率的 LVLM 模型。

阿里云通义千问团队算法专家、Qwen-VL 开源模型负责人白金泽在接受 InfoQ 采访时表示,Qwen-VL 模型的训练分为三个阶段:

在预训练阶段,团队主要利用大规模、弱标注的图像 - 文本样本对进行训练;

在多任务训练阶段,团队整理了大量高质量多任务的细粒度图文标注数据进行混合训练,并升高了图像的输入分辨率,降低图像缩放引起的信息损失,增强模型对图像细节的感知能力,得到 Qwen-VL 预训练模型;

在指令微调阶段,团队使用合成标注的对话数据进行指令微调,激发模型的指令跟随和对话能力,得到具有交互能力的 Qwen-VL-Chat 对话模型。

白金泽表示,Qwen-VL 模型的研发难点主要体现在数据、训练、框架三个层面。“数据方面,多模态的数据整理和清洗是个难点,有效的数据清洗可以提高训练效率以及提升最终收敛后的效果。训练方面,在多模态大模型的训练中,一般认为大 batch 和较大学习率可以提升训练收敛效率和最终结果,但其训练过程可能更加不稳定。我们通过一些训练技巧有效提升了训练稳定性,具体细节将在相关论文中公布。框架方面,目前多模态大模型的并行训练框架支持并不完善,我们对多模态大模型的 3D 并行技术进行了优化,可稳定训练更大规模的多模态模型。”

除了 Qwen-VL,本次阿里云还开源了 Qwen-VL-Chat。Qwen-VL-Chat 是在 Qwen-VL 的基础上,使用对齐机制打造的基于大语言模型的视觉 AI 助手,可让开发者快速搭建具备多模态能力的对话应用。

白金泽补充说,团队主要通过两类方式评估了多模态大模型的效果。其一是使用标准基准数据集来评测每个多模态子任务的效果。例如评测图片描述(Image Captioning)、图片问答(Visual Question Answering, VQA)、文档问答(Document VQA)、图表问答(Chart VQA)、少样本问答(Few-shot VQA)、参照物标注(Referring Expression Comprehension)等。其二是使用人工或借助 GPT-4 打分来评测多模态大模型的整体对话能力和对齐水平。通义千问团队构建了一套基于 GPT-4 打分机制的基准“试金石”( TouchStone),总计涵盖 300+ 张图片、800+ 道题目、27 个题目类别。

在四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)的标准英文测评中,Qwen-VL 取得了同等尺寸开源 LVLM 的最好效果。为了测试模型的多模态对话能力,通义千问团队构建了一套基于 GPT-4 打分机制的测试集“试金石”,对 Qwen-VL-Chat 及其他模型进行对比测试,Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果。

104f1252-4309-11ee-a2ef-92fbcf53809c.png

目前,Qwen-VL 及其视觉 AI 助手 Qwen-VL-Chat 均已上线 ModelScope 魔搭社区,开源、免费、可商用。用户可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问调用 Qwen-VL 和 Qwen-VL-Chat,阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。

大模型发展的下一站:多模态大模型

多模态大模型是指能够理解文字、图像、视频音频等多种模态信息的大模型,与仅能理解单一文本模态的语言模型相比,多模态大模型的优势就在于可以充分利用语言模型的指令理解能力,来做图像、语音、视频等各种模态中的开放域任务,从而具备处理不同模态信息的通用能力。而单一模态大模型的任务形式通常都是预先定义好的,比如图像 / 视频 / 语音分类任务,需要提前知道这些类别,然后针对性的找训练数据去训练模型。

有观点认为,多模态是预训练大模型最重要的技术演进方向之一。

业界普遍认为,从单一感官的、仅支持文本输入的语言模型,到“五官全开”的,支持文本、图像、音频等多种信息输入的多模态模型,蕴含着大模型智能跃升的巨大可能。多模态能够提升大模型对世界的理解程度,充分拓展大模型的使用场景。比如,以 GPT-4、PaLM-E 为代表的一批模型,通过赋予大语言模型感知、理解视觉信号的能力,展现出大规模视觉语言模型在解决以视觉为中心的实际问题的前景,并显示出进一步拓展到具身智能、通向通用人工智能的广阔前景。

其中,视觉作为人类的第一感官能力,也是研究者首先希望赋予大模型的多模态能力。因此,继此前推出 M6、OFA 系列多模态模型之后,阿里云通义千问团队又开源了基于 Qwen-7B 的大规模视觉语言模型 Qwen-VL。

不过,多模态大模型的开发并非易事,白金泽表示,多模态大模型的开发难度包括但不限于以下几点:

模态间表征差异大:大规模纯语言模型的输入输出一般是离散表征,而图像、语音等内容通常是连续表征,其模态间的信息密度、表征空间、输入输出方式等都存在巨大差异,这导致了设计的复杂性。

多模态大模型收敛不稳定:由于模态间表征差异大、各模态网络异构等因素,相比纯文本大模型,多模态大模型的训练具有更多的挑战,更有可能出现训练不稳定的情况。

缺乏稳定开源框架支持:目前常见的开源大模型训练框架,都只对纯语言模型的训练效率进行了极致的优化。为了处理多模态输入输出,多模态模型通常有非对称的网络结构,导致无法直接用常见开源训练框架扩展到超大参数量。通义千问团队对多模态的并行训练框架进行了多重优化,可稳定训练更大规模的多模态模型。

“多模态是我们很看好的技术方向,这个领域还有很多技术难题有待解决,未来我们也会持续研究。就 Qwen-VL 来说,接下来的工作包括支持更高分辨率的图像输入,无监督地从图像中学习更多的世界知识,扩展更多模态,加深对多模态数据的理解,等等。”白金泽说道。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    436

    浏览量

    10059
  • 阿里云
    +关注

    关注

    3

    文章

    883

    浏览量

    42617
  • 大模型
    +关注

    关注

    2

    文章

    1554

    浏览量

    1146

原文标题:通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    李未可科技正式推出WAKE-AI多模态AI大模型

    文本生成、语言理解、图像识别及视频生成等多模态交互能力。   该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互,同时多
    发表于 04-18 17:01 283次阅读
    李未可科技正式推出WAKE-AI多<b class='flag-5'>模态</b>AI大<b class='flag-5'>模型</b>

    联发科天玑9300搭载通义千问大模型阿里云提供解决方案

    通义千问大模型开源多项版本,包括18亿、70亿、140亿及720亿参数等版本伴随视觉、音频多模态能力提升。阿里云于去年10月发布的通义千问
    的头像 发表于 03-28 09:55 133次阅读

    字节发布机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能

    对此,ByteDance Research 基于开源的多模态语言视觉模型 OpenFlamingo 开发了
    的头像 发表于 01-23 16:02 194次阅读
    字节发布机器人领域首个<b class='flag-5'>开源</b><b class='flag-5'>视觉</b>-<b class='flag-5'>语言</b>操作大<b class='flag-5'>模型</b>,激发<b class='flag-5'>开源</b>VLMs更大潜能

    机器人基于开源的多模态语言视觉模型

    ByteDance Research 基于开源的多模态语言视觉模型 OpenFlamingo 开发了
    发表于 01-19 11:43 127次阅读
    机器人基于<b class='flag-5'>开源</b>的多<b class='flag-5'>模态</b><b class='flag-5'>语言</b><b class='flag-5'>视觉</b>大<b class='flag-5'>模型</b>

    自动驾驶和多模态语言模型的发展历程

    模态语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将文本与相应的视频
    发表于 12-28 11:45 212次阅读
    自动驾驶和多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的发展历程

    模型+多模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨
    的头像 发表于 12-13 13:55 741次阅读
    大<b class='flag-5'>模型</b>+多<b class='flag-5'>模态</b>的3种实现方法

    阿里云发布AI大模型,谷歌地热项目助力绿色能源转型

    大家好,欢迎收看河套IT WALK第124期。 今天,阿里云发布了具有720亿参数的大型语言模型Qwen-72B,这一创新将助力多语言AI的
    的头像 发表于 12-01 20:15 577次阅读
    <b class='flag-5'>阿里</b>云发布AI大<b class='flag-5'>模型</b>,谷歌地热项目助力绿色能源转型

    阿里云通义千问720亿参数模型宣布开源

    12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。与此同时,他们还开源了18亿参数模型
    的头像 发表于 12-01 17:08 861次阅读

    语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

    目前的 VL 预训练方法通常仅适用于视觉语言模态,而现实世界中的应用场景往往包含更多的模态信息,如深度图、热图像等。如何整合和分析不同
    的头像 发表于 11-23 15:46 288次阅读
    用<b class='flag-5'>语言</b>对齐多<b class='flag-5'>模态</b>信息,北大腾讯等提出LanguageBind,刷新多个榜单

    探究编辑多模态语言模型的可行性

    不同于单模态模型编辑,多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态
    发表于 11-09 14:53 258次阅读
    探究编辑多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的可行性

    更强更通用:智源「悟道3.0」Emu多模态模型开源,在多模态序列中「补全一切」

    热度。Flamingo 具备强大的多模态上下文少样本学习能力。 Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合,并插入可学习的层来捕捉跨
    的头像 发表于 07-16 20:45 406次阅读
    更强更通用:智源「悟道3.0」Emu多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b><b class='flag-5'>开源</b>,在多<b class='flag-5'>模态</b>序列中「补全一切」

    基于预训练模型语言增强的零样本视觉学习

    在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升 怎么让能力更好?可以引入其他知识,即其他的预训练模型,包括大语言
    的头像 发表于 06-15 16:36 327次阅读
    基于预训练<b class='flag-5'>模型</b>和<b class='flag-5'>语言</b>增强的零样本<b class='flag-5'>视觉</b>学习

    “悟道3.0”系列大模型全面开源,有助于AI应用普及!

    新阶段,此次发布的一系列成果包括“悟道·天鹰”(Aquila)语言模型系列、天秤(FlagEval)开源模型评测体系与开放平台、“悟道 · 视界”
    的头像 发表于 06-14 00:06 1536次阅读
    “悟道3.0”系列大<b class='flag-5'>模型</b>全面<b class='flag-5'>开源</b>,有助于AI应用普及!

    开源了!UniControl:可控视觉生成的统一扩散模型

    现有的可控图片生成模型都是针对单一的模态进行设计,然而 Taskonomy [3] 等工作证明不同的视觉模态之间共享特征和信息,因此本文认为统一的多
    的头像 发表于 06-08 15:01 379次阅读
    <b class='flag-5'>开源</b>了!UniControl:可控<b class='flag-5'>视觉</b>生成的统一扩散<b class='flag-5'>模型</b>

    模态GPT:国内发布一款可以在线使用的多模态聊天机器人!

    基于开源模态模型 OpenFlamingo,作者使用公开数据集创建了各种视觉指令数据,包括视觉问答、图像字幕、
    的头像 发表于 05-12 09:55 889次阅读
    多<b class='flag-5'>模态</b>GPT:国内发布一款可以在线使用的多<b class='flag-5'>模态</b>聊天机器人!