0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

「悟道·视界」视觉大模型系列,6项领先成果技术详解

硬科技星球 来源:硬科技星球 作者:硬科技星球 2023-06-27 16:40 次阅读

日前,智源「悟道·视界」通用视觉大模型系列,带来计算机视觉多任务处理能力方面的6项国际领先技术,迎接通用视觉智能曙光降临,包括:

在多模态序列中补全一切的多模态大模型Emu

最强十亿级视觉基础模型EVA

一通百通、分割一切的视界通用分割模型

首创上下文图像学习技术路径的通用视觉模型Painter

性能最强开源CLIP模型 EVA-CLIP

简单prompt(提示)即可视频编辑的 vid2vid-zero 零样本视频编辑技术

“悟道·视界”

通用视觉大模型系列开源地址:

EVA代码和论文

Github 项目地址

https://github.com/baaivision/EVA

论文地址

https://arxiv.org/abs/2211.07636

EVA-CLIP代码和论文

Github 项目地址

https://github.com/baaivision/EVA/tree/master/EVA-CLIP

论文地址

https://arxiv.org/abs/2303.15389

Painter代码和论文

Github 项目地址

https://github.com/baaivision/Painter

论文地址

https://arxiv.org/abs/2212.02499

「视界通用分割模型」代码和论文

Github 项目地址

https://github.com/baaivision/Painter

论文地址

https://arxiv.org/abs/2304.03284

Demo 地址

https://huggingface.co/spaces/BAAI/SegGPT

vid2vid-zero代码和论文

Github 项目地址

https://github.com/baaivision/vid2vid-zero

论文链接

https://arxiv.org/abs/2303.17599

Demo 地址

https://huggingface.co/spaces/BAAI/vid2vid-zero

Emu:在多模态序列中补全一切的多模态大模型

多模态输入,多模态输出。

Emu作为业界首个多模态-to-多模态的多模态大模型,可以接受和处理不同模态的数据,并输出想要的多模态类别。

基于多模态上下文学习技术路径,从图文、交错图文、交错视频文本等海量多模态序列中学习。训练完成后,Emu能在多模态序列的上下文中补全一切,对图像、文本和视频等多种模态的数据进行感知、推理和生成,实现多轮图文对话、视频理解、精准图像认知、文图生成、多模态上下文学习、视频问答和图图生成等多模态能力。

在零样本COCO图像描述性能方面,Emu超越Flagmingo-80B,取得109分。相比其他多模态模型,可以准确识别出莫奈的日出印象;可以完成少样本图文理解,以两个图文对为例,可自动完成对应任务;还可根据图片或视频进行问答和多轮对话。


在生成能力方面,可以根据任意长度文本生成图像;在图图生成方面,可以自动推理生成新的图片;在多模态上下文生成方面,可以根据文本-图片作为prompt,生成融合了上下文的新图片。


EVA:最强十亿级视觉基础模型

通用性是大模型能力的重要指标,亦是研究难点所在。如何让通用视觉模型,在更高效的同时更简单?语义学习和几何结构学习是解决视觉问题的两大关键点。


将最强十亿级视觉基础模型 EVA 正是将最强语义学习(CLIP)与最强几何结构学习(MIM)结合,再将标准的 ViT 模型扩大规模至 10 亿参数进行训练,一举在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当时最强性能。

视觉预训练模型EVA的命名来源于论文标题“Exploring the Limits of Masked Visual Representation Learning at Scale”相关字母的简化,意为探索遮蔽视觉表征学习的极限。

EVA模型把以“视觉为中心”作为建模思想,将语义学习(CLIP)与几何结构学习(MIM)结合,仅使用标准的 ViT 模型,并将其规模扩大到十亿参数(1-Billion)进行训练。

模型训练方法是使用图像-文本对齐(即CLIP)的视觉特征作为MIM的预测目标,模型设计思路有两个特点:

高效,EVA仅使用开源的纯图像数据即可进行掩码预测任务,不需要预训练阶段重新学习语义以及不需要巨量的成对有标注数据。相比而言,主流标杆性模型(ViT-g、SwinV2、CoCa等)仍依赖于冗长的有监督或弱监督训练,以及不可公开访问的数亿级有标签数据。

简单,EVA不需要特殊设计网络结构。使用简单的网络结构—标准的ViT-g,而无需额外特殊设计的算子,使得其非常容易的迁移到广泛的下游任务,并且可以和其他模态共享。

经过实验,模型在ImageNet分类、COCO检测分割、Kinetics视频分类等广泛的视觉感知任务中取得当前最强性能。

如上图,ImageNet图像分类中取得89.7%的top-1准确率;Kinetics-700视频动作识别取得82.9%的top-1准确率;COCO目标检测取得64.7 mAP、实例分割取得55.5 mAP;LVIS的实例分割取得55.0 mAP;语义分割的COCO-stuff取得53.4 mIoU、ADE-20K取得62.3 mIoU。


Painter通用视觉模型:首创「上下文视觉学习」技术路径


图像理解图像、图像解释图像,图像输出图像。将NLP中的上下文学习概念引入视觉模型,是智源对通用智能的新探索。


通用视觉模型 Painter , 将“以视觉为中心”作为建模核心思想,将图像作为输入和输出,从而获得上下文视觉信息,完成不同的视觉任务。

通用视觉模型Painter的设计思路是将大多数视觉任务看成”图像修复问题“,即给定输入(“缺失”)图像,预测输出是“修复“过的图像。这保持了像素之间的空间关系,确保每个输出图像的像素仍然代表相关任务的输出。

Painter的建模要素可以归纳为三部分:输入、架构以及损失函数。

输入为图像。任务输入和输出都是图像,会随机遮蔽任务输出图像,并训练模型重构缺失(被遮蔽掉)的像素。研究人员发现,遮蔽比例为75%效果最好。


损失函数采用简单的回归损失。研究人员发现,Smooth l1 损失能帮助模型取得最好的性能。


架构采用基本的ViT(vision Transformer)作为编码器。具体来说,神经网络头部(head)由两个线性层(每个是1×1卷积),一个3×3卷积层组成。

模型目前可完成 7 种主流视觉任务,已经在深度估计、语义分割等核心视觉任务中性能“大幅超越同类”,相比同类模型具有 11%~25% 的性能提升,超过了图灵奖得主 Geoffrey Hinton 团队的 Pix2Seqv2,艾伦AI研究所的视觉通用模型 Unified-IO 和谷歌的 UViM。

「视界」通用分割模型:一通百通,分割一切

「视界通用分割模型」基于通用模型Painter开发,是首个利用视觉提示(prompt)完成任意分割任务的通用视觉模型,一通百通、分割一切。

从影像中分割出各种各样的对象,是视觉智能的关键里程碑。今年年初,智源视界分割模型与Meta 的 SAM 模型同时发布,点亮通用视觉曙光。

它将分割任务视为一种通用的视觉感知格式,即通过将它们转化为图像的相同格式来适应不同种类的分割数据;同时,模型训练被构造为一个在上下文中的着色问题,即目标是只根据上下文,来着色相应的区域,而不是依赖特定的颜色,这使得模型更灵活和可泛化。

总的来说「视界通用分割模型」在基础模型Painter做了三点主要创新:


1.上下文随机着色方法。首先随机采样与输入图像“相似”的图像,然后从目标图像中随机抽取一组颜色,并将每种颜色映射到一个随机颜色,如此可得到两对图像,被定义为上下文对。从而打破了原始图像中的颜色关联,迫使模型“放弃”颜色信息依赖,更多依赖依赖上下文信息。


2.上下文集成方法。两种集成方案:空间集成,将多个示例图像拼接在一起,并将它们调整到与单个示例相同的大小;特征集成,将多个示例在批处理维度上进行组合,并独立计算。两种集成方式让模型可以使用多个示例,从而提供更准确和具体的上下文信息。


3.上下文微调方法。冻结整个模型,并初始化一个可学习的图像张量作为输入上下文。在训练过程中,只有这个可学习的图像张量会被更新,其他的训练过程保持不变。从而能以灵活的方式适应特定的任务或数据集。

以上技术让「视界通用分割模型」具备输入任意数量的prompt,以及对特定场景优化专用prompt的能力。即「视界通用分割模型」解锁了上下文推理能力,训练完成后无需微调,只需提供示例即可自动推理并完成对应分割任务。

实验结果也显示了模型强大的能力。例如模型只需少数 prompt 示例,在 COCO 和 PASCAL 数据集上取得最优性能;模型的零样本场景迁移实验中,模型在少样本语义分割测试集 FSS-1000 上,在无需训练的情况下取得最佳性能;另外,无需视频训练数据,模型可直接进行视频物体分割,并取得和专门优化的模型相当的性能。

EVA-CLIP:性能最强开源CLIP模型

零样本学习是指仅通过描述让AI“认出”未见过的物体,是评价模型泛化能力的重要指标。多模态预训练模型CLIP 作为零样本学习基础模型,广受业界认可。

智源视觉团队于2023年初发布的 EVA-CLIP 5B 版本, 创造了零样本学习性能新高度:超越此前最强的 OpenCLIP 模型,在 ImageNet1K 零样本 top1 达到最高的 82.0% 准确率。


而去年发布的 EVA-CLIP 1B 版本,今年才被 Meta 发布的 DINOv2 模型追平 ImageNet kNN准确率指标。

EVA-CLIP是一系列模型的总称,集成了当前新兴的几种模型训练技术,包括用EVA预训练模型进行初始化,用LAMB优化器加速模型,用FLIP技术节省训练时间等等。具体而言,模型有两种集成思路:

1.EVA预训练 + LAMB优化器让CLIP模型表现更加强大。

视觉预训练模型 EVA 能将语义学习(CLIP)与几何结构学习(MIM)结合,在标准模型基础上,将规模扩大到十亿参数(1-Billion)进行训练。EVA 模型的输入为有遮盖的图像,但遮盖部分能重构 CLIP 模型对应位置,从而获得高效、简单的可泛化模型。

LAMB优化器专门面向大批量(batch)训练,考虑到它自适应的学习率和动量参数设置的优势,为避免泛化差距难题,研究员认为LAMB优化器比Adam、RMSprop更适合训练大规模CLIP模型。

2,FlashAttention机制+ FLIP加速让CLIP模型训练更迅速。

FlashAttention算法可以在执行更少的内存/访问的基础之上,在加速和节省内存的基础上计算精确注意力。研究员使用该机制训练CLIP时可以提升15%-30%的训练速度。

FLIP旨在通过简单的图像掩蔽提升CLIP的训练速度,带来性能提升。实践中,研究员随机掩蔽了50%的图像标签,减少一半的时间复杂度。

实验结果表现,50亿参数量的EVA-CLIP模型,零样本分类和检索的性能全面提升。在ImageNet1K零样本top1 准确率达到了82.0%,高于此前最佳OpenCLIP的80%;在 MS COCO 上实现了75.0% 的zero-shot图像检索(Recall@5)。

同时,EVA-CLIP兼顾了泛化能力和鲁棒性。例如EVA-CLIP与27个零样本图像分类基准的对比,效果最好的EVA-CLIP达到了平均77.5的Top-1准确率,模型泛化能力业界领先。EVA-02-CLIP-E/14+在ImageNet系列和ObjectNet的所有6个基准测试中获得了平均80.9%的准确率,这充分证实了鲁棒性。

vid2vid-zero:简单prompt(提示)即可视频编辑的零样本视频编辑方法


现有文本驱动的 AIGC 视频编辑方法严重依赖于在大量「文本-视频」数据上调整预训练好的视频扩散模型,需要庞大的计算资源,带来了高昂的人工数据标注成本和计算成本。


智源研究院提出了零样本视频编辑方法「vid2vid-zero」,首次在无需额外视频训练的情况下,利用注意力机制动态运算的特点,结合现有图像扩散模型,实现可指定属性的视频编辑。

这里用两组视频展示了模型的有效性。我们介绍第一组:输入文本“a man is running”。


加入指令:动漫风格。输出结果可以很好的将人物转换成动漫,展示了模型风格编辑能力。

加入指令:一位老人在海滩。输出结果说明模型的属性编辑和背景编辑能力已经过关。


此外,论文中公布了更多的视频案例,更多模型能力,请访问论文。

用户根据「视频质量」、「文本与视频的对齐程度」、「对原始视频的保真度」在 32 段视频上对 vid2vid-zero、TAV、PnP 模型的性能进行了比较。实验结果表明,vid2vid-zero 在上述三项指标上都具有显著优势。

审核编辑黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大模型
    +关注

    关注

    2

    文章

    1517

    浏览量

    1116
收藏 人收藏

    评论

    相关推荐

    Anthropic领先模型Claude 3系列将基于Amazon Bedrock提供服务

    亚马逊云科技(Amazon Web Services)近日宣布,将与致力于AI安全和研究的公司Anthropic展开合作,将其领先的Claude 3系列模型基于Amazon Bedrock平台提供
    的头像 发表于 03-11 10:56 153次阅读

    机器人基于开源的多模态语言视觉模型

    ByteDance Research 基于开源的多模态语言视觉模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 124次阅读
    机器人基于开源的多模态语言<b class='flag-5'>视觉</b>大<b class='flag-5'>模型</b>

    Find X7系列将首发安卓全焦段4K杜比视界HDR视频拍摄

    OPPO 宣布 Find X7 系列将首发安卓全焦段4K杜比视界HDR视频拍摄,提供跨越代际的视频拍摄体验革新。杜比视界是备受好莱坞顶级电影人青睐的电影技术,以不可思议的亮度和更深遂的
    发表于 01-03 14:36 220次阅读
    Find X7<b class='flag-5'>系列</b>将首发安卓全焦段4K杜比<b class='flag-5'>视界</b>HDR视频拍摄

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔研究院将在NeurIPS 2023大会上展示一系列富有价值、业界领先的AI创新成果。面向广大开发者、研究人员和学界人士,这一AI和计算机视觉领域的全球顶会将于12月10日至16日
    的头像 发表于 12-08 19:15 350次阅读

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔研究院将重点展示31项研究成果,它们将推进面向未来的AI创新。        英特尔研究院将在NeurIPS 2023大会上展示一系列富有价值、业界领先的AI创新成果。面向广大开
    的头像 发表于 12-08 09:17 403次阅读

    百度蛋白大语言模型研究成果登上Nature子刊封面

    百度最新研究成果登上Nature子刊封面,文心生物计算大模型获国际顶刊认可!
    的头像 发表于 11-25 11:25 666次阅读
    百度蛋白大语言<b class='flag-5'>模型</b>研究<b class='flag-5'>成果</b>登上Nature子刊封面

    百度知识增强大语言模型关键技术荣获“2023世界互联网大会领先科技奖”

    荣获“世界互联网大会领先科技奖”,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰现场发布了文心大模型的关键技术成果
    的头像 发表于 11-09 11:02 330次阅读

    陈海波:OpenHarmony技术领先,产学研深度协同,生态蓬勃发展

    题为《OpenHarmony技术领先筑生态,万物智联赢未来》的主题演讲。他围绕万物智联趋势,分享OpenHarmony四大技术架构特征的关键技术成果与未来演进方向,并发布了多项
    发表于 11-06 14:35

    【直播预告】LabVIEW机械手视觉纠偏关键技术探讨

    报名地址点击报名 直播简介 1.了解机械手视觉引导的应用场景 2.了解scara机器人运动学正逆解 3.了解相机畸变矫正方法 4.了解手眼标定-9点标定方法 5.了解机械手旋转中心标定方法 6.了解
    发表于 10-17 15:37

    视觉导航关键技术及应用

    由于视觉导航技术的应用越来越普及 ,因此 ,有必要对视觉导航中的关键技术及应用进行研究。文章对其中的图像处理技术和定位与跟踪
    发表于 09-25 08:09

    计算机视觉中的九种深度学习技术

    计算机视觉中仍有许多具有挑战性的问题需要解决。然而,深度学习方法正在针对某些特定问题取得最新成果。 在最基本的问题上,最有趣的不仅仅是深度学习模型的表现;事实上,单个模型可以从图像中
    发表于 08-21 09:56 360次阅读
    计算机<b class='flag-5'>视觉</b>中的九种深度学习<b class='flag-5'>技术</b>

    更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」

    热度。Flamingo 具备强大的多模态上下文少样本学习能力。 Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合,并插入可学习的层来捕捉跨模态依赖,其采用图文对、图文交错文档、视频文本对组成的多模态数据训练
    的头像 发表于 07-16 20:45 404次阅读
    更强更通用:智源「<b class='flag-5'>悟道</b>3.0」Emu多模态大<b class='flag-5'>模型</b>开源,在多模态序列中「补全一切」

    悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆

    为推动大模型在产业落地和技术创新,智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果,打造“大
    的头像 发表于 06-27 16:37 268次阅读

    悟道3.0”系列模型全面开源,有助于AI应用普及!

    新阶段,此次发布的一系列成果包括“悟道·天鹰”(Aquila)语言大模型系列、天秤(FlagEval)开源大模型评测体系与开放平台、“
    的头像 发表于 06-14 00:06 1523次阅读
    “<b class='flag-5'>悟道</b>3.0”<b class='flag-5'>系列</b>大<b class='flag-5'>模型</b>全面开源,有助于AI应用普及!

    摩尔线程率先完成对“悟道·天鹰”大模型的推理兼容适配

      6月,智源研究院在北京智源大会上重磅发布了全面开源的“悟道3.0”系列模型,包括“悟道·天鹰”(Aquila)语言大模型
    的头像 发表于 06-12 14:30 1215次阅读