0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

马毅团队新作:白盒ViT成功实现

CVer 来源:新智元 2023-09-14 15:58 次阅读

【导读】CRATE模型完全由理论指导设计,仅用自监督学习即可实现分割语义涌现。

基于Transformer的视觉基础模型在各种下游任务,如分割和检测中都展现出了非常强大的性能,并且DINO等模型经过自监督训练后已经涌现出了语义的分割属性。

不过奇怪的是,类似的涌现能力并没有出现在有监督分类训练后的视觉Transformer模型中。

最近,马毅教授团队探索了基于Transformer架构的模型中涌现分割能力是否仅仅是复杂的自监督学习机制的结果,或者是否可以通过模型架构的适当设计在更通用的条件下实现相同的涌现。

c65f3dc0-52bc-11ee-a25d-92fbcf53809c.png

在CVer微信公众号后台回复:CRATE,可以下载本论文pdf和代码

Emergence of Segmentation with Minimalistic White-Box Transformers

代码:https://github.com/Ma-Lab-Berkeley/CRATE

论文:https://arxiv.org/abs/2308.16271

通过大量的实验,研究人员证明了当采用白盒Transformer模型CRATE时,其设计明确地模拟并追求数据分布中的低维结构,整体和part级别的分割属性已经以最小化的监督训练配方出现。

分层的细粒度分析表明,涌现属性有力地证实了白盒网络的设计数学功能。我们的结果提出了一条设计白盒基础模型的途径,该模型同时具有高性能和数学上完全可解释性。

马毅教授也表示,深度学习的研究将会逐渐从经验设计转向理论指导。

c67618e2-52bc-11ee-a25d-92fbcf53809c.png

白盒CRATE的涌现属性

DINO的分割涌现能力

智能系统中的表征学习旨在将世界的高维、多模态感官数据(图像、语言、语音)转换为更紧凑的形式,同时保留其基本的低维结构,实现高效的识别(比如分类)、分组(比如分割)和追踪。

深度学习模型的训练通常采用数据驱动的方式,输入大规模数据,以自监督的方式进行学习。

在视觉基础模型中,自监督Transformer架构的DINO模型展现出了令人惊讶的涌现能力,即使没有经过有监督分割训练,ViTs也能识别出显式的语义分割信息

c6ba771c-52bc-11ee-a25d-92fbcf53809c.png

后续有工作研究了如何在DINO模型中利用这种分割信息,并在下游任务中,如分割、检测等实现了最先进的性能,也有工作证明了用DINO训练的ViTs中的倒数第二层特征与视觉输入中的显著性信息强烈相关,如区分前景、背景和物体边界,从而提升图像分割和其他任务的性能。

为了让分割属性涌现,DINO需要在训练期间将自监督学习、知识蒸馏和权重平均巧妙地结合起来。

目前还不清楚DINO中引入的每个组件是否对于分割遮罩的涌现来说必不可缺,尽管DINO也采用ViT架构作为其主干,但在分类任务上训练的普通有监督ViT模型中,并没有观察到分割涌现行为。

CRATE的涌现

基于DINO的成功案例,研究人员想要探究,复杂的自监督学习pipeline对于获得类似Transformer的视觉模型中的涌现属性是否是必要的。

研究人员认为,在Transformer模型中促进分割属性的一种有前途的方法是,在考虑输入数据结构的情况下设计Transformer模型架构,也代表了表征学习经典方法与现代数据驱动的深度学习框架的结合。

c6ca5cf4-52bc-11ee-a25d-92fbcf53809c.png

与目前主流的Transformer模型对比,这种设计方法也可以叫做白盒Transformer模型。

基于马毅教授组之前的工作,研究人员对白盒架构的CRATE模型进行了广泛的实验,证明了CRATE的白盒设计是自注意力图中分割属性涌现的原因。

定性评估

研究人员采用基于[CLS] token的注意力图方法对模型进行解释和可视化,结果发现CRATE中的query-key-value矩阵都是相同的。

c6ef23c2-52bc-11ee-a25d-92fbcf53809c.png

可以观察到CRATE模型的自注意力图(self-attention map)可以对应到输入图像的语义上,模型的内部网络对每个图像都进行了清晰的语义分割,实现了类似DINO模型的效果。

相比之下,在有监督分类任务上训练的普通ViT却并没有表现出类似的分割属性。

c6fb9f4e-52bc-11ee-a25d-92fbcf53809c.png

遵循之前关于可视化图像学习的逐块深度特征的工作,研究人员对CRATE和ViT模型的深度token表征进行主成分分析(PCA)研究。

c7740da8-52bc-11ee-a25d-92fbcf53809c.png

可以发现,CRATE可以在没有分割监督训练的情况下,依然可以捕捉到图像中物体的边界。

并且,主成分(principal compoenents)也说明了token和物体中相似部分的特征对齐,例如红色通道对应马腿。

而有监督ViT模型的PCA可视化结构化程度相当低。

定量评估

研究人员使用现有的分割和目标检测技术对CRATE涌现的分割属性进行评估。

从自注意力图可以看到,CRATE用清晰的边界显式地捕获了对象级的语义,为了定量测量分割的质量,研究人员利用自注意力图生成分割遮罩(segmentation mask),对比其与真实掩码之间的标准mIoU(平均交并比)。

c7e6e6c0-52bc-11ee-a25d-92fbcf53809c.png

从实验结果中可以看到,CRATE在视觉和mIOU评分上都显著优于ViT,表明CRATE的内部表征对于分割掩码任务生成来说要更有效。

对象检测和细粒度分割

为了进一步验证和评估CRATE捕获的丰富语义信息,研究人员采用了一种高效的目标检测和分割方法MaskCut,无需人工标注即可获得自动化评估模型,可以基于CRATE学到的token表征从图像中提取更细粒度的分割。

c848531a-52bc-11ee-a25d-92fbcf53809c.png

c853d456-52bc-11ee-a25d-92fbcf53809c.png

在COCO val2017上的分割结果中可以看到,有CRATE的内部表征在检测和分割指标上都要好于有监督ViT,有监督ViT特征的MaskCut在某些情况下甚至完全不能产生分割掩码。

CRATE分割能力的白盒分析

深度在CRATE中的作用

CRATE的每一层设计都遵循相同的概念目的:优化稀疏速率降低,并将token分布转换为紧凑和结构化的形式。

假设CRATE中语义分割能力的涌现类似于「表征Z中属于相似语义类别token的聚类」,预期CRATE的分割性能可以随着深度的增加而提高。

为了测试这一点,研究人员利用MaskCut来定量评估跨不同层的内部表征的分割性能;同时应用PCA可视化来理解分割是如何随深度加深而涌现的。

c86d04ee-52bc-11ee-a25d-92fbcf53809c.png

从实验结果中可以观察到,当使用来自更深层的表征时,分割分数提高了,与CRATE的增量优化设计非常一致。

相比之下,即使ViT-B/8的性能在后面的层中略有提高,但其分割分数明显低于CRATE,PCA结果显示,从CRATE深层提取的表征会逐渐更关注前景对象,并且能够捕捉纹理级别的细节。

CRATE的消融实验

CRATE中的注意力块(MSSA)和MLP块(ISTA)都不同于ViT中的注意力块。

为了了解每个组件对CRATE涌现分割属性的影响,研究人员选取了三个CRATE变体:CRATE, CRATE-MHSA, CRATE-MLP,分别表示ViT中的注意块(MHSA)和MLP块。

研究人员在ImageNet-21k数据集上应用相同的预训练设置,然后应用粗分割评估和遮罩分割评估来定量对比不同模型的性能。

c8769568-52bc-11ee-a25d-92fbcf53809c.png

实验结果显示,CRATE在所有任务中都明显优于其他模型架构,可以发现,尽管MHSA和MSSA之间的架构差异很小,但只需要简单地用CRATE中的MSSA替换ViT中的MHSA,可以显著改善ViT的粗分割性能(即VOC Seg),证明了白盒设计的有效性。

识别注意头的语义属性

[CLS] token和图像块token之间的自注意力图可以看到清晰的分段掩码,根据直觉,每个注意力头应该都可以捕捉到数据的部分特征。

研究人员首先将图像输入到CRATE模型,然后由人来检查、选择四个似乎具有语义含义的注意力头;然后在其他输入图像上在这些注意力头上进行自注意力图可视化。

c8841ab2-52bc-11ee-a25d-92fbcf53809c.png

可以发现,每个注意力头都捕捉到了物体的不同部分,甚至不同的语义:例如第一列中显示的注意力头可以捕捉到不同动物的腿,最后一列中显示的注意力头捕捉的是耳朵和头部。

自从可形变部件模型(deformable part model)和胶囊网络发布以来,这种将视觉输入解析为部分-整体层次结构的能力一直是识别架构的目标,白盒设计的CRATE模型也具有这种能力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47690
  • 深度学习
    +关注

    关注

    73

    文章

    5239

    浏览量

    119912
  • Transformer
    +关注

    关注

    0

    文章

    130

    浏览量

    5898

原文标题:马毅团队新作:白盒ViT成功实现"分割涌现"!具有高性能和数学可解释的特性

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    系统测试、验收测试、黑盒测试、测试、单元测试、集成测试的区别

    系统测试、验收测试、黑盒测试、测试、单元测试、集成测试的区别黑盒测试:已知产品的功能设计规格,可以进行测试证明每个实现了的功能是否符合要求。  
    发表于 10-22 12:42

    云如是说

    任何一个企业家的成功,都需要一种特立独行的精神。换而言之,他一定是不断地否定别人的反对意见,坚持自己独特的观点,才能够真正走到大成功。在中国企业家群像里,云就是这样一个特立独行的人。这,是促使我们
    发表于 07-16 18:50

    新作

    `最新作品, 基于STC89c52rc+`
    发表于 04-10 18:13

    新作

    新作品, 基于STC89c52rc+
    发表于 04-10 18:13

    炸裂!十年收购终成功,国巨曲线收购大意欲何为?

    ,而这次由其子公司凯美收购成功。  依老司机之见,国巨如果直接收购大,会涉嫌贴片电阻行业的垄断。所以这一次改由国巨的控股孙子公司凯美来操办整个大收购案。凯美是做铝电解的,收购大
    发表于 01-20 14:33

    labview如何制作.vit模板啊?

    每次写程序,都会自己搭建labview的框架,我在想能不能制作一个labview框架的模板,就像JKI 状态机那样,可以直接拖到程序框图,直接开始写,但是不知道怎么制作.vit模板。有没有哪位大神知道如何制作.vit模板。求告知!!!
    发表于 03-06 18:35

    1024追光者 | 朱清——在1000万盲人心中洒下阳光

    ”日浏览量就达到千余人次。这让朱清看到了网络对盲人的价值。2005年,他又成功研发出“盲人考试系统”,并于2006年5月获国家版权局证书。困难之后,终见彩虹2009年,对朱清来说是难忘的一年。不是
    发表于 08-30 09:35

    测试有什么优缺点?

    测试法的覆盖标准有逻辑覆盖、循环覆盖和基本路径测试。其中逻辑覆盖包括语句覆盖、判定覆盖、条件覆盖、判定/条件覆盖、条件组合覆盖和路径覆盖。
    发表于 10-23 09:01

    【YOXIOS X3开发板(基于Linux的GUI)试用连载】基于网络的软件测试系统

    项目名称:基于网络的软件测试系统试用计划:目的:开发基于网络的图形界面的测试系统项目名称:基于网络的软件
    发表于 07-27 15:02

    如何将stm32f427vit6替换为stm32f427zit6?

    你好如果我改变我的电路板布局,我可以在不更改代码的情况下用 ZIT6 替换原来的 stm32f427VIT6 吗?我可以免费获得一些 ZIT6 而不是几乎无法获得的 vit6,但想知道是否可以在不更改软件的情况下实现
    发表于 12-29 11:06

    程泰先生加入芯驰任CEO,与团队齐心共进新征程

    2023年4月,万物生长的时节,国内领先的全场景车规级芯片设计公司——芯驰科技,迎来了新任CEO程泰先生。芯驰科技CEO程泰程泰先生是业内备受尊敬的集成电路设计专家和卓有成就的企业家,毕业于
    发表于 04-14 14:01

    恩智浦公司得意新作智能语音技术亮相

    “Hey NXP”、”哈啰恩智浦”……一声又一声的问候在宁静的办公室里格外惹人注目,原来是恩智浦公司又一呕心沥血的得意新作——智能语音技术(VIT)。 智能语音技术(Voice
    的头像 发表于 05-18 14:31 2194次阅读
    恩智浦公司得意<b class='flag-5'>新作</b>智能语音技术亮相

    关于Next-ViT 的建模能力

    由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?
    的头像 发表于 07-26 10:25 830次阅读

    普通视觉Transformer(ViT)用于语义分割的能力

    本文探讨了普通视觉Transformer(ViT)用于语义分割的能力,并提出了SegViT。以前基于ViT的分割网络通常从ViT的输出中学习像素级表示。不同的是,本文利用基本的组件注意力机制生成语义分割的Mask。
    的头像 发表于 10-31 09:57 4002次阅读

    深度模型Adan优化器如何完成ViT的训练

    自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。凭借着ViT结构,许多视觉任务的SoTA都得到了进一步提升,包括图像分类、分割、检测、识别等。
    的头像 发表于 10-31 17:03 875次阅读