0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种使用Mask Transformer进行全景分割的端到端解决方案

OpenCV学堂 来源:新智元 作者:新智元 2022-07-28 10:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】近日,谷歌团队推出了一项新Transformer,可用于优化全景分割方案,还登上了CVPR 2022。

最近,谷歌AI团队受Transformer和DETR的启发提出了一种使用Mask Transformer进行全景分割的端到端解决方案。

全称是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架构的扩展。

该解决方案采用像素路径(由卷积神经网络或视觉Transformer组成)提取像素特征,内存路径(由Transformer解码器模块组成)提取内存特征,以及双路径Transformer用于像素特征和内存之间的交互特征。

然而,利用交叉注意力的双路径Transformer最初是为语言任务设计的,它的输入序列由几百个单词构成。

而对视觉任务尤其是分割问题来说,其输入序列由数万个像素组成,这不仅表明输入规模的幅度要大得多,而且与语言单词相比也代表了较低级别的嵌入。

全景分割是一个计算机视觉问题,它是现在许多应用程序的核心任务。

它分为语义分割和实例分割两部分。

语义分割就比如为图像中的每个像素分配语义标签,例如「人」和「天空」。

而实例分割仅识别和分割图中的可数对象,如「行人」和「汽车」,并进一步将其划分为几个子任务。

每个子任务单独处理,并应用额外的模块来合并每个子任务阶段的结果。

这个过程不仅复杂,而且在处理子任务和整合不同子任务结果时还会引入许多人工设计的先验。

332dcd92-0dbb-11ed-ba43-dac502259ad0.png

在 CVPR 2022 上发表的「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」中,文章提出从聚类的角度重新解读并且重新设计交叉注意力cross attention(也就是将相同语义标签的像素分在同一组),从而更好地适应视觉任务。

CMT-DeepLab 建立在先前最先进的方法 MaX-DeepLab 之上,并采用像素聚类方法来执行交叉注意,从而产生更密集和合理的注意图。

33465a56-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 进一步重新设计了交叉注意力,使其更像一个 k-means 聚类算法,对激活函数进行了简单的更改。

结构总览

研究人员将从聚类的角度进行重新解释,而不是直接将交叉注意力应用于视觉任务而不进行修改。

具体来说,他们注意到Mask Transformer 对象查询可以被认为是集群中心(旨在对具有相同语义标签的像素进行分组)。

交叉注意力的过程类似于 k-means 聚类算法,(1)将像素分配给聚类中心的迭代过程,其中可以将多个像素分配给单个聚类中心,而某些聚类中心可能没有分配的像素,以及(2)通过平均分配给同一聚类中心的像素来更新聚类中心,如果没有分配像素,则不会更新聚类中心)。

33569146-0dbb-11ed-ba43-dac502259ad0.png

在CMT-DeepLab和kMaX-DeepLab中,我们从聚类的角度重新制定了交叉注意力,其中包括迭代聚类分配和聚类更新步骤

鉴于 k-means聚类算法的流行,在CMT-DeepLab中,他们重新设计了交叉注意力,以便空间方面的softmax操作(即沿图像空间分辨率应用的 softmax 操作),实际上将聚类中心分配给相反,像素是沿集群中心应用的。

在 kMaX-DeepLab 中,我们进一步将空间方式的 softmax 简化为集群方式的 argmax(即沿集群中心应用 argmax 操作)。

他们注意到 argmax 操作与 k-means 聚类算法中使用的硬分配(即一个像素仅分配给一个簇)相同。

从聚类的角度重新构建MaskTransformer的交叉注意力,显著提高了分割性能,并简化了复杂的Masktransformer管道,使其更具可解释性。

首先,使用编码器-解码器结构从输入图像中提取像素特征。然后,使用一组聚类中心对像素进行分组,这些像素会根据聚类分配进一步更新。最后,迭代执行聚类分配和更新步骤,而最后一个分配可直接用作分割预测。

338234fe-0dbb-11ed-ba43-dac502259ad0.png

为了将典型的MaskTransformer解码器(由交叉注意力、多头自注意力和前馈网络组成)转换为上文提出的k-means交叉注意力,只需将空间方式的softmax替换为集群方式最大参数。

本次提出的 kMaX-DeepLab 的元架构由三个组件组成:像素编码器、增强像素解码器和 kMaX 解码器。

像素编码器是任何网络主干,用于提取图像特征。

增强的像素解码器包括用于增强像素特征的Transformer编码器,以及用于生成更高分辨率特征的上采样层。

一系列 kMaX 解码器将集群中心转换为 (1) Mask嵌入向量,其与像素特征相乘以生成预测Mask,以及 (2) 每个Mask的类预测。

3390e68e-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的元架构

研究结果

最后,研究小组在两个最具挑战性的全景分割数据集 COCO 和 Cityscapes 上使用全景质量 (PQ) 度量来评估 CMT-DeepLab 和 kMaX-DeepLab,并对比 MaX-DeepLab 和其他最先进的方法。

其中CMT-DeepLab 实现了显著的性能提升,而 kMaX-DeepLab 不仅简化了修改,还进一步提升了,COCO val set 上的 PQ 为 58.0%,PQ 为 68.4%,44.0% Mask平均精度(Mask AP),Cityscapes 验证集上的 83.5% 平均交集比联合(mIoU),没有测试时间增强或使用外部数据集。

33a23c36-0dbb-11ed-ba43-dac502259ad0.png

从聚类的角度设计,kMaX-DeepLab 不仅具有更高的性能,而且还可以更合理地可视化注意力图以了解其工作机制。

在下面的示例中,kMaX-DeepLab 迭代地执行聚类分配和更新,从而逐渐提高Mask质量。

33b1197c-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的注意力图可以直接可视化为全景分割,让模型工作机制更合理

结论

本次研究展示了一种更好地设计视觉任务中的MaskTransformer的方法。

通过简单的修改,CMT-DeepLab 和 kMaX-DeepLab 重新构建了交叉注意力,使其更像一种聚类算法。

因此,所提出的模型在COCO 和 Cityscapes数据集上实现了最先进的性能。

研究团队表示,他们希望 DeepLab2 库中 kMaX-DeepLab 的开源版本有助于未来对专用于视觉Transformer架构设计的研究。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1226

    浏览量

    43839
  • 图像
    +关注

    关注

    2

    文章

    1097

    浏览量

    42492
  • 计算机视觉
    +关注

    关注

    9

    文章

    1716

    浏览量

    47759

原文标题:谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    让AI成就美好生活|天数智算AI智能体,打造端全域智能解决方案

    侧的精准感知云端的全域协同,从硬件的多元落地应用的全场景覆盖,天数智算AI智能体以
    的头像 发表于 03-17 11:20 1053次阅读
    让AI成就美好生活|天数智算AI智能体,打造端<b class='flag-5'>到</b><b class='flag-5'>端</b>全域智能<b class='flag-5'>解决方案</b>​

    端下半场,如何做好高保真虚拟数据集的构建与感知?

    01前言随着自动驾驶技术的日益升级,以UniAD、FSDV12为代表的“”架构正重构行业格局。这架构试图通过单神经网络直接建立从传
    的头像 发表于 12-29 11:39 1941次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b>端下半场,如何做好高保真虚拟数据集的构建与感知?

    Nullmax感知规划大模型进化提速

    近日,2025年度浦东新区科技发展基金社会领域数字化转型专项拟支持项目名单公布。经评审,Nullmax申报的《面向城市高级别辅助驾驶的感知规划大模型》项目入选。
    的头像 发表于 12-22 16:39 754次阅读

    自动驾驶仿真新范式:aiSim如何解决智驾测试的&quot;灾难性挑战&quot;

    1 引言:从模块化的智驾革命 随着智能驾驶技术快速发展,
    的头像 发表于 12-17 14:15 490次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶仿真新范式:aiSim如何解决智驾测试的&quot;灾难性挑战&quot;

    如何训练好自动驾驶模型?

    [首发于智驾最前沿微信公众号]最近有位小伙伴在后台留言提问:算法是怎样训练的?是模仿学习、强化学习和离线强化学习这三类吗?其实
    的头像 发表于 12-08 16:31 1679次阅读
    如何训练好自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?

    智驾模拟软件推荐——为什么选择Keymotek的aiSim?

    随着自动驾驶技术的快速发展,车企和科技公司对于模拟测试平台的需求越来越强。从L2/ADASL4/L5等级的自动驾驶,虚拟模拟已经成为其中的关键环。特别是对于「」智驾(
    的头像 发表于 11-18 11:35 1094次阅读

    Nullmax轨迹规划论文入选AAAI 2026

    11月8日,全球人工智能顶会 AAAI 2026 公布论文录用结果,Nullmax 研发团队的轨迹规划论文成功入选。该论文创新提出一种由粗
    的头像 发表于 11-12 10:53 1184次阅读

    自动驾驶中仿真与基于规则的仿真有什么区别?

    在自动驾驶领域,“仿真”指的是将感知控制的整个决策链条视为个整体,从而进行训练和验证的
    的头像 发表于 11-02 11:33 1933次阅读

    自动驾驶中“段式”和“二段式”有什么区别?

    [首发于智驾最前沿微信公众号]最近有小伙伴提问,段式和二段式
    的头像 发表于 10-24 09:03 1518次阅读
    自动驾驶中“<b class='flag-5'>一</b>段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么区别?

    自动驾驶中常提的段式(单段)是个啥?

    自动驾驶技术的发展,催生出技术的应用,段式
    的头像 发表于 10-18 10:16 1955次阅读

    解决方案 | 云管体化OTA HIL测试解决方案

    TOSUN云管体化OTAHIL测试解决方案随着智能网联汽车的快速发展,OTA(Over-the-Air)技术已成为车辆软件升级的核心手段。为满足日益严格的法规要求和技术挑战,同星智能(TOSUN
    的头像 发表于 09-19 20:03 2086次阅读
    <b class='flag-5'>解决方案</b> | 云管<b class='flag-5'>端</b><b class='flag-5'>一</b>体化OTA HIL测试<b class='flag-5'>解决方案</b>

    自主工具链助力组合辅助驾驶算法验证

    彻底解决越来越多的长尾问题。图1辅助驾驶算法(图片来源网络)辅助驾驶算法是一种深度学习算法,该算法将传感器数据输入后,基于大模型直接输出车辆控制指令。
    的头像 发表于 08-26 17:41 3366次阅读
    自主工具链助力<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>组合辅助驾驶算法验证

    Transformer自动驾驶架构中是何定位?

    典型的Transformer架构已被用于构建“感知-规划-控制统建模”的方案。如Waymo和小马智行正在研发的多模态大模型(MultimodalLargeModels,MLLMs),将来自摄像头
    的头像 发表于 08-03 11:03 1597次阅读

    Nullmax自动驾驶最新研究成果入选ICCV 2025

    Nullmax 在段式核心技术上的深厚积累与创新实力,尤其在
    的头像 发表于 07-05 15:40 2043次阅读
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶最新研究成果入选ICCV 2025

    数据标注方案在自动驾驶领域的应用优势

    10-20TB,其中需要标注的数据占比超过60%。在这样的背景下,数据标注方案应运而生,正在重塑自动驾驶的数据生产范式。
    的头像 发表于 06-23 17:27 1258次阅读