0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MaX-DeepLab:双路径Transformer架构概览

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-05-31 11:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

全景分割是一个计算机视觉任务,会将语义分割(为每个像素分配类标签)和实例分割(检测和分割每个对象实例)合并。作为实际应用中的核心任务,全景分割通常使用多个代理 (Surrogate) 子任务(如使用边界框检测方法)粗略估计全景分割目标,来实现预测一组不相重叠的遮罩 (mask) 及其相对应的类别标签(例如对象所属的类别,如“汽车”、“交通指示灯”、“道路”等)。

在此代理树中,每个子任务都会产生额外的手动设计模块,如锚点设计规则、边界框分配规则、非极大值抑制 (NMS)、thing-stuff(thing 类物体和 stuff 类物体)合并,等等。虽然对于单个子任务和模块,不乏一些出色的解决方案,但当我们将这些子任务整合到一个流水线中进行全景分割时,就会产生不需要的构件,在一些比较棘手的情况下更是如此(例如,两个具有相似边界框的人都触发 NMS,从而导致其中一个遮罩缺失)。

以往提出的 DETR 方法简化边界框检测子任务成端到端操作来解决其中一些问题,事实证明,这种做法的计算效率更高,产生的无关构件也更少。然而,训练过程在很大程度上仍然依赖边界框检测,这显然与基于遮罩的全景分割定义不相符。另一种做法是将边界框从管线中彻底移除,这样做的好处是消除了整个子任务及其相关模块和构件。例如,Axial-DeepLab预测预定义实例中心的像素偏移量时,如果图像平面中有各种各样的形状,或相邻对象的中心点较为接近,例如下面这张狗狗坐在椅子上的图像,那它所使用的子任务则会遇到对象严重变形的挑战。

当狗狗的中心和椅子的中心接近重合时,Axial-DeepLab 就会将它们合并成一个对象

在《MaX-DeepLab:利用遮罩 Transformer 实现端到端全景分割 (MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers)》(将提交给 CVPR 2021 大会)一文中,我们首次为全景分割管线提出了完全的端到端方法——将 Transformer架构扩展到此计算机视觉任务中,直接预测具有类标签的遮罩。这种方法叫做 MaX-DeepLab,利用 Mask Xformer 对 Axial-DeepLab 进行扩展。该方法采用双路径架构,引入了全局内存路径,允许与任何卷积层直接通信。MaX-DeepLab 最终在极具挑战的COCO数据集上以及无边界框的状态下实现了 7.1% 的显著全景质量 (PQ) 增益,首次消除了有边界框方法和无边界框方法之间的差距。在不增加测试时长的情况下,就 PQ 方面而言,MaX-DeepLab 在 COCO 测试开发集上达到了 51.3% 的水平,这已是目前的最高水准。

MaX-DeepLab 是完全端到端的:直接从图像中预测全景分割遮罩

端到端全景分割

受 DETR 启发,我们的模型使用经过 PQ 类目标优化的输出遮罩和类,直接预测一组不相重叠的遮罩及其相应的语义标签。具体来说,我们受到评估指标 PQ 的定义:识别质量(预测的类是否正确)乘以分割质量(预测的遮罩是否正确)的启发,以一模一样的方式在两个具有类标签的遮罩之间定义了一个相似度指标。直接通过一对一匹配,最大化实际遮罩和预测遮罩之间的这种相似度,直接对模型进行训练。这种对全景分割的直接建模使端到端训练和推理成为可能,消除了现有的有边界框方法和无边界框方法必须手工设计先验的弊端。

与卷积神经网络 (CNN) 上堆叠传统 Transformer 的方案不同,我们提出了一种结合 CNN 与 Transformer 的双路径框架。具体而言,我们通过一个双路径 Transformer 元件,使 CNN 层能够从全局内存中读写数据。这里所说的这个元件采用了 CNN 路径和内存路径之间的所有四种注意力 (Attention) 类型,可以插入到 CNN 中的任意位置,从而允许在任何层与全局内存通信。MaX-DeepLab 还利用堆叠的沙漏式解码器,可将多种尺度特征聚合成高分辨率输出。然后系统会将该输出与全局内存特征相乘,形成遮罩组预测。至于遮罩类别,则使用另一种 Transformer 进行预测。

双路径 Transformer 架构概览

结果

我们在极具挑战性的 COCO 全景分割数据集上,分别使用先进的无边界框方法 (Axial-DeepLab) 和有边界框方法 (DetectoRS) 对 MaX-DeepLab 进行了评估。在不增加测试时长的情况下,就 PQ 方面而言,MaX-DeepLab 在 COCO 测试开发集上达到了 51.3% 的水平,这已是目前的最高水准。

在无边界框状态下,就 PQ 方面而言,这一结果比 Axial-DeepLab 高出 7.1%,比 DetectoRS 高出 1.7%,第一次消除了有边界框方法和无边界框方法之间的差距。为了与 DETR 进行一致的比较,我们还评估了与 DETR 参数数量和算力均一致的轻量级 MaX-DeepLab 版本。就 PQ 方面而言,此轻量级 MaX-DeepLab 在 val 集上的表现优于 DETR 3.3%,在测试开发集上的表现优于 DETR 3.0%。此外,我们还对端到端表达式、模型伸缩、双路径架构和损失函数进行了广泛的消融研究和分析。此外,MaX-DeepLab 也不像 DETR 一样需要超长训练计划。

MaX-DeepLab 正确地分割了一只坐在椅子上的狗。Axial-DeepLab依赖于回归对象中心偏移量的代理任务。它之所以失败,是因为狗和椅子的中心太过于接近。作为代理任务,DetectoRS 会将对象的边界框而非遮罩进行分类。由于椅子的边界框置信度较低,所以就被滤除了。

关于 MaX-DeepLab 和先进的无边界框及有边界框方法的案例研究

还有一个例子可以证明 MaX-DeepLab 可以在充满挑战的条件下正确分割图像。

MaX-DeepLab 正确分割了相互重叠的斑马。此例对于其他方法也非常具有挑战性,因为这两只斑马的边界框很相似,对象的中心也很接近

结论

我们首次证明了全景分割可以进行端到端训练。MaX-DeepLab 使用遮罩 Transformer 直接预测遮罩和类,消除了手工设计对于经验的依赖,如对象边界框、thing-stuff(thing 类物体和 stuff 类物体)合并等。借助 PQ 式损失函数和双路径 Transformer,MaX-DeepLab 在极具挑战性的 COCO 数据集上取得了最高水准的结果,消除了有边界框方法和无边界框方法之间的差距。

原文标题:MaX-DeepLab:用于端到端全景分割的双路径 Transformer

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47458
  • tensorflow
    +关注

    关注

    13

    文章

    332

    浏览量

    61858

原文标题:MaX-DeepLab:用于端到端全景分割的双路径 Transformer

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时可以将这些重要信息有效地关联起来。
    的头像 发表于 11-19 18:17 1941次阅读

    西格电力面向行业用户的绿电直连架构适配技术与实践路径

    与实践路径,成为破解绿电直连“落地难、适配差、效益低”问题的关键,西格电力提供适配行业的绿电直连管理系统,助力绿电直连架构科学落地。
    的头像 发表于 11-18 11:04 122次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    乘法的新型架构 基于Transformer模型的高性能FPGA加速器。 4.2基于常微分方程的加速 5、基于ASIC的大模型计算 5.1 Sanger 5.2 Energon 6
    发表于 09-12 17:30

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3931次阅读
    自动驾驶中<b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    Transformer在端到端自动驾驶架构中是何定位?

    典型的Transformer架构已被用于构建“感知-规划-控制统一建模”的方案。如Waymo和小马智行正在研发的多模态大模型(MultimodalLargeModels,MLLMs),将来自摄像头
    的头像 发表于 08-03 11:03 1119次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    一、模型架构 在阅读第三章关于 DeepSeek 的模型架构部分时,我仿佛打开了一扇通往人工智能核心构造的大门。从架构图中,能清晰看到 Transformer 块、前馈神经网络、注意力
    发表于 07-20 15:07

    【正点原子STM32MP257开发板试用】基于 DeepLab 模型的图像分割

    等目标的分割。 Demo 测试 介绍了正点原子官方 AI 例程实现图像分割的主要流程。 Demo 例程下载,路径01、程序源码/05、AI例程源码/02、deeplab
    发表于 06-21 21:11

    从底层逻辑到架构设计:聚徽解析MES看板的技术实现路径

    与数据接口的协同设计。本文将从底层逻辑出发,深入解析MES看板的技术架构与实现路径。 一、底层逻辑:数据驱动的生产管理 MES看板的核心价值在于将生产现场的离散数据转化为可执行信息,其底层逻辑围绕三个关键维度展开: 实时
    的头像 发表于 06-16 15:23 464次阅读

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 836次阅读
    <b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>中编码器的工作流程

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 975次阅读
    <b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>概述

    MAX96716FGMSL2至CSI-2解串器技术手册

    MAX96716F 将 GMSL2 串行输入转换为 MIPI CSI-2。它还发送和接收控制通道数据,从而实现前向路径视频和双向控制数据的传输。GMSL2 在正向传输方向上以 3Gbps 的固定速率运行,而在反向传输方向上的速
    的头像 发表于 05-27 15:10 1054次阅读
    <b class='flag-5'>MAX</b>96716F<b class='flag-5'>双</b>GMSL2至CSI-2解串器技术手册

    MAX4888/MAX4889 2.5Gbps PCI Express无源开关技术手册

    单向PCIe数据。MAX4889是八路单刀/掷(8 x SPDT)开关,能够在四个接收端之间切换4路单向PCIe数据。MAX4888/MAX4889具有一个数字控制输入(SEL),用
    的头像 发表于 05-26 15:41 939次阅读
    <b class='flag-5'>MAX</b>4888/<b class='flag-5'>MAX</b>4889 2.5Gbps PCI Express无源开关技术手册

    MAX4888B/MAX4888C高达8.0Gbps的双通道无源开关技术手册

    MAX4888B/MAX4888C是两路双刀/掷(2 x DPDT)、高速无源开关,非常适合在两个接收端之间切换2路单向PCI Express® (PCIe)数据。器件具有一个路数
    的头像 发表于 05-26 15:09 852次阅读
    <b class='flag-5'>MAX</b>4888B/<b class='flag-5'>MAX</b>4888C高达8.0Gbps的双通道无源开关技术手册

    如何使用MATLAB构建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在论文《Attentionis All You Need》中首次提出。其设计初衷是为了解决自然语言处理(Nature
    的头像 发表于 02-06 10:21 5765次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

    transformer专用ASIC芯片Sohu说明

    2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第一个用于transformer(ChatGPT中的“T”)的专用芯片。 将transformer
    的头像 发表于 01-06 09:13 1695次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明