0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量

智能感知与物联网技术研究所 来源:未知 2023-10-02 10:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

稠密图像分割问题一直在计算机视觉领域中备受关注。无论是在 Adobe 旗下的 Photoshop 等重要产品中,还是其他实际应用场景中,分割模型的泛化和精度都被赋予了极高的期望。对于这些分割模型来说,需要在不同的图像领域、新的物体类别以及各种图像分辨率和质量下都能够保持鲁棒性。为了解决这个问题,早在 SAM[6] 模型一年之前,一种不考虑类别的实体分割任务 [1] 被提出,作为评估模型泛化能力的一种统一标准。

在本文中,High-Quality Entity Segmentation 对分割问题进行了全新的探索,从以下三个方面取得了显著的改进:

1. 更优的分割质量:正如上图所示,EntitySeg 在数值指标和视觉表现方面都相对于 SAM 有更大的优势。令人惊讶的是,这种优势是基于仅占训练数据量千分之一的数据训练取得的。

2. 更少的高质量数据需求:相较于 SAM 使用的千万级别的训练数据集,EntitySeg 数据集仅含有 33,227 张图像。尽管数据量相差千倍,但 EntitySeg 却取得了可媲美的性能,这要归功于其标注质量,为模型提供了更高质量的数据支持。

3. 更一致的输出细粒度(基于实体标准):从输出的分割图中,我们可以清晰地看到 SAM 输出了不同粒度的结果,包括细节、部分和整体(如瓶子的盖子、商标、瓶身)。然而,由于 SAM 需要对不同部分的人工干预处理,这对于自动化输出分割的应用而言并不理想。相比之下,EntitySeg 的输出在粒度上更加一致,并且能够输出类别标签,对于后续任务更加友好。

在阐述了这项工作对稠密分割技术的新突破后,接下来的内容中介绍 EntitySeg 数据集的特点以及提出的算法 CropFormer。

wKgaomUs_uaAD2aRAACSqit3Alw707.png

论文链接:https://arxiv.org/abs/2211.05776

代码链接:

https://github.com/qqlu/Entity/blob/main/Entityv2/README.md

主页链接:

http://luqi.info/entityv2.github.io/

根据 Marr 计算机视觉教科书中的理论,人类的识别系统是无类别的。即使对于一些不熟悉的实体,我们也能够根据相似性进行识别。因此,不考虑类别的实体分割更贴近人类识别系统,不仅可以作为一种更基础的任务,还可以辅助于带有类别分割任务 [2]、开放词汇分割任务 [3] 甚至图像编辑任务 [4]。与全景分割任务相比,实体分割将“thing”和“stuff”这两个大类进行了统一,更加符合人类最基本的识别方式。

wKgaomUs_uaAaVeYAAAl6LOgh3c146.png  

EntitySeg数据集

由于缺乏现有的实体分割数据,作者在其工作 [1] 使用了现有的 COCO、ADE20K 以及 Cityscapes 全景分割数据集验证了实体任务下模型的泛化能力。然而,这些数据本身是在有类别标签的体系下标注的(先建立一个类别库,在图片中搜寻相关的类别进行定位标注),这种标注过程并不符合实体分割任务的初衷——图像中每一个区域均是有效的,哪怕这些区域无法用言语来形容或者被 Blur 掉,都应该被定位标注。

此外,受限于提出年代的设备,COCO 等数据集的图片域以及图片分辨率也相对单一。因此基于现有数据集下训练出的实体分割模型也并不能很好地体现实体分割任务所带来的泛化能力。最后,原作者团队在提出实体分割任务的概念后进一步贡献了高质量细粒度实体分割数据集 EntitySeg 及其对应方法。EntitySeg 数据集是由 Adobe 公司 19 万美元赞助标注完成,已经开源贡献给学术界使用。

项目主页:

http://luqi.info/entityv2.github.io/数据集有三个重要特性:1. 数据集汇集了来自公开数据集和学术网络的 33,227 张图片。这些图片涵盖了不同的领域,包括风景、室内外场景、卡通画、简笔画、电脑游戏和遥感场景等。2. 标注过程在无类别限制下进行的掩膜标注,并且可以覆盖整幅图像。3. 图片分辨率更高,标注更精细。如上图所示,即使相比 COCO 和 ADE20K 数据集的原始低分辨率图片及其标注,EntitySeg 的实体标注更全且更精细。最后,为了让 EntitySeg 数据集更好地服务于学术界,11580 张图片在标注实体掩膜之后,以开放标签的形式共标注了 643 个类别。EntitySeg、COCO 以及 ADE20K 数据集的统计特性对比如下:wKgaomUs_uaADlXLAAEABS33bTg176.png通过和 COCO 以及 ADE20K 的数据对比,可以看出 EntitySeg 数据集图片分辨率更高(平均图片尺寸 2700)、实体数量更多(每张图平均 18.1 个实体)、掩膜标注更为复杂(实体平均复杂度 0.719)。极限情况下,EntitySeg 的图片尺寸可达到 10000 以上。与 SAM 数据集不同,EntitySeg 更加强调小而精,试图做到对图片中的每个实体得到最为精细的边缘标注。此外,EntitySeg 保留了图片和对应标注的原始尺寸,更有利于高分辨率分割模型的学术探索。基于 EntitySeg 数据集,作者衡量了现有分割模型在不同分割任务(无类别实体分割,语义分割,实例分割以及全景分割)的性能以及和 SAM 在 zero-shot 实体级别的分割能力。

wKgaomUs_uaARWVxAAEMAsNKrjY791.png

wKgaomUs_uaAU8AmAACkTHk6Ig4993.png

wKgaomUs_ueAGTK_AAAuhh9-KLM590.png  

CropFormer算法框架

除此之外,高分辨率图片和精细化掩膜给分割任务带来了新的挑战。为了节省硬件内存需求,分割模型需要压缩高分辨率图片及标注进行训练和测试进而导致分割质量的降低。为了解决这一问题,作者提出了 CropFormer 框架来解决高分辨率图片分割问题。CropFormer 受到 Video-Mask2Former [5] 的启发, 利用一组 query 连结压缩为低分辨率的全图和保持高分辨率的裁剪图的相同实体。因此,CropFormer 可以同时保证图片全局和区域细节属性。CropFormer 是根据 EntitySeg 高质量数据集的特点提出的针对高分辨率图像的实例/实体分割任务的 baseline 方法,更加迎合当前时代图片质量的需求。wKgaomUs_ueAKPi7AAH2IXUrEjs806.png

最后在补充材料中,作者展示了更多的 EntitySeg 数据集以及 CropFormer 的可视化结果。下图为更多数据标注展示:

下图为 CropFormer 模型测试结果:

参考文献

[1] Open-World Entity Segmentation. TAPMI 2022.[2] CA-SSL: Class-agnostic Semi-Supervised Learning for Detection and Segmentation. ECCV 2022.[3] Open-Vocabulary Panoptic Segmentation with MaskCLIP. ICML 2023.[4] SceneComposer: Any-Level Semantic Image Synthesis. CVPR 2023.[5] Masked-attention Mask Transformer for Universal Image Segmentation. CVPR 2022.

[6] Segment Anything. ICCV 2023.


原文标题:ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2939

    文章

    47317

    浏览量

    407762

原文标题:ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    水浸超声扫描显微镜(C-SAM)与其他无损检测技术对比分析

    无损检测技术是现代工业质量控制与安全评估中不可或缺的一环,它能够在不对材料或构件造成破坏的前提下,检测其内部或表面的缺陷,从而保障产品的可靠性与安全性。在各种无损检测方法中,水浸超声扫描显微镜
    的头像 发表于 12-04 14:08 27次阅读
    水浸超声扫描显微镜(C-<b class='flag-5'>SAM</b>)与其他无损检测技术对比分析

    质量损失的数据迁移:Nikon SLM Solutions信赖3Dfindit企业版

    使用转换器将CAD数据从一个系统传输到另一个系统,但这往往会导致数据质量下降。因此,该公司决定使用3Dfindit企业版将CAD数据迁移到新系统,便不会造成任何
    发表于 11-25 10:06

    传音TEX AI团队斩获ICCV 2025大型视频目标分割挑战赛双料亚军

    近日,国际计算机视觉大会(ICCV 2025)举办了第七届大型视频目标分割挑战赛(LSVOS Challenge),传音TEX AI团队凭借自主研发的创新技术方案,在复杂视频目标分割和语言指引视频
    的头像 发表于 10-31 09:42 285次阅读
    传音TEX AI团队斩获<b class='flag-5'>ICCV</b> 2025大型视频目标<b class='flag-5'>分割</b>挑战赛双料亚军

    电能质量在线监测装置的数据在云端是如何加密的?

    电能质量在线监测装置的数据在云端的加密过程覆盖 传输、存储、密钥管理 全链条,结合行业标准与前沿技术构建多层次防护体系,具体实现方式如下: 一、传输加密:端到端防护防止数据窃取 基础加密协议
    的头像 发表于 10-30 09:42 116次阅读

    SAM G55音频开发板技术解析与应用指南

    Microchip Technology SAM G55音频Curiosity开发板(EV78Y10A)是一款用于基于SAM G55微控制器的音频应用的演示和开发平台。SAM G55 MCU是高性能
    的头像 发表于 10-13 15:11 348次阅读
    ‌<b class='flag-5'>SAM</b> G55音频开发板技术解析与应用指南

    SAM9X60-Curiosity评估板:高性能嵌入式开发的理想起点

    Microchip Technology EV40E67A Curiosity板基于SAM9X60D1G SiP高性能、低功耗ARM926EJ-S CPU嵌入式微处理器而打造。 MPU的运行频率为
    的头像 发表于 10-13 14:04 411次阅读
    <b class='flag-5'>SAM</b>9X60-Curiosity评估板:高性能嵌入式开发的理想起点

    手机板 layout 走线跨分割问题

    的layout,比如手机、笔记本。信号的跨分割处理已经不在是不能跨分割了。 在这类产品中成本是很重要的,所以层数都是能少就少。 这种情况下,如何分辨那些信号是可以跨分割的,跨分割的信号
    发表于 09-16 14:56

    Zettabyte任命Sam Lawn为全球首席财务官

    专注于GPU基础设施、AIDC优化软件与Neo-Cloud计算的全栈AI解决方案提供商Zettabyte已任命Sam Lawn为全球首席财务官,该任命即刻生效。
    的头像 发表于 08-30 15:12 1003次阅读

    格灵深瞳六篇论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,格灵深瞳团队共有6篇论文入选。
    的头像 发表于 07-07 18:23 1301次阅读

    Nullmax端到端自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队在端到端自动驾驶方向的最新研究成果《HiP-AD: Hierarchical
    的头像 发表于 07-05 15:40 1553次阅读
    Nullmax端到端自动驾驶最新研究成果入选<b class='flag-5'>ICCV</b> 2025

    理想汽车八篇论文入选ICCV 2025

    近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,理想汽车共有8篇论文入选,其中5篇来自自动驾驶团队,3篇来自基座模型团队。ICCV作为计算机视觉领域的顶级学术会议,每两年举办一次
    的头像 发表于 07-03 13:58 828次阅读

    超声波T-SAM与C-SAM模式的区别

    本文介绍了超声波的T-SAM与C-SAM两种模式的区别。
    的头像 发表于 05-21 15:26 1177次阅读
    超声波T-<b class='flag-5'>SAM</b>与C-<b class='flag-5'>SAM</b>模式的区别

    R&amp;S®SAM100 系统放大器

    RS®SAM100 系统放大器是一种超宽带固态微波放大器,频率范围为 2 GHz 至 20 GHz。RS®SAM100 还适用于替代电子管放大器和由窄带单级放大器组成的多频段组件。 主要特点 超宽
    的头像 发表于 02-06 14:50 500次阅读
    R&amp;S®<b class='flag-5'>SAM</b>100 系统放大器

    SAM IoT Wx v2硬件用户指南

    电子发烧友网站提供《SAM IoT Wx v2硬件用户指南.pdf》资料免费下载
    发表于 01-21 14:02 0次下载
    <b class='flag-5'>SAM</b> IoT Wx v2硬件用户指南

    LDC1000模拟地和数字地怎么分割和连接?

    我仔细看了看LDC1000评估板的pcb设计,该设计中将数字地和模拟地分割了,两个地在LDC的接地散热片处相连。我发现LDC1000评估板中将数字地连在数字地平面一侧,将模拟地连接在模拟地一侧
    发表于 01-14 08:11