0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

涨点!FreeMask:用密集标注的合成图像提升分割模型性能

CVer 来源:CVer 2023-11-01 16:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在这里分享一下我们NeurIPS 2023的工作"FreeMask: Synthetic Images with Dense Annotations Make Stronger Segmentation Models"。在本工作中,我们从语义分割的mask产生大量的合成图像,并利用这些合成的训练图像以及他们对应的mask提升在全量真实数据上训练的语义分割模型的性能, e.g., 在ADE20K上,可以将Mask2Former-Swin-T从48.7提升至52.0(+3.3 mIoU)。

583392b0-7882-11ee-939d-92fbcf53809c.png

代码:github.com/LiheYoung/FreeMask 论文:https://arxiv.org/abs/2310.15160

在上面的repo中我们也提供了处理过后的ADE20K-Synthetic数据集(包含ADE20K的20倍的训练图像)和COCO-Synthetic数据集(包含COCO-Stuff-164K的6倍的训练图像),以及结合合成数据训练后更好的Mask2Former、SegFormer、Segmenter模型的checkpoints。

TL;DR

不同于以往的一些工作利用合成数据提升few-shot performance(只用少量的真实数据),我们希望利用合成数据直接提升fully-supervised performance(用全量的真实数据),这更有挑战性。

我们利用semantic image synthesis模型来从semantic mask产生diverse的合成图像。然而,直接将这些合成图像加入训练,其实并不能提升real-image baseline,反而会损害性能。

因此,我们设计了一个noise filtering策略以及一个image re-sampling策略来更有效地学习合成数据,最终在ADE20K(20,210张真实图像)和COCO-Stuff(164K张真实图像)的各种模型上都能取得提升。此外,我们发现结合我们的策略后,只利用合成数据也可以取得和真实数据comparable的效果。

Take-home Messages

在全量真实数据的基础上,有效地利用合成数据并不容易,需要生成模型足够好以及设计合适的学习合成数据策略。

在初始阶段我们尝试了多个GAN-based从mask生成image的模型 (e.g., OASIS[1]),尽管他们的FID指标还不错,但迁移到真实数据集上的表现很差(这里的迁移性能,指在合成数据集上训练但在真实验证集上测试,ADE20K上的mIoU只有~30%)。

基于Stable Diffusion的mask-to-image synthesis model是更好的选择,如FreestyleNet[2]。

在生成质量比较高以及筛选策略比较合理的情况下,joint train合成数据和真实数据会优于先用合成数据pre-train再用真实数据fine-tune的效果。

Introduction

584a7c50-7882-11ee-939d-92fbcf53809c.png

FreestyleNet基于semantic mask产生的合成图像,非常diverse以及逼真

Stable Diffusion (SD)等模型已经取得了非常好的text-to-image生成效果,过去一年里,semantic image synthesis领域的工作也开始结合SD的预训练来从semantic mask生成对应的image。其中,我们发现FreestyleNet[2]的生成效果非常好,如上图所示。因此,我们希望用这些合成图像以及他们condition on的semantic mask组成新的合成训练样本对,加入到原有的真实训练集中,进一步提升模型的性能。

简单的失败尝试

我们首先检查了这些合成图像到真实图像的迁移性能,即用合成图像训练但在真实图像的验证集上测试。我们用SegFormer-B4在真实图像上训练可以取得48.5的测试mIoU,然而用比真实训练集大20倍的合成数据训练后,只得到了43.3 mIoU。此外,我们也尝试混合真实数据和合成数据(会对真实数据上采样到和合成数据一样多,因为其质量更高),然而也只取得了48.2 mIoU,依然落后于仅用真实图像训练的结果。

因此,我们希望能更有效地从这些合成数据中进行学习。

Motivation

由于上述合成数据的结果并不好,我们更仔细地观察了一下合成数据集,发现其中存在着很多合成错误的区域,如下图所示的红色框区域。这些合成错误的区域加入到训练集中后会严重损害模型的性能。

5859cfe8-7882-11ee-939d-92fbcf53809c.png

红色框内的合成结果是错误的

此外,不同的semantic mask对应着不同的场景,不同的场景的学习难度其实是不一样的,因此它们所需的合成训练图像的数量也是不一样的。如下图所示,大体上来看,从左至右semantic mask对应的场景的难度是逐渐增加的,如果对每张mask产生同样数量的合成图像去学习的话,那么这些简单的mask对应的图像就可能会主导模型的学习,模型的学习效率就会很低。

586e2e66-7882-11ee-939d-92fbcf53809c.png

不同的semantic mask对应的场景的难度是不一样的,大体上来看,从左至右难度逐渐增加

Method

5876431c-7882-11ee-939d-92fbcf53809c.png

有了上述的两个motivation,具体的做法是非常简单的。

Filtering Noisy Synthetic Regions

针对第一点motivation,我们设计了一个noise filtering的策略,来忽略掉合成错误的区域。具体来说,我们利用一个在真实图像上训练好的模型去计算每张合成图像和它对应的semantic mask之间的pixel-wise loss,直观来看,合成错误的区域 (pixels)会呈现比较大的loss。此外,loss的大小也跟不同类别本身的难度有关。

58949b14-7882-11ee-939d-92fbcf53809c.png

Hardness-aware Re-sampling

针对第二点motivation,我们设计了一个hardness-aware re-sampling策略,来让我们的数据合成以及训练更加偏向比较难的场景 (semantic mask),如下图所示。

58a42390-7882-11ee-939d-92fbcf53809c.png

为harder的semantic mask产生更多的合成图像,而减少简单的mask的合成图像

58b0980a-7882-11ee-939d-92fbcf53809c.png

Learning Paradigms

我们探讨了两种从合成图像中进行学习的范式,分别是:

Pre-training: 用合成图像pre-training,然后用真实图像进一步fine-tuning

Joint training: 混合真实图像和合成图像(会对真实图像上采样到与合成图像同样的数量)一起训练

简单来说,我们发现在生成质量比较高以及筛选策略比较合理的情况下,joint training的表现会更好一些。

Experiment

对比合成图像和真实图像迁移到真实测试集的性能

58c69be6-7882-11ee-939d-92fbcf53809c.png

用真实图像或合成图像进行训练,并在真实验证集上测试

可以看到,在多种模型上,用合成图像迁移到真实验证集都可以取得和真实训练集comparable的效果。

用合成图像进一步提升全监督的分割模型性能

Joint training on ADE20K

58d35926-7882-11ee-939d-92fbcf53809c.png

当加入了合成数据后,真实图像的全监督性能获得了显著的提升,特别是对于Mask2Former-Swin-T,我们将mIoU从48.7提升至了52.0(+3.3);对于SegFormer-B4,从48.5提升至了50.6 (+2.1)。

Joint training on COCO-Stuff-164K

58e92832-7882-11ee-939d-92fbcf53809c.png

COCO-Stuff-164K由于原本的真实数据量很大,所以更难提升,但我们在Mask2Former-Swi-T上仍然取得了+1.9 mIoU的提升。

Pre-training with synthetic images on ADE20K

58f10cbe-7882-11ee-939d-92fbcf53809c.png

Ablation Studies

我们的noise filtering和hardness-aware re-sampling的必要性

5939d552-7882-11ee-939d-92fbcf53809c.png

在没有filtering和re-sampling的情况下,FreestyleNet产生的合成图像在ADE20K和COCO的真实集上只能得到43.3和48.0的迁移性能,远远劣于真实训练图像的迁移性能(ADE20K: 48.5和COCO: 50.5),而应用我们的策略后,纯合成图像的迁移性能可以提升至48.3 (ADE20K)和49.3 (COCO),十分接近真实训练图像的表现。

5948279c-7882-11ee-939d-92fbcf53809c.png

在joint training下,我们的两项策略也是十分有效的,如果没有这两个策略,混合合成图像和真实图像只能取得48.2的mIoU (真实图像:48.5),而加入我们的策略后,可以将真实图像48.5的baseline提升至50.6。

合成图像的数量

594f78c6-7882-11ee-939d-92fbcf53809c.png

Nmax 控制单张mask最多产生多少张合成图像,在没有filtering和re-sampling的情况下,增加合成图像的数量反而带来了更差的迁移性能;而在经过filtering和re-sampling后,Nmax从6增加到20可以带来稳定的迁移性能的提升。

更多的ablation studies请参考我们的文章。

Conclusion

在本工作中,我们通过从semantic mask产生合成图像,组成大量的合成训练数据对,在ADE20K和COCO-Stuff-164K上显著提升了多种语义分割模型在全监督设定下的性能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7315

    浏览量

    94013
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42170
  • 数据集
    +关注

    关注

    4

    文章

    1232

    浏览量

    26058

原文标题:NeurIPS 2023 | 涨点!FreeMask:用密集标注的合成图像提升分割模型性能

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    算法工程师不愿做标注工作,怎么办?

    对于算法而言,图像标注是一项关键性工作,越是大量的新数据集标注,对于算法的性能提升越有帮助。但是图像
    的头像 发表于 12-02 17:56 287次阅读
    算法工程师不愿做<b class='flag-5'>标注</b>工作,怎么办?

    浅析多模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——多模态标注重要性日益凸显。 一、什么是多模态标注? 多模态标注是指对文本、图像、语音、视频、云等异构数据进行跨模态语义关联
    的头像 发表于 09-05 13:49 835次阅读

    自动驾驶数据标注主要是标注什么?

    [首发于智驾最前沿微信公众号]在自动驾驶系统的研发过程中,数据标注是实现高性能感知模型的基础环节,其核心目标是将车辆从环境中采集到的原始感知数据(主要包括图像
    的头像 发表于 07-30 11:54 931次阅读
    自动驾驶数据<b class='flag-5'>标注</b>主要是<b class='flag-5'>标注</b>什么?

    什么是自动驾驶数据标注?如何好做数据标注

    [首发于智驾最前沿微信公众号]在自动驾驶系统的开发过程中,数据标注是一项至关重要的工作。它不仅决定了模型训练的质量,也直接影响了车辆感知、决策与控制的性能表现。随着传感器种类和数据量的剧增,有效
    的头像 发表于 07-09 09:19 958次阅读
    什么是自动驾驶数据<b class='flag-5'>标注</b>?如何好做数据<b class='flag-5'>标注</b>?

    【正点原子STM32MP257开发板试用】基于 DeepLab 模型图像分割

    【正点原子STM32MP257开发板试用】图像分割 本文介绍了正点原子 STM32MP257 开发板基于 DeepLab 模型实现图像分割
    发表于 06-21 21:11

    数据标注与大模型的双向赋能:效率与性能的跃升

    ​‌在人工智能蓬勃发展的时代,大模型凭借其强大的学习与泛化能力,已成为众多领域创新变革的核心驱动力。而数据标注作为大模型训练的基石,为大模型性能
    的头像 发表于 06-04 17:15 1666次阅读
    数据<b class='flag-5'>标注</b>与大<b class='flag-5'>模型</b>的双向赋能:效率与<b class='flag-5'>性能</b>的跃升

    AI时代 图像标注不要没苦硬吃

    识别算法的性能提升依靠大量的图像标注,传统模式下,需要人工对同类型数据集进行一步步手动拉框,这个过程的痛苦只有做过的人才知道。越多素材的数据集对于算法的
    的头像 发表于 05-20 17:54 432次阅读
    AI时代   <b class='flag-5'>图像</b><b class='flag-5'>标注</b>不要没苦硬吃

    基于RV1126开发板实现自学习图像分类方案

    在RV1126开发板上实现自学习:在识别前对物体图片进行模型学习,训练完成后通过算法分类得出图像模型ID。 方案设计逻辑流程图,方案代码分为分为两个业务流程,主体代码负责抓取、
    的头像 发表于 04-21 13:37 11次阅读
    基于RV1126开发板实现自学习<b class='flag-5'>图像</b>分类方案

    模型标注和自动化标注在OCR标注场景的应用

    OCR,即光学字符识别,简单来说就是利用光学设备去捕获图像并识别文字,最终将图片中的文字转换为可编辑和可搜索的文本。在数字化时代,OCR(光学字符识别)技术作为处理图像中文字信息的关键手段,其标注
    的头像 发表于 04-15 15:18 724次阅读

    数据标注服务—奠定大模型训练的数据基石

    数据标注是大模型训练过程中不可或缺的基础环节,其质量直接影响着模型性能表现。在大模型训练中,数据标注
    的头像 发表于 03-21 10:30 2321次阅读

    标贝数据标注服务:奠定大模型训练的数据基石

    数据标注是大模型训练过程中不可或缺的基础环节,其质量直接影响着模型性能表现。在大模型训练中,数据标注
    的头像 发表于 03-21 10:27 884次阅读
    标贝数据<b class='flag-5'>标注</b>服务:奠定大<b class='flag-5'>模型</b>训练的数据基石

    自动化标注技术推动AI数据训练革新

    标贝自动化数据标注平台在全栈数据标注场景式中搭载了大模型标注和自动化标注能力,并应用于3D
    的头像 发表于 03-14 16:46 1114次阅读

    标贝自动化数据标注平台推动AI数据训练革新

    标贝自动化数据标注平台在全栈数据标注场景式中搭载了大模型标注和自动化标注能力,并应用于3D
    的头像 发表于 03-14 16:42 1373次阅读
    标贝自动化数据<b class='flag-5'>标注</b>平台推动AI数据训练革新

    AI自动图像标注工具SpeedDP将是数据标注行业发展的重要引擎

    利用AI模型训练打造的深度学习算法开发平台SpeedDP,就可以替代人工进行海量的图像数据标注。相比于人工,SpeedDP具有多个优势。更快熟练的人工标注一张简单
    的头像 发表于 01-02 17:53 1132次阅读
    AI自动<b class='flag-5'>图像</b><b class='flag-5'>标注</b>工具SpeedDP将是数据<b class='flag-5'>标注</b>行业发展的重要引擎

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    某些类型模型的训练过程。 保留稀疏激活:与ReLU类似,Leaky ReLU仍然能够促进稀疏激活,这对模型的学习是有利的。 缺点: 性能提升有限:尽管Leaky ReLU解决了ReLU
    发表于 12-19 14:33