0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在各种检测器的所有模块实现无监督预训练

jf_pmFSk4VX 来源:GiantPandaCV 2023-08-01 11:42 次阅读

1. 背景介绍

近年来,大规模预训练后微调优化方法在计算机视觉中取得了重大进展。一系列预训练算法被设计出来,以学习特定领域的或任务感知的概念,以提升下游性能。就目标检测而言,当前方法通常利用ImageNet来预训练骨干网络,采用面向分类的监督。然而,与面向检测的微调过程相比,这种预训练方法存在三个差异,如图1所示。

数据:大多数预训练方法是在单个以物体为中心的数据集上进行的,如ImageNet。但是,检测数据集,例如COCO,通常由不同尺度和位置的多个物体组成。数据特征和领域上的差异可能导致预训练偏离下游任务。

模型:由于检测器的多样性和复杂性,当前预训练算法主要关注模型内的部分模块(例如骨干网络)。检测器中的某些关键组件(例如RPN和回归头)仍然是随机初始化的。

任务:现有预训练方法仅将分类任务视为替代任务,未能捕获包括建议生成、目标分配和框回归在内的与物体相关的位置上下文。

这些差异可能导致受限的结果、较差的泛化能力和较慢的收敛速度。

2. 相关知识补充

目标检测。 当前的目标检测算法可以根据不同的预测流程分为基于锚点、基于点和基于查询的方法。基于锚点的方法在每个像素上生成多个具有预定义大小和尺度的锚点。它们通常通过交并比将训练样本划分为正样本和负样本。基于点的方法旨在找到与每个对象相对应的参考点,这可以是每个实例的中心点,预定义或自学习的关键点 。与基于锚点和基于点的方法中使用预定义的先验知识不同,基于查询的方法通过一组可学习的查询来表示不同的对象。

自监督预训练。 自监督学习充分利用了大量无标注数据来学习结构化的数据特征,预训练的权重被转移到下游任务中以确保良好的初始化。已经为无监督预训练提出了许多替代任务,例如特征聚类 ,着色,上下文预测,旋转预测和图像填充。一方面,对比学习通过最大化来自同一实例的不同视图的相似度来捕获良好的表征 ,在多个下游任务中取得了有竞争力的性能。另一方面,Mask Image Modeling (MIM)最近在自监督学习中引起了越来越多的关注。MIM不需要特定的数据增强,并且对下游任务具有更强大的泛化能力。

目标检测的自监督预训练。 尽管无监督预训练在目标检测中显示出了有竞争力的结果,但直接将图像级预训练知识转移到密集级下游任务存在一系列不一致之处。为减小预训练和微调之间的差距,一些方法通过探索不同视图之间的局部特征相似性来提出密集级对比学习。一些研究人员发现仅预训练骨干网络是不够的,他们尝试预训练其他常见模块,如FPN 。然而,这些方法需要从头开始进行大量的预训练,检测器中的其他关键模块(如RetinaNet 中的回归头)仍然是随机初始化的。另一方面,UP-DETR和DETReg 通过引入区域匹配和特征重构替代任务来预训练整个DETR样式检测器。尽管这些方法可以对整个模型进行充分的预训练,但DETR定向的替代任务无法直接应用于其他检测方法。相比之下,AlignDet实现了各种检测器的高效充分的自监督预训练。

3. 方法详解

最近的工作通过构建无监督预训练替代任务来扩展“预训练和微调”方法,与仅使用监督预训练的方法相比,这些方法取得了更高的性能。然而,与检测过程相比,当前预训练方法在数据、模型和任务上存在不一致之处,如图1所示。尽管可以通过大规模标注数据集的训练来缓解这些不一致,但它需要巨大的计算资源和手工标注成本。这些问题和局限激发我们提出AlignDet,一个通用的自监督框架,用于减小预训练和微调阶段中的差异。

ba50e4da-2fa2-11ee-9e74-dac502259ad0.png

图2 AlignDet的预训练流程图。监督和自监督预训练都可以用于图像域阶段,以捕捉整体视觉概念。对于框域预训练,首先采用选择性搜索生成无监督建议作为伪标签,然后对每个建议进行扩充,构建两个具有不同尺度和变换的视图。每个预测框用于构建对比学习和协调相关损失,以适应检测任务。

整个预训练流程如图2所示。在以下小节中,我们分别在第3.1节和第3.2节中介绍图像域预训练和框域预训练。我们提供了伪代码,以便更直观地理解AlignDet流程,以及与其他方法在技术细节上的比较见补充材料。

3.1 图像域预训练

图像域预训练优化骨干网络,为后续的框域预训练提取高层语义特征,如图2左侧的步骤1所示。一方面,给定图像x,骨干网络可以在完全监督的设置下与分类器和分类类别进行预训练。另一方面,最近出现的无监督学习算法有助于通过大量无标注数据捕获更普适的表征。以SimSiam 为例,从输入图像中构造两个视图和,并采用不同的数据增强。骨干网络可以通过最大化不同视图的相似性来学习普适的表征,并且利用预测器和停止梯度用来防止模式崩溃。

图像域预训练通常在大规模的图像分类数据集(如ImageNet)上进行,其中每个样本主要包含一个或少数几个主要物体位于图像中心。这里存在一个差距,因为在预训练过程无法访问包含不同尺度和位置的多个物体目标数据集。此外,检测头仍然是随机初始化的,回归工作在此图像域预训练中也未明确学习到。为此,我们设计框域预训练以减小这些差异。

3.2 框域预训练

wKgZomTIf6WAdk2MAAMv-iD3gRQ925.jpg
wKgZomTIf7iASeEnAAEPGjlowrE082.jpg

4. 结论

本文中,我们指出预训练和微调阶段在目标检测中存在数据、模型和任务的差异,并提出了AlignDet来解决这些问题。AlignDet学习分类和回归知识,实现高效针对所有模块的预训练。值得注意的是,AlignDet是第一个实现各种检测器完全无监督预训练的框架。我们广泛的实验表明,AlignDet可以在各种设置下显著提升检测性能,包括不同的检测器、骨干网络、数据设置和微调计划。我们相信我们的工作为目标检测中的预训练问题提供了有价值的洞见,并开辟了新的研究方向。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    811

    浏览量

    47296
  • MIM
    MIM
    +关注

    关注

    0

    文章

    13

    浏览量

    9339
  • 图像变换
    +关注

    关注

    0

    文章

    5

    浏览量

    1495

原文标题:ICCV2023-AlignDet:在各种检测器的所有模块实现无监督预训练

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    过零检测器的原理和作用

    挥着重要作用。过零检测器的基本原理是通过对输入信号进行处理,当信号从正变为负或从负变为正时,产生一个脉冲信号。这个脉冲信号可以用来表示输入信号的过零点,从而实现对信号频率和相位的测量。 过零检测器作用 ZCD 作为相位计 ZCD
    的头像 发表于 02-01 14:12 564次阅读
    过零<b class='flag-5'>检测器</b>的原理和作用

    检测器电路图分享

    检测器是指能检测色谱柱流出组分及其量的变化的器件。检测器通常分为积分型和微分型两类。对检测器的要求是:灵敏度高,线性范围宽,重现性好,稳定性好,响应速度快,对不同物质的响应有规律性及可
    的头像 发表于 01-10 15:47 4083次阅读
    <b class='flag-5'>检测器</b>电路图分享

    全面梳理电压检测器的定义、使用技巧和工作原理知识点

    电压检测器是用于监控电源线的电压,当低于或高于设定电压时输出检测信号的IC。还可把电压检测器称为VD(Voltage Detector)、复位IC、监督器等。
    的头像 发表于 01-02 15:09 1320次阅读
    全面梳理电压<b class='flag-5'>检测器</b>的定义、使用技巧和工作原理知识点

    瓶盖密封垫片叠料检测(铝箔垫片 )-阿童木单双张检测器

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年12月20日 15:40:00

    阿童木双张检测器五金配件冲压叠料检测的应用

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年11月24日 14:54:01

    单双张检测器-叠料检测器-铜片检测-阿童木科技

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年09月08日 11:29:32

    电机控制应用中的人工智能解决方案

    STM32上简单轻松地实现机器学习• 直接在STM32内部运行的智能解决方案• 无需云连接• 对于异常检测无需训练数据集•
    发表于 09-08 06:18

    双张检测器让重叠不再重复

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年08月30日 14:05:17

    Cortex-R82的功能分析

    进行了研究,其中基线不存在取。该调查展示了Cortex-R82以下领域的性能:取、
    发表于 08-09 06:11

    12伏简单灵敏的火焰警报 火苗检测器 监控检测器

    检测器
    学习电子知识
    发布于 :2023年07月17日 20:20:30

    4段高灵敏断线检测器

    检测器
    学习电子知识
    发布于 :2023年07月17日 19:48:59

    阿童木金属双张检测器的原理

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年06月27日 15:20:04

    阿童木双张检测器应用案例(硅钢片叠料检测

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年06月26日 13:55:17

    阿童木单探头双张检测器之:304板材叠料检测

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年06月13日 10:51:59

    高效液相色谱(HPLC)|检测器

    泵、色谱柱及检测器是HPLC的三大关键组成部分。样品经色谱柱分离后随流动相共同进入检测器检测器将样品的物理或化学信号转换为电信号,得到样品组分分离的色谱图。
    的头像 发表于 06-01 14:47 1953次阅读
    高效液相色谱(HPLC)|<b class='flag-5'>检测器</b>