0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在各种检测器的所有模块实现无监督预训练

jf_pmFSk4VX 来源:GiantPandaCV 2023-08-01 11:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1. 背景介绍

近年来,大规模预训练后微调优化方法在计算机视觉中取得了重大进展。一系列预训练算法被设计出来,以学习特定领域的或任务感知的概念,以提升下游性能。就目标检测而言,当前方法通常利用ImageNet来预训练骨干网络,采用面向分类的监督。然而,与面向检测的微调过程相比,这种预训练方法存在三个差异,如图1所示。

数据:大多数预训练方法是在单个以物体为中心的数据集上进行的,如ImageNet。但是,检测数据集,例如COCO,通常由不同尺度和位置的多个物体组成。数据特征和领域上的差异可能导致预训练偏离下游任务。

模型:由于检测器的多样性和复杂性,当前预训练算法主要关注模型内的部分模块(例如骨干网络)。检测器中的某些关键组件(例如RPN和回归头)仍然是随机初始化的。

任务:现有预训练方法仅将分类任务视为替代任务,未能捕获包括建议生成、目标分配和框回归在内的与物体相关的位置上下文。

这些差异可能导致受限的结果、较差的泛化能力和较慢的收敛速度。

2. 相关知识补充

目标检测。 当前的目标检测算法可以根据不同的预测流程分为基于锚点、基于点和基于查询的方法。基于锚点的方法在每个像素上生成多个具有预定义大小和尺度的锚点。它们通常通过交并比将训练样本划分为正样本和负样本。基于点的方法旨在找到与每个对象相对应的参考点,这可以是每个实例的中心点,预定义或自学习的关键点 。与基于锚点和基于点的方法中使用预定义的先验知识不同,基于查询的方法通过一组可学习的查询来表示不同的对象。

自监督预训练。 自监督学习充分利用了大量无标注数据来学习结构化的数据特征,预训练的权重被转移到下游任务中以确保良好的初始化。已经为无监督预训练提出了许多替代任务,例如特征聚类 ,着色,上下文预测,旋转预测和图像填充。一方面,对比学习通过最大化来自同一实例的不同视图的相似度来捕获良好的表征 ,在多个下游任务中取得了有竞争力的性能。另一方面,Mask Image Modeling (MIM)最近在自监督学习中引起了越来越多的关注。MIM不需要特定的数据增强,并且对下游任务具有更强大的泛化能力。

目标检测的自监督预训练。 尽管无监督预训练在目标检测中显示出了有竞争力的结果,但直接将图像级预训练知识转移到密集级下游任务存在一系列不一致之处。为减小预训练和微调之间的差距,一些方法通过探索不同视图之间的局部特征相似性来提出密集级对比学习。一些研究人员发现仅预训练骨干网络是不够的,他们尝试预训练其他常见模块,如FPN 。然而,这些方法需要从头开始进行大量的预训练,检测器中的其他关键模块(如RetinaNet 中的回归头)仍然是随机初始化的。另一方面,UP-DETR和DETReg 通过引入区域匹配和特征重构替代任务来预训练整个DETR样式检测器。尽管这些方法可以对整个模型进行充分的预训练,但DETR定向的替代任务无法直接应用于其他检测方法。相比之下,AlignDet实现了各种检测器的高效充分的自监督预训练。

3. 方法详解

最近的工作通过构建无监督预训练替代任务来扩展“预训练和微调”方法,与仅使用监督预训练的方法相比,这些方法取得了更高的性能。然而,与检测过程相比,当前预训练方法在数据、模型和任务上存在不一致之处,如图1所示。尽管可以通过大规模标注数据集的训练来缓解这些不一致,但它需要巨大的计算资源和手工标注成本。这些问题和局限激发我们提出AlignDet,一个通用的自监督框架,用于减小预训练和微调阶段中的差异。

ba50e4da-2fa2-11ee-9e74-dac502259ad0.png

图2 AlignDet的预训练流程图。监督和自监督预训练都可以用于图像域阶段,以捕捉整体视觉概念。对于框域预训练,首先采用选择性搜索生成无监督建议作为伪标签,然后对每个建议进行扩充,构建两个具有不同尺度和变换的视图。每个预测框用于构建对比学习和协调相关损失,以适应检测任务。

整个预训练流程如图2所示。在以下小节中,我们分别在第3.1节和第3.2节中介绍图像域预训练和框域预训练。我们提供了伪代码,以便更直观地理解AlignDet流程,以及与其他方法在技术细节上的比较见补充材料。

3.1 图像域预训练

图像域预训练优化骨干网络,为后续的框域预训练提取高层语义特征,如图2左侧的步骤1所示。一方面,给定图像x,骨干网络可以在完全监督的设置下与分类器和分类类别进行预训练。另一方面,最近出现的无监督学习算法有助于通过大量无标注数据捕获更普适的表征。以SimSiam 为例,从输入图像中构造两个视图和,并采用不同的数据增强。骨干网络可以通过最大化不同视图的相似性来学习普适的表征,并且利用预测器和停止梯度用来防止模式崩溃。

图像域预训练通常在大规模的图像分类数据集(如ImageNet)上进行,其中每个样本主要包含一个或少数几个主要物体位于图像中心。这里存在一个差距,因为在预训练过程无法访问包含不同尺度和位置的多个物体目标数据集。此外,检测头仍然是随机初始化的,回归工作在此图像域预训练中也未明确学习到。为此,我们设计框域预训练以减小这些差异。

3.2 框域预训练

wKgZomTIf6WAdk2MAAMv-iD3gRQ925.jpg
wKgZomTIf7iASeEnAAEPGjlowrE082.jpg

4. 结论

本文中,我们指出预训练和微调阶段在目标检测中存在数据、模型和任务的差异,并提出了AlignDet来解决这些问题。AlignDet学习分类和回归知识,实现高效针对所有模块的预训练。值得注意的是,AlignDet是第一个实现各种检测器完全无监督预训练的框架。我们广泛的实验表明,AlignDet可以在各种设置下显著提升检测性能,包括不同的检测器、骨干网络、数据设置和微调计划。我们相信我们的工作为目标检测中的预训练问题提供了有价值的洞见,并开辟了新的研究方向。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    924

    浏览量

    49656
  • MIM
    MIM
    +关注

    关注

    0

    文章

    13

    浏览量

    9547
  • 图像变换
    +关注

    关注

    0

    文章

    5

    浏览量

    1613

原文标题:ICCV2023-AlignDet:在各种检测器的所有模块实现无监督预训练

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿童木金属双张检测器汽车零部件产线的应用

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2025年09月10日 16:40:28

    双张检测器检测瓶盖垫片

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2025年08月08日 16:13:39

    轴承异步电机转子径向位移白检测

    训练构建转子位移预测模型,利用位移预测模型的泛化能力,进行转子位移估计。仿真结果表明,提出的位移估计方法能够准确检测转子径向位移信号,并且能实现电机位移传感
    发表于 07-14 17:45

    位置传感刷直流电机的+FPGA+控制实现

    硬件语言編程实现了 PI 调节模块、过零检测模块,脉冲宽度调制发生模块、换相模块、启动
    发表于 07-10 16:35

    5 GHz 802.11ax 超线性 WLAN 前端模块,带集成对数检测器 skyworksinc

    电子发烧友网为你提供()5 GHz 802.11ax 超线性 WLAN 前端模块,带集成对数检测器相关产品参数、数据手册,更有5 GHz 802.11ax 超线性 WLAN 前端模块,带集成
    发表于 07-02 18:32
    5 GHz 802.11ax 超线性 WLAN 前端<b class='flag-5'>模块</b>,带集成对数<b class='flag-5'>检测器</b> skyworksinc

    带功率检测器的 5 GHz 前端模块 skyworksinc

    电子发烧友网为你提供()带功率检测器的 5 GHz 前端模块相关产品参数、数据手册,更有带功率检测器的 5 GHz 前端模块的引脚图、接线图、封装手册、中文资料、英文资料,带功率
    发表于 06-19 18:35
    带功率<b class='flag-5'>检测器</b>的 5 GHz 前端<b class='flag-5'>模块</b> skyworksinc

    Analog Devices Inc. ADL5507对数射频功率检测器数据手册

    (-56dBm至-1dBm,3.6GHz,50Ω端接时)内实现精确的射频信号电平测量。与分立二极管检测器相比,该检测器提供更全面的动态范围和更高的精度。ADL5507检测器的高灵敏度支
    的头像 发表于 06-06 14:42 645次阅读
    Analog Devices Inc. ADL5507对数射频功率<b class='flag-5'>检测器</b>数据手册

    使用MATLAB进行监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1178次阅读
    使用MATLAB进行<b class='flag-5'>无</b><b class='flag-5'>监督</b>学习

    SKY85746-11: 带集成对数检测器的 5 GHz 802.11ax 超线性 WLAN 前端模块 skyworksinc

    电子发烧友网为你提供()SKY85746-11: 带集成对数检测器的 5 GHz 802.11ax 超线性 WLAN 前端模块相关产品参数、数据手册,更有SKY85746-11: 带集成对数检测器
    发表于 05-15 18:29
    SKY85746-11: 带集成对数<b class='flag-5'>检测器</b>的 5 GHz 802.11ax 超线性 WLAN 前端<b class='flag-5'>模块</b> skyworksinc

    阿童木双张检测器汽车冲压产线的应用

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2025年04月10日 17:31:44

    用PaddleNLP为GPT-2模型制作FineWeb二进制训练数据集

    作者:算力魔方创始人/英特尔创新大使刘力 《用PaddleNLP4060单卡上实践大模型训练技术》发布后收到读者热烈反响,很多读者要求进一步讲解更多的技术细节。本文主要针对大语言模型的
    的头像 发表于 03-21 18:24 3830次阅读
    用PaddleNLP为GPT-2模型制作FineWeb二进制<b class='flag-5'>预</b><b class='flag-5'>训练</b>数据集

    运行SCRFD人脸检测器CPU上输出错误是怎么回事?

    试图运行 SCRFD 人脸检测器 CPU 上获得错误输出,但 GPU 正确无误
    发表于 03-07 07:55

    用PaddleNLP4060单卡上实践大模型训练技术

    作者:算力魔方创始人/英特尔创新大使刘力 之前我们分享了《从零开始训练一个大语言模型需要投资多少钱》,其中高昂的训练费用让许多对大模型训练
    的头像 发表于 02-19 16:10 2134次阅读
    用PaddleNLP<b class='flag-5'>在</b>4060单卡上实践大模型<b class='flag-5'>预</b><b class='flag-5'>训练</b>技术

    局域网地址检测器

    局域网地址检测器是一款非常实用的IP地址冲突快速检测工具。这款它功能强大、操作简单,能帮助用户快速检测同一局域网内遇到IP冲突的问题,需要的用户可下载!  局域网地址
    发表于 02-17 17:00 2次下载

    压力检测器有哪些优势

    现代工业与基础设施管理中,压力检测器作为监测与控制系统的关键组件,扮演着重要的角色。压力检测器集高精度、高稳定性与便捷操作于一体,供水、排水、消防水系统、输油管道、输气管道等多个领
    的头像 发表于 01-07 17:09 1123次阅读