0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度开源DETRs在实时目标检测中胜过YOLOs

3D视觉工坊 来源:3D视觉工坊 2024-03-06 09:24 次阅读

这篇论文介绍了一种名为RT-DETR的实时检测Transformer,是第一个实时端到端目标检测器。该方法通过设计高效的混合编码器和IoU感知的查询选择,有效处理多尺度特征,并支持灵活调整推断速度,无需重新训练。在COCO val2017数据集上,RT-DETR-L实现了53.0%的AP和114 FPS,RT-DETR-X实现了54.8%的AP和74 FPS,RT-DETR-R50实现了53.1%的AP和108 FPS,性能优于同等规模的YOLO检测器和DINO-DeformableDETR-R50模型。

f0a0d872-db48-11ee-a297-92fbcf53809c.png

读者理解:

本文提出了一种新的实时端到端目标检测器RT-DETR,并通过详细的分析和实验证明了其在速度和准确性方面的优势。文章对NMS进行了深入的分析,并指出了当前实时检测器中存在的问题,为提出新的解决方案提供了理论基础。RT-DETR的设计理念和实验结果为实时目标检测领域的研究和应用提供了新的思路和方法。整体来说,这篇文章对实时目标检测领域具有重要的学术和应用价值。

1 引言

目标检测是一项重要的视觉任务,涉及在图像中识别和定位物体。现代目标检测器有两种典型架构:基于CNN和基于Transformer。基于CNN的检测器架构从最初的两阶段发展到单阶段,并出现了基于锚点和基于无锚点的检测范式。这些研究取得了显著进展。基于Transformer的目标检测器(DETRs)自提出以来受到广泛关注,因为它消除了各种手工制作的组件,如非最大抑制(NMS),实现了端到端的目标检测。实时目标检测是一个重要的研究领域,现有的实时检测器通常采用基于CNN的架构,但需要NMS进行后处理,导致推理速度延迟。

近年来,基于Transformer的检测器取得了显著进展,但其高计算成本限制了实际应用。为了解决这些问题,作者提出了实时检测Transformer(RT-DETR),是第一个实时端到端目标检测器,不需要后处理,推理速度稳定。RT-DETR在速度和准确性上均优于当前最先进的实时检测器,成为新的SOTA。

f0ae1c4e-db48-11ee-a297-92fbcf53809c.png

2 探测器端到端速度

2.1 NMS的分析

本部分介绍了目标检测中常用的后处理算法非极大值抑制(NMS),用于消除检测器输出的重叠预测框。NMS需要两个超参数:分数阈值和IoU阈值。作者通过实验验证了NMS对这两个超参数的敏感性,并展示了NMS操作在不同超参数下的执行时间。实验结果表明,NMS的执行时间主要取决于输入预测框的数量和超参数的选择。此外,作者还介绍了实验中使用的模型(YOLOv5和YOLOv8)以及评估准确性和执行时间的方法。这些实验结果有助于更好地理解NMS在目标检测中的作用和影响。

2.2 端到端速度基准

本部分介绍了建立了一个端到端速度测试基准,以公平比较各种实时检测器的推理速度。选择了COCO val2017作为默认数据集,并使用了TensorRT的NMS后处理插件。通过测试基于锚点的检测器(如YOLOv5和YOLOv7)以及无锚点检测器(如PP-YOLOE、YOLOv6和YOLOv8)在T4 GPU上的端到端速度,发现无锚点检测器在等效准确性下优于基于锚点的检测器,因为前者的后处理时间明显少于后者。这对于实时检测器的后处理时间进行了新的探讨,为实时目标检测提供了重要的参考。

3 实时DETR

f0e2c278-db48-11ee-a297-92fbcf53809c.png

3.1

本部分介绍了提出的实时DETR(RT-DETR)的模型架构。RT-DETR由骨干网络、混合编码器和Transformer解码器组成,解码器带有辅助预测头。模型利用骨干网络最后三个阶段的输出特征作为编码器的输入,然后通过混合编码器将多尺度特征转换为图像特征序列。接下来,使用IoU感知的查询选择从编码器输出序列中选择一定数量的图像特征作为解码器的初始对象查询。最后,解码器利用辅助预测头迭代优化对象查询,生成框和置信度分数。这种架构使得RT-DETR能够实现端到端的实时目标检测。

f0f37bd6-db48-11ee-a297-92fbcf53809c.png

3.2 高效混合编码器

本部分详细介绍了实时DETR中的高效混合编码器的设计和优化。作者通过分析多尺度Transformer编码器中的计算冗余,提出了一种新颖的编码器结构。该编码器包括两个模块,即基于注意力的内部尺度特征交互(AIFI)模块和基于CNN的跨尺度特征融合模块(CCFM)。AIFI模块在高级特征上执行内部尺度交互,以捕捉图像中概念实体之间的关系。而CCFM模块则通过融合块实现跨尺度特征融合,进一步优化了编码器性能。通过实验验证,这种编码器结构显著降低了计算成本,同时提高了模型的准确性和实时性,为实时目标检测提供了重要的技术支持。

3.3 基于IoU的查询选择

本部分介绍了IoU感知的查询选择方法,用于在DETR模型中选择高质量的编码器特征作为对象查询的初始化。传统的查询选择方法可能导致选择具有高分类分数但低IoU分数的特征,从而降低了检测器的性能。为了解决这个问题,提出了IoU感知的查询选择,通过在训练期间约束模型对具有高IoU分数的特征产生高分类分数,并对具有低IoU分数的特征产生低分类分数。实验结果表明,这种方法可以提供更准确的分类和定位结果,从而提高了检测器的准确性。

3.4 缩放RT-DETR

本部分介绍了缩放的RT-DETR,通过将ResNet骨干网络替换为HGNetv2来提供可扩展的版本。我们使用深度倍增器和宽度倍增器一起缩放骨干网络和混合编码器。因此,我们得到了两个具有不同参数数量和FPS的RT-DETR版本。对于我们的混合编码器,我们通过调整CCFM中RepBlocks的数量和编码器的嵌入维度来控制深度倍增器和宽度倍增器。值得注意的是,我们提出的不同规模的RT-DETR保持了相同的解码器,这有助于使用高精度大型DETR模型对轻量级检测器进行蒸馏。

f100dcae-db48-11ee-a297-92fbcf53809c.png

4 实验

该部分介绍了实验设置和结果。实验在Microsoft COCO数据集上进行,使用COCO train2017进行训练,使用COCO val2017进行验证。使用单尺度图像作为输入,采用标准的COCO AP指标评估性能。使用在ImageNet上预训练的ResNet和HGNetv2作为骨干网络,AIFI由1个transformer层组成,CCMF中的融合块默认由3个RepBlocks组成。在IoU感知的查询选择中,选择前300个编码器特征来初始化解码器的对象查询。训练策略和解码器的超参数几乎遵循DINO。使用AdamW优化器进行训练,基础学习率为0.0001,权重衰减为0.0001,全局梯度剪裁范数为5。实验结果表明,使用IoU感知的查询选择可以提高检测器的准确性。

f12342c6-db48-11ee-a297-92fbcf53809c.pngf1303d6e-db48-11ee-a297-92fbcf53809c.png

总结

在本文中,提出了RT-DETR,据作者所知是第一个实时端到端检测器。作者首先对NMS进行了详细分析,并建立了一个端到端速度基准,验证了当前实时检测器的推理速度受到NMS延迟的事实。作者还从NMS的分析中得出结论,无锚点检测器在相同准确性下优于基于锚点的检测器。为了避免NMS造成的延迟,设计了一个实时端到端检测器,包括两个关键改进组件:一个能够高效处理多尺度特征的混合编码器和提高对象查询初始化的IoU感知查询选择。大量实验证明,与其他实时检测器和相似大小的端到端检测器相比,RT-DETR在速度和准确性上均达到了最先进的水平。此外,提出的检测器支持通过使用不同的解码器层灵活调整推理速度,无需重新训练,这有利于实时目标检测器的实际应用。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    811

    浏览量

    47291
  • 编解码器
    +关注

    关注

    0

    文章

    227

    浏览量

    23982
  • FPS
    FPS
    +关注

    关注

    0

    文章

    34

    浏览量

    11863
  • NMS
    NMS
    +关注

    关注

    0

    文章

    9

    浏览量

    5993

原文标题:CVPR'24 | 百度开源DETRs在实时目标检测中胜过YOLOs

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    [灌水]如何提升网站在百度的排名

    的搜索引擎!第一,关键词的优化我想这是最基本的要求了,特别注意在title、description标签包含关键字对网站优化具有非常显著的效果,可以参考关键词百度前十名的网站的关键词,页面的内容要围绕
    发表于 11-09 16:55

    下载百度到桌面_把百度下载到桌面

    `现在教你怎么把百度下载到桌面,让后你很方便就可以用百度。利用百度强大的平台整合力,为您整合万千热门应用,给您一键触达的超快感体验。 简单可依赖的界面,简洁易操作的设计,洗净繁琐只为您的快捷便利
    发表于 10-26 17:16

    百度开源富文本编辑器UEditor1.1.8正式版发布

    UEditor是由百度 Web前端研发部开发的所见即所得的富文本在线编辑器,具有轻量,可定制,注重用户体验等特点,开源基于BSD协议,允许互联网开发者自由传播和使用代码。百度UEditor的推出
    发表于 01-10 15:00

    巧借SEO查询工具 优化百度排名技术教程

    很多时候,当我们想优化一个关键词百度排名的位置时,我们必须先清楚:目标关键词,现在的百度排名是多少位?打个比方,当你想优化“查询工具”这
    发表于 05-08 19:31

    百度智能手环方案全开源包括硬件原理图、BOM清单和源代码

    百度刚刚公布了一套智能手环的开源方案,是一整套的参考设计,包括硬件原理图、BOM清单和源代码。据百度官方说明百度云智能手环的开源方案是基于A
    发表于 08-25 22:28

    百度无人驾驶车北京完成路测

    感知技术,实现高精度车辆探测识别、跟踪、距离和速度估计、路面分割、车道线检测,为自动驾驶的智能决策提供依据。虽然百度无人驾驶汽车已经完成如此高难度的路测,但是这不是意味着百度无人驾驶汽车很快就能进入市场。目前,该领域还存在很多空
    发表于 12-12 16:53

    百度地图离线API调用教程

    前言:对百度地图的使用已经成为了我们生活的一部分,对于习惯使用百度地图的朋友来说更是不可或缺。但是如果没有网络的话就不能正常使用百度地图的服务,制作一款离线地图在这个时候就显得尤为重
    发表于 01-24 09:42

    百度VS谷歌?不要开玩笑了!

    原子钟和GPS,打破了地理间隔,实现了全球规模具有一致性和实时性的数据库。Google之前,很多人认为这种系统不可能做出来,但Google做到了。然后我们来看一些搜索表现有谷歌的话你还用百度吗?可惜
    发表于 03-16 10:44

    百度总裁:百度人工智能领域已有重大突破

      随着阿法狗大战李世石,人工智能引发越来越多的关注。百度总裁张亚勤28日表示,百度长期坚持技术创新,2015年研发投入超过100亿元,目前人工智能领域已有重大突破。  张亚勤天津
    发表于 07-01 15:22

    转:百度智能手环彻底开源

    百度智能手环基于Nordic公司nRF51822芯片开发,芯片集成BLE蓝牙4.0协议。使用LIS3DH作为加速度传感器,进行运动和睡眠监测。 [size=0.83em]百度只能手环.jpg
    发表于 08-01 10:26

    简单的锂电池电量检测电路 从百度里下载的

    简单的锂电池电量检测电路从百度里下载的
    发表于 06-04 09:43

    百度智能手环方开源项目设计方案

    百度云智能手环的开源方案是基于Apache2.0开源协议,开源内容包括硬件设计文档,原理图、ROM、通讯协议在内的全套方案,同时开放APP和云服务的免费使用。这套方案不仅能实现运动记录
    发表于 08-07 08:32

    百度绿萝算法

    百度绿罗计算方法是百度搜索引擎二月份上作弊计算方法。计算方法主要与超级链作弊作斗争,例如超链接代理,销售链接和购买链接。 计算方法的推出不无效果阻止恶意交换链接,发表外部链接的行为,不无效果清理
    发表于 10-10 09:47

    如何把百度地图导入自己做的通信软件?

    兄弟们有谁搞汽车导航的,我想把百度地图导入自己做的通信软件并且实现根据经纬度实时定位,哪位朋友做过给指点下
    发表于 08-12 00:38

    百度API调用(三)——语音识别 精选资料推荐

    需要的服务,简单填写应用描述即可创建6、创建完成后可以应用列表管理或者删除你所创建的应用7、需要开启对应服务才可以使用点击立即领取即可获得免费调用次数(十几万次对于个人学习使用足够了) 二、python实现百度语音识别实例:
    发表于 08-18 06:44