0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

「房间里的大象」:让目标检测器一脸懵逼

新机器视觉 来源:机器之心 作者:机器之心 2021-04-01 14:24 次阅读

可靠的图像理解系统对于自动驾驶医学成像等应用至关重要。对抗样本被认为是一种有针对性的小型扰动。约克大学和多伦多大学的研究者在本文中展示了另一种扰动。与对抗样本相反,这些扰动不受范数的约束。它们把一幅图像中的物体放置(「移植」)到另一幅图像的新位置。这种做法对目标检测器的结果有多种非局部影响,比如房间里走动的大象让目标检测器把沙发认成椅子,或让杯子、书消失。本文通过一系列实验证明了这一点,并提出了一些可能的解释。

Gary Marcus 在其推特上评论道:这个针对机器学习系统鲁棒性的技术问题给自驾汽车的实现提出了相当大的挑战。

实验

作者从一些定性结果开始。图 1(a)展示了一种当前最优目标检测方法(具备 NASNet 骨干网络 [20] 的 Faster-RCNN [9])应用于来自 Microsoft COCO 目标检测基准 [6] 的客厅图像的结果,目标检测器是在该基准数据集上训练的。作者利用真实数据,从另一幅图像中提取了一个目标(大象)及其掩码,并将其「移植」到客厅图像的不同位置上。作者把移植的目标称为 T。结果可以在图 1 b-i 中看到。当目标 T 沿着图像平移时,作者发现了几个有趣的现象:

检测不稳定:目标有时无法被检测到,或者能够被检测到但置信度出现急剧变化。

目标 T 被检测到的身份不一致(在图 1-f 中被当成椅子):根据位置变化,目标可能被检测为各种不同的东西。

目标带来非局部影响:未与 T 重叠的目标可能会变换类别、边界框,或者完全消失。

图 1:在房间中检测一只大象。(a):当前最优目标检测器在客厅图像里检测到多个目标;(b,d,e,g,i):移植的目标(大象)在很多情况下和任意位置未被检测到;(f):目标类别被误认为是「椅子」。该目标(大象)具有非局部影响,导致其它目标消失(图 d、f 中的杯子,e、i 中的书)或变换类别(图 e 中的椅子被误认为是沙发)。

论文:The Elephant in the Room

论文链接:https://arxiv.org/abs/1808.03305

摘要:我们展示了一系列当前最优目标检测器的常见故障。这些故障是通过用包含训练目标的另一个子图像替换图像子区域而获得的。我们将这种做法称为「目标移植」(object transplanting)。结果表明,以这种方式修改图像会对目标检测造成非局部影响。根据目标检测器的结果,目标位置的微小变化会影响目标以及图像中其他对象的类别确认。对此,我们提供了一些分析,并提出了一些可能的解释。

实验中采用的图像均来自 MS-COCO 数据集 2017 版的验证集。除非另有说明,我们采用的所有模型均来自 Tensorflow 目标检测 API [5]。因此,我们的实验易于复现,并且可以访问一组不同的当前最优目标检测架构。此外,如无特殊情况,我们仅使用在 MS-COCO 上训练的模型。这些模型可以从相应的 API 网页下载,还可以利用官方提供的代码将模型应用于图像。表 2 列出了我们使用的模型。

测试图像生成:图 1 中的例子看起来有点不自然,我们提供了更多随机生成的例子。简而言之,通过挑选一对随机图像 I、J,将随机目标从图像 J 移植到图像 I 中,然后测试目标检测的效果。

表 2:实验中所用模型,及其平均准确率(mAP)。

共现目标

我们已经展示了随机选择一对图像和待移植目标的结果。可以说,想让一个从未在同一图像中看到两个类别组合的网络能够在测试时成功地处理此类图像有点期望过高。我们认为,无论是在实际中还是理论上,要求每对目标类别在训练集中共现都是不合理的。当然,这对人类来说要求不高。人类不依靠语境也能识别物体,尽管需要的时间更长 [2]。

然而,我们现在转向生成另一个极端的图像:我们从图像中复制一个目标,并将其复制到同一图像中的另一个位置。图 2 显示了 4 幅随机挑选图像的生成图像的检测结果。我们看到,这种效果也发生在这些图像上。部分遮挡和语境似乎在这里发挥了作用。例如,在(b)栏的最下面一行,当靠近电视机时,牛的脚会变成「遥控器」。当植物的一部分被遮挡(d 栏,最后 2、3 行),但一个人的手在附近时,植物的底部被检测为手提包或杯子。图 2 中的结果都是使用 faster_rcnn_nas_coco 模型生成的。

图 2:把目标从图像的某个位置移植到该图像另一位置的效果。最上一行:原始检测。后续每一行:通过复制移植目标,相对于前一行新检测到的目标。

特征干扰

以下将展示特征干扰对检测过程的不利影响,这可能是对检测误差的合理解释。例如,考虑图 3(a)中的检测结果。一只部分可见的猫被检测到并归类为斑马。我们证实,从不属于实际目标(cat)的像素中获得的特征对指定的类有影响。这点同样适用于目标感兴趣区域(ROI)以内及以外的像素:在图 3(b)中,我们将边界框外的所有像素都设置为零。检测结果不变。当我们把边界框内的像素也归零,留下属于猫的像素时,得到的标签也会变成「猫」。这显示了 ROI 内像素的影响。然而,当我们将 ROI 之外的背景强度随机化时,标签会变成「狗」。这表明 ROI 之外的特征会影响检测的最终结果。此次实验是用 Yolov3[8] 方法的 PyTorch 端口执行的,速度非常快,产生的结果与目标检测的最新水平相当。这种情况下的最终分类需要依赖来自卷积层单个网格单元的特征。

图 3:特征干扰。(a):一只部分可见的猫被检测为斑马;(b):丢弃检测边界框外的所有像素并不能固定对象的分类,这表明 ROI 内的特征可能会导致混淆;(c):丢弃 ROI 内的所有非「猫」像素也会导致固定的分类;(d):在边界框之外的范围内添加随机噪声再次导致错误的检测结果,显示了 ROI 外特征的影响。

超出检测范围的全局影响

在一项初步实验中,我们将几张没有检测到任何物体的图像上传至谷歌的 Vision API 网站。这些图像是任意挑选的。本文中呈现出实验结果,因为我们发现它值得进一步探索。似乎其方法的 OCR 部分对移植目标也表现出惊人的非局部影响。图 4 显示了这一点:键盘放置在图像的两个不同位置。尽管每个位置中键盘都远离标志,但在每种情况下,标志的检测结果都是不同的。

图 4:谷歌 OCR 上目标移植的非局部影响。放置在图像中两个不同位置的键盘会导致对右侧标志中文本的不同解释。顶部图像的输出是「dog bi」,底部是「La Cop」。

讨论

我们提出了当前目标检测器出现这些奇异行为的几个可能原因。尽管我们报告了很多种现象,我们相信这些现象不是独立的,某些现象之间存在一些共同的潜在原因。

部分遮挡:人们普遍认为部分遮挡目前仍然是目标检测器的一大挑战。能应对部分遮挡被认为是泛化的良好信号。实际上,我们测试的很多现代目标检测器都对部分遮挡具备很高的鲁棒性。

上下文推理:对目前的目标检测器而言,明确地考虑语义级别的上下文并不常见,这意味着目标类别之间的相互作用以及它们的相对空间布局(或可能的额外关系)是被编码在网络的推理过程中的。尽管很多方法声称整合了上下文推理,但更多地是在特征层面上,意味着全局图像信息在某种程度上编码在每一次推断中。这和以前流行的明确使用上下文推理的研究相反。

特征干扰:现代目标检测器使用从卷积层中获得的特征来生成最终的目标类别和边框预测。这些区域的尺寸是固定或矩形的。ROI 池化运算在感兴趣区域的卷积特征图子窗口上执行特征的最大池化。这种运算受到以下事实的影响:

感兴趣区域是矩形的。这意味着不属于目标的区域部分也会被池化,包括背景外观以及目标外观。

特征图的每个部分可能拥有一个很大的有效感受野。在实践中,这意味着特征是从检测目标的边框以外池化得到的。

一方面,来自目标周围的特征可以提供有用的语境线索来提升目标检测,特别是对于那些由于尺寸、部分遮挡等原因而不能提供足够信息的目标。另一方面,一味将额外特征混合至最终类别分数可能会影响结果的正确性。

其它可能原因还包括:超出样本分布、缺乏信号完整性、非极大值抑制等(详见原文)。

我们相信特征干扰(如图 3 所示)可能是多数观察到的现象的根本原因,而那些由于部分遮挡或语境推理导致的现象则可能是该问题的特殊案例。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    809

    浏览量

    47285
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40030
  • 机器学习
    +关注

    关注

    66

    文章

    8096

    浏览量

    130523
  • 数据集
    +关注

    关注

    4

    文章

    1176

    浏览量

    24340

原文标题:「房间里的大象」:让目标检测器一脸懵逼

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    百度开源DETRs在实时目标检测中胜过YOLOs

    这篇论文介绍了一种名为RT-DETR的实时检测Transformer,是第一个实时端到端目标检测器
    的头像 发表于 03-06 09:24 284次阅读
    百度开源DETRs在实时<b class='flag-5'>目标</b><b class='flag-5'>检测</b>中胜过YOLOs

    检测器电路图分享

    检测器是指能检测色谱柱流出组分及其量的变化的器件。检测器通常分为积分型和微分型两类。对检测器的要求是:灵敏度高,线性范围宽,重现性好,稳定性好,响应速度快,对不同物质的响应有规律性及可
    的头像 发表于 01-10 15:47 3908次阅读
    <b class='flag-5'>检测器</b>电路图分享

    瓶盖密封垫片叠料检测(铝箔垫片 )-阿童木单双张检测器

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年12月20日 15:40:00

    基于物联网的LPG气体泄漏检测器

    使用MQ-5传感、ESP8266和Arduino构建个基于物联网的LPG气体泄漏检测器
    发表于 09-22 06:06

    基于BEV的视觉3D目标检测器

    根据我们的实验分析,我们认为实现这一目标的关键在于提升检测器在 BEV 空间和 2D 空间的适应性。这种适应性是针对 query 而言的,即对于不同的 query,检测器要能以不同的方式来编码和解码特征。
    发表于 09-16 10:09 446次阅读
    基于BEV的视觉3D<b class='flag-5'>目标</b><b class='flag-5'>检测器</b>

    单双张检测器-叠料检测器-铜片检测-阿童木科技

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年09月08日 11:29:32

    双张检测器重叠不再重复

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年08月30日 14:05:17

    12伏简单灵敏的火焰警报 火苗检测器 监控检测器

    检测器
    学习电子知识
    发布于 :2023年07月17日 20:20:30

    4段高灵敏断线检测器

    检测器
    学习电子知识
    发布于 :2023年07月17日 19:48:59

    阿童木金属双张检测器的原理

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年06月27日 15:20:04

    阿童木双张检测器应用案例(硅钢片叠料检测

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年06月26日 13:55:17

    阿童木单探头双张检测器之:304板材叠料检测

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年06月13日 10:51:59

    高效液相色谱(HPLC)|检测器

    泵、色谱柱及检测器是HPLC的三大关键组成部分。样品经色谱柱分离后随流动相共同进入检测器检测器将样品的物理或化学信号转换为电信号,得到样品组分分离的色谱图。
    的头像 发表于 06-01 14:47 1895次阅读
    高效液相色谱(HPLC)|<b class='flag-5'>检测器</b>

    (锂电行业)铜片叠料检测方案-阿童木双张检测器1000L

    检测器
    阿童木(广州)智能科技有限公司
    发布于 :2023年05月23日 14:13:50

    使用Arduino和PIR传感器的自动房间

    在这个项目中,我们将看到使用Arduino和PIR传感器的自动房间灯,通过检测人的存在,房间里的灯将自动打开和关闭。
    的头像 发表于 05-12 09:05 990次阅读
    使用Arduino和PIR传感器的自动<b class='flag-5'>房间</b>灯