0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CNN根本无需理解图像全局结构,一样也能SOTA?

OpenCV学堂 来源:量子位 作者:量子位 2022-06-09 10:51 次阅读

不给全图,只投喂CNN一些看上去毫无信息量的图像碎片,就能让模型学会图像分类。

更重要的是,性能完全不差,甚至还能反超用完整图像训练的模型。

796d0e56-e739-11ec-ba43-dac502259ad0.png

这么一项来自加州大学圣塔芭芭拉分校的新研究,这两天引发不少讨论。

咋地,这就是说,CNN根本无需理解图像全局结构,一样也能SOTA?

79a3bafa-e739-11ec-ba43-dac502259ad0.png

具体是怎么一回事,咱们还是直接上论文。

实验证据

研究人员设计了这样一个实验:

他们在CIFAR-10、CIFAR-100、STL-10、Tiny-ImageNet-200以及Imagenet-1K等数据集上训练ResNet。

特别的是,用于训练的图像是通过随机裁剪得到的。

这个“随机裁剪”,可不是往常我们会在数据增强方法中见到的那一种,而是完全不做任何填充。

举个例子,就是对图片做PyTorch的RandomCrop变换时,padding的参数填0。

得到的训练图像就是下面这个样式的。即使你是阅图无数的老司机,恐怕也分辨不出到底是个啥玩意儿。

79d0c3ce-e739-11ec-ba43-dac502259ad0.png

训练图像如此碎片化,模型的识图能力又能达到几成?

来看实验结果:

79edc60e-e739-11ec-ba43-dac502259ad0.png

好家伙,在CIFAR-10上,用16×16的图像碎片训练出来的模型,测试准确率能达到91%,而用完整的32×32尺寸图像训练出来的模型,测试准确率也不过90%。

这一波,“残缺版”CNN竟然完全不落下风,甚至还反超了“完整版”CNN。

要知道,被喂了碎片的CNN模型,看到的图像甚至可能跟标签显示的物体毫无关系,只是原图中背景的部分……

在STL-10、Tiny-Imagenet-200等数据集上,研究人员也得到了类似的结果。

不过,在CIFAR-100上,还是完整图像训练出来的模型略胜一筹。16×16图像碎片训练出的模型测试准确率为61%,而32×32完整图像训练出的模型准确率为68%。

所以,CNN为何会有如此表现?莫非它本来就是个“近视眼”?

研究人员推测,CNN能有如此优秀的泛化表现,是因为在这个实验中,维度诅咒的影响被削弱了。

所谓维度诅咒(curse of dimensionality),是指当维数提高时,空间体积提高太快,导致可用数据变得稀疏。

而在这项研究中,由于CNN学习到的不是整个图像的标签,而是图像碎片的标签,这就在两个方面降低了维度诅咒的影响:

图像碎片的像素比完整图像小得多,这减少了输入维度

训练期间可用的样本数量增加了

生成热图

基于以上实验观察结果,研究人员还提出以热图的形式,来理解CNN的预测行为,由此进一步对模型的错误做出“诊断”。

就像这样:

7a1871ce-e739-11ec-ba43-dac502259ad0.png

这些图像来自于STL-10数据集。热图显示,对于CNN而言,飞机图像中最能“刺激”到模型的,不是飞机本身,而是天空。

同样,在汽车图像中,车轮才是CNN用来识别图像的主要属性。

论文地址: https://arxiv.org/abs/2205.10760

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像分类
    +关注

    关注

    0

    文章

    87

    浏览量

    11838
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24348
  • cnn
    cnn
    +关注

    关注

    3

    文章

    327

    浏览量

    21296

原文标题:不看全图看局部,CNN性能竟然更强了

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    STM32-CLASSB-SPL与standard peripherals library一样吗?

    STM32-CLASSB-SPL与standard peripherals library一样吗,同等使用吗,迷惑啊,最近开发,看到这样的两个库
    发表于 04-22 08:06

    计算机视觉:AI如何识别与理解图像

    计算机视觉是人工智能领域的一个重要分支,它致力于让机器能够像人类一样理解和解释图像。随着深度学习和神经网络的发展,人们对于如何让AI识别和理解图像
    的头像 发表于 01-12 08:27 630次阅读
    计算机视觉:AI如何识别与<b class='flag-5'>理解</b><b class='flag-5'>图像</b>

    AD7280与AD7280A功能是一样吗?替换吗?

    AD7280与AD7280A功能是一样吗?替换吗?替换后需要重新写程序吗?
    发表于 01-05 07:50

    同型号的电机同时启动怎么转速不一样

    变速箱已经换了2两个还是一样。电源是通过个接触器传送过去的。现在还是个动作快个动作慢,电流应该一样,电压
    发表于 12-21 06:41

    每个单片机模块内部结构是否一样?

    每个单片机模块内部结构是否一样
    发表于 11-03 07:46

    LabVIEW背景颜色设为和其他程序或图像一样

    LabVIEW背景颜色设为和其他程序或图像一样 有时候LabVIEW背景色要和其他程序或者图片的颜色保持致,如果要求不高可以大致设置下。如果要求较高,那可以按照如下的方式。 先用
    发表于 10-30 20:11

    人工智能SOTA什么意思

    人工智能SOTA什么意思 人工智能SOTA是机器学习领域中的一个术语,指的是目前能够实现的最佳结果,SOTA是State of the art的缩写,意为“最新技术”的最佳状态。在人工智能领域
    的头像 发表于 08-22 16:45 1w次阅读

    cnn卷积神经网络简介 cnn卷积神经网络代码

    以解决图像识别问题为主要目标,但它的应用已经渗透到了各种领域,从自然语言处理、语音识别、到物体标记以及医疗影像分析等。在此,本文将对CNN的原理、结构以及基础代码进行讲解。 1. CNN
    的头像 发表于 08-21 17:16 2023次阅读

    cnn卷积神经网络matlab代码

    cnn卷积神经网络matlab代码  卷积神经网络(Convolutional Neural Network, CNN)是深度学习中一种常用的神经网络结构,它是通过卷积层、池化层和全连接层等组合而成
    的头像 发表于 08-21 17:15 865次阅读

    cnn卷积神经网络算法 cnn卷积神经网络模型

    cnn卷积神经网络算法 cnn卷积神经网络模型 卷积神经网络(CNN)是一种特殊的神经网络,具有很强的图像识别和数据分类能力。它通过学习权重和过滤器,自动提取
    的头像 发表于 08-21 17:15 1160次阅读

    cnn卷积神经网络原理 cnn卷积神经网络的特点是什么

    cnn卷积神经网络原理 cnn卷积神经网络的特点是什么  卷积神经网络(Convolutional Neural Network,CNN)是一种特殊的神经网络结构,主要应用于
    的头像 发表于 08-21 17:15 1140次阅读

    文详解CNN

    部分统计特性与其它部分是一样的,意味着:对于图像的所有位置,可以使用相同的权重值。 卷积层的计算过程: 如下图(来源于网络,侵删)所示展示了: 输入(1, 5, 5, 3),意思是batch=1,图像
    发表于 08-18 06:56

    求助,vision视觉分析里面同条连线连接的图像一样问题

    如图,为什么两个图像有差异。怎么能让image 3跟image 4一样
    发表于 06-12 10:49

    PyTorch教程-14.8。基于区域的 CNN (R-CNN)

    ¶ R -CNN首先从输入图像中提取许多(例如,2000 个)region proposals (例如,anchor boxes 也可以被认为是 region proposals),标记它们的类别和边界框(例如,offsets)。 (Girshick等
    的头像 发表于 06-05 15:44 382次阅读
    PyTorch教程-14.8。基于区域的 <b class='flag-5'>CNN</b> (R-<b class='flag-5'>CNN</b>)

    全局快门图像传感器

    贸泽电子即日起开售ams OSRAM的Mira220全局快门图像传感器。此系列传感器为设计工程师提供了适用于工业机器视觉应用的2D和3D解决方案,如移动面部识别、智能家居和家电、QR扫描器、AR/VR、无人机、智能可穿戴设备、结构
    的头像 发表于 04-28 14:25 942次阅读
    <b class='flag-5'>全局</b>快门<b class='flag-5'>图像</b>传感器