0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CNN结构基本情况

新机器视觉 来源:人工智能感知信息处理算 作者:人工智能感知信息 2022-07-05 11:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

深度学习机器学习算法研究中新开辟的研究方向,在图像领域的应用是最开始的尝试。近年以来,计算机视觉领域和 CNN 网络结构的不断更新发展,出现了一批代表性的深度卷积神经网络。本章节主要介绍目标检测算法 YOLO 系列借鉴了设计思想的这些框架,分别是:Le Net、Alex Net、VGG、Goog Le Net和 Res Net。表 1 所示,介绍了代表性的 CNN 结构基本情况。

a240625c-fc14-11ec-ba43-dac502259ad0.png

1 LeNet

LeNet 卷积神经网络是由深度学习三巨头之一的 Yan Le Cun于 1994 年提出来的。其对构建的 MNIST手写字符数据集进行分类。LeNet 的提出确立了 CNN 的基本网络架构。如下图所示,Le Net 通过输入32 ×32 字符矩阵经过卷积层、下采样层、全连接层进行图像的分类识别。但因为当时硬件技术的局限性和训练数据的不丰富性,Le Net 模型的运算效果并不是特别突出,但此特征网络的提出,为后续 Alex Net 的出现提供了重要的参考。

a2548bce-fc14-11ec-ba43-dac502259ad0.png

2 Alex Net

Alex Net的出现,标志着深度卷积神经网络开启了创新的新时代。之前由于硬件技术的局限性,CNN的学习能力、图像分类能力有限,而在 2012 年提出的卷积神经网络 Alex Net 采用了两个 GPU(NVIDIA GTX 580)来训练模型,然后将两个 GPU 上的特征图进行合并,采用的数据集是 Image Net(1500 多万个标记的图像,2.2万个类别),并在2012 ILSVRC大赛以优异的性能在计算机视觉领域展现了自己的实力。如图下图所示,Alex Net 的网络结构包括 5 层卷积、3 层池化和 3 层全连接,特征提取能力得到了提高,对大规模的数据集有更好的拟合能力。并且,在训练阶段,通过在模型随机的添加几个转换单元来确保网络具有较好的鲁棒性。其结构创新的要点为:

(1)使用 Re LU 作为非线性激活函数,减少梯度消失现象,提高收敛率,减少训练时间。

(2)使用大尺寸卷积核(5×5和11×11),提高网络感受野。 (3)加入 Drop Out 层抑制过拟合。 (4)使用数据增强技术,对图像进行训练时,随机的添加平移缩放、裁剪旋转、翻转或增减亮度等操作,产生一系列和输入图像相似但又不相同的数据,从而扩充了训练的数据集。

a29573b4-fc14-11ec-ba43-dac502259ad0.png

3 VGG

VGG(Visual Geometry Group)多层网络模型,比 Alex Net 和 Zef Net 的深度多了 19 层,验证了在网络结构上增加深度可以直接影响模型性能。VGG 有两种结构,分为 VGG16 和 VGG19,这二者的区别只在于网路深度不同。VGG 的设计思想是增加网络深度,改用小尺寸的卷积核。如下图所示,具体操作为:采用 3 个3×3 卷积核来替换 Alex Net 中的 7×7 卷积核,采用 2 个3×3 卷积核替换5×5卷积核,这样的设计可以在保证具有相同感受野的前提下,增加网络深度,提升模型效果,且改用小的3×3 Filters 可减少模型参数量和运算量,可以更好地保留图像特征信息。具体的改进优点总结为以下几点:

(1)采用3×3 小滤波器替换大尺寸卷积核

(2)替换卷积核后,卷积层的感受野相同

(3)每层卷积操作后通过 Re LU 激活函数和批处理梯度下降训练

(4)验证了增加网络深度,可以提升模型性能 虽然,VGG 在 2014 年因其更深的网络结构和计算低复杂度的优势,使其在图像分类和定位问题上取得了很好地成绩,但它使用了 1.4 亿个参数,计算量很大,这是它的不足之处。

a2b9b706-fc14-11ec-ba43-dac502259ad0.png

4 Goog Le Net

Goog Le Net是由 Google 提出的,获得了 Image Net 大赛冠军。其架构设计的核心是在保证高水准的精确性 Inception 的目标前提下,降低模型的计算成本。与 VGG 相比,Goog Le Net 是一个网络深度为 22 层的卷积神经网络,它不以传统 CNN 卷积层的串联堆叠为架构基础,而是创新的提出了 Inception 结构,用NIN(Networkin-Network)替换普通卷积层。如下图所示,该结构包含了 5×5 、 3×3 、1×1 滤波器,以便于在不同空间分辨率范围内捕捉通道信息和空间特征,添加一个1×1滤波器,作为 Bottle Neck ,来提高网络的效率,提升模型学习特征的能力。使用平均池化层代替全连接层,将 7×7×1024 的体积降到了 1×1×1024 ,减少了大量的参数。此外,Goog Le Net 还提出了辅助分类器 Soft Max,以加快收敛速度。但 Goog Le Net 也有短板,其表征堵塞会减少下一层的特征空间,反过来又可能会丢失有用的特征。

a2e83680-fc14-11ec-ba43-dac502259ad0.png

5 Res Net

Res Net(Residual Network)残差网络是 Kaiming He提出来的,并在 2015 ILSVRC 大赛以 3.57%的错误率获得了冠军。在之前的网络中,当模型深度不够,其网络识别能力不强,但当网络堆叠(Plain Network)很深的时候,网络梯度消失和梯度弥散现象明显,导致模型的运算效果却不升反降。因此,鉴于此深层网络的退化问题,Res Net 设计了一个不存在梯度消失问题的超深度网络。Res Net 根据层数的不同,从 18 层到 1202 层,有多种类型。以 Res Net50 为例,它由 49 个卷积层和 1 个全连接层组成,如下图所示。这种简单的加法并不会给网络增加额外的参数和计算量,同时却可以大大增加模型的训练速度、提高训练效果,并且当模型的层数加深时,这个简单的结构能够很好的解决退化问题。Res Net 提出了短径连接,当网络性能已达到最优,继续加深网络,残差映射将被设置为 0,只剩下恒等映射,加速网络收敛,这样就可以使得网络一直处于最优状态了,网络的性能也就不会随着深度增加而降低了。

a319b21e-fc14-11ec-ba43-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106783
  • 图像分类
    +关注

    关注

    0

    文章

    96

    浏览量

    12412
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123899

原文标题:图像分类模型的发展

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    控制结构介绍

    1. 顺序结构:按照代码的书写顺序,逐行执行程序。这是最基本的程序结构。 2. 选择结构:根据条件判断的结果,选择执行不同的代码块。常见的选择结构有if语句和switch语句。 3
    发表于 11-24 06:43

    C语言结构体使用

    有时候需要将不同类型的数据组合为一个整体,以便于引用。例如,一名学生有学号、姓名、性别、年龄等属性,如果针对每个属性都单独定义一个变量,那么当有多名学生时变量就难以分清。结构体就是用来管理不同类
    发表于 11-12 08:30

    CNN卷积神经网络设计原理及在MCU200T上仿真测试

    CNN算法简介 我们硬件加速器的模型为Lenet-5的变型,网络粗略分共有7层,细分共有13层。包括卷积,最大池化层,激活层,扁平层,全连接层。下面是各层作用介绍: 卷积层:提取特征。“不全
    发表于 10-29 07:49

    构建CNN网络模型并优化的一般化建议

    通过实践,本文总结了构建CNN网络模型并优化的一般化建议,这些建议将会在构建高准确率轻量级CNN神经网络模型方面提供帮助。 1)避免单层神经网络:我们清楚神经网络本身是需要不断抽象出更高级别的纹理
    发表于 10-28 08:02

    淘宝图片搜索接口开发实战:从 CNN 特征提取到商品匹配(附避坑手册 + 可复用代码)

    本文详解淘宝图片搜索接口开发全流程,涵盖CNN特征提取、商品匹配、参数配置及400/429等高频报错解决方案,附合规避坑指南与可复用代码,助你高效实现图像搜商品功能。
    的头像 发表于 10-21 10:03 260次阅读

    定义IO初始化结构

    由上述IOPORT相关功能的枚举类型我们可以知道,在对IOPORT模块进行初始化时需要根据情况配置它们。因此我们定义一个IOPORT初始化的结构体类型IOPORT_Init_t,它的成员包括了由上述所有枚举类型所声明的变量,因此该结构
    的头像 发表于 07-16 16:26 1105次阅读

    【高云GW5AT-LV60 开发套件试用体验】基于开发板进行深度学习实践,并尽量实现皮肤病理图片的识别,第四阶段

    接第三阶段,上次说道要将cnn这个模块接入到高云自带的视频实例里面,于是就开始学习和了解这个实例里面的每个模块的功能,后来发现,除了要看一下高云自己的ip文档外,还要看很多视频处理相关的协议文档
    发表于 07-12 07:58

    【高云GW5AT-LV60 开发套件试用体验】基于开发板进行深度学习实践,并尽量实现皮肤病理图片的识别,第三阶段

    接上回,这次说一说第三阶段的进展,一直在想如何将cnn融合进高云以后的视频案例里面,比如:下图 上面图中文件之间的关系应该是这样的: 一、 完整的视频数据处理流程 根据这些文件名,我们可以清晰地勾勒
    发表于 07-06 15:18

    【高云GW5AT-LV60 开发套件试用体验】基于开发板进行深度学习实践,并尽量实现皮肤病理图片的识别,第二阶段

    接上次的想法,纠结在继续用CNN还是yolo的时候,随着对这方面资料的不断了解,发现还是CNN这个结构比较基础,yolo要做的工作非常多,而且要求比较高,时间会比较长。 于是我就借助B站平台,跟着子
    发表于 06-23 18:37

    【高云GW5AT-LV60 开发套件试用体验】基于开发板进行深度学习实践,并尽量实现皮肤病理图片的识别

    。 `clahe.py 但是上面的代码和相关的逻辑暂时就停在这里了。 后来又过了几天,尝试一些有关cnn的实现。 记得在综合的时候要将这个文件里面的模块名替换一下: 上面虽然综合通过,但是还有一些警告。后面有时间的话
    发表于 06-11 22:35

    OCAD应用:单透镜与双胶合透镜结构组合设计

    n之间的对应关系。 有些系统因外形尺寸或像差分配要求的原因,一个单独的单透镜或双胶合透镜无法满足要求,必须进一步对结构要做复杂化处理,必须使用多透镜组合。在这种情况下由一个单透镜和一个双胶合透镜的组合
    发表于 06-06 08:55

    开关电源拓扑结构介绍

    PUSH-PULL 推挽电路HALF BRIDGE 半桥电路FULL BRIDGE 全桥电路SEPIC 电路 二、拓扑结构介绍(一)BUCK 降压电路 在不考虑带有寄生参数的RLGC模型的情况下,一般我们的计算步骤
    发表于 05-12 16:04

    基于Vision Board的巡检除冰机器人

    介绍一下这个项目的基本情况,这个项目是关于电力高架线巡检的,主要任务就是负责巡检和除冰,巡检的主要内容就是看看线路的情况,有没有比较基本的故障,比如接地短路,断线故障,或者是一些个杂物等等,有了杂物
    的头像 发表于 02-25 18:31 648次阅读
    基于Vision Board的巡检除冰机器人

    银河电气功率分析仪的基本情况及如何搭配合适的传感器

    湖南银河电气WP4000变频功率分析仪是一款适用于变压器、整流器、逆变器、变频器等各类变流器及电机、电器产品的检试验、能效评测及谐波分析的宽频带、高精度功率分析仪,是电力电子技术、变频调速技术和新能源技术高速发展的必然产物和健康持续发展的重要基础仪器。 相比传统功率表,功率分析仪具备以下特性: 宽频带与高精度:支持从直流到兆赫兹级的信号测量,精度可达0.05%级别(例如Hioki等品牌的高端型号)。 多参数分析:除基本电参数
    的头像 发表于 02-21 18:13 722次阅读
    银河电气功率分析仪的<b class='flag-5'>基本情况</b>及如何搭配合适的传感器

    二维周期光栅结构(菱形)光波导的应用

    : •周期:400纳米 •z方向延伸(沿z轴的调制深度):400nm •填充系数(非平行情况下底部或顶部):50% •倾斜角度:40º 总结—元件 具有非正交二维周期的菱形(菱形)光栅结构,通过定制接口
    发表于 01-23 10:37