0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度解读对残差网络动机的理解

电子工程师 来源:Fenrier Lab 作者:Fenrier Lab 2021-04-27 15:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

神经网络以其强大的非线性表达能力而获得人们的青睐,但是将网络层数加深的过程中却遇到了很多困难,随着批量正则化,ReLU 系列激活函数等手段的引入,在多层反向传播过程中产生的梯度消失和梯度爆炸问题也得到了很大程度的解决。然而即便如此,随着网络层数的增加导致的拟合能力退化现象依然存在,如下图所示

100067238-136747-1.png

可以看到,训练误差和测试误差都随网络层数的增加而增加,可以排除过拟合造成的预测性能退化。所以这里存在一个逻辑上讲不通的问题,通常来说,我们认为神经网络可以学习出任意形状的函数,具体到这个问题上来,假如浅层网络可以获得一个不错的效果,那么理论上深层网络增加的额外层只需要学会恒等映射,即可获得与浅层网络相同的预测精度

100067238-136748-2.png

但实际情况根本不是这么回事儿,那么问题出在哪儿了呢?我们一厢情愿的认为中间层能够学会恒等映射,但事与愿违,这一假设不成立,也就是说,具有很强的非线性拟合能力的传统神经元结构却连最简单的恒等映射都模拟不了,抓住这一要点后,新的优化方向便映入眼帘了,既然这种交叉连接的神经元无法实现恒等映射,那么再增加一路恒等映射的连接不就行了

100067238-136749-3.png

这样一来,假如两层之间的恒等映射是最优解,就像之前提到的那种情况,那么只需要权重层,即图中的 weight layer,学会把所有的权重都设为 0 就行了,而这种学习任务是很简单的。

所以可以总结道,resnet 的提出是因为发现了普通的神经网络连接方式无法实现有效的恒等映射,于是额外增加了一路恒等连接层来辅助学习。体现在最终效果上就是说普通神经网络的连接方式更容易学习到残差,所以这种方式就被称为残差学习。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4846

    浏览量

    108383
  • 函数
    +关注

    关注

    3

    文章

    4423

    浏览量

    68045
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    半导体UV贴膜与解胶全流程深度复盘:如何实现0.11%以下胶率

    半导体UV贴膜与解胶全流程深度复盘:如何实现0.11%以下胶率? 摘要 本研究旨在深入剖析半导体UV贴膜与解胶全流程,以实现0.11%以下的超低胶率。通过系统研究晶圆表面清洁、表面处理、UV贴膜
    的头像 发表于 05-09 17:29 704次阅读

    瑞芯微(EASY EAI)RV1126B resnet50训练部署教程

    层堆叠得到的,但当网络堆叠到一定深度时,就会出现退化问题。网络的特点是容易优化,并且能够通过增加相当的
    的头像 发表于 05-08 10:36 6074次阅读
    瑞芯微(EASY EAI)RV1126B resnet50训练部署教程

    零基础手写大模型资料2026

    行代码,大模型的开发是理论创新与工程实践的深度融合。即使不依赖复杂框架,掌握注意力机制、连接等核心原理的开发者,也能通过基础代码实现模型原型,进而理解LoRA微调、量化压缩等高级技
    发表于 05-01 17:44

    人工智能-Python深度学习进阶与应用技术:工程师高培解读

    深度学习进阶的技术路线图,来分析解读一下从基础原理到前沿应用的多个关键节点。一、从基础到进阶:构建深度学习的完整认知深度学习的起点,是对神经网络
    的头像 发表于 04-21 11:01 469次阅读
    人工智能-Python<b class='flag-5'>深度</b>学习进阶与应用技术:工程师高培<b class='flag-5'>解读</b>

    千兆以太网低压大电流方案参考

    (8/20μs) 。 网络变压器特点:小体积, 低高度。匝数比1:1;开路电感 : 350 uH ;插入损耗: -1.1 dB Max,直流电阻1.3Ω。 1.初级侧接线: •分对连接:网络变压器
    发表于 03-16 16:14

    Transformer 入门:从零理解 AI 大模型的核心原理

    为什么需要? arduino 体验AI代码助手 代码解读 复制代码 问题:深度网络的\"梯度消失\" 想象传话游戏: 第1个人
    发表于 02-10 16:33

    LT1994:高性能全分输入/输出放大器的深度剖析

    LT1994:高性能全分输入/输出放大器的深度剖析 在电子设计领域,放大器作为信号处理的关键组件,其性能的优劣对整个系统的表现起着至关重要的作用。今天,我们将深入探讨Linear
    的头像 发表于 01-13 09:45 568次阅读

    Amphenol FlexTraX:创新电缆管理解决方案深度剖析

    Amphenol FlexTraX:创新电缆管理解决方案深度剖析 在电子设备和网络系统中,电缆管理一直是一个关键且具有挑战性的任务。合理的电缆管理不仅能提高系统的可靠性和可维护性,还能提升整体的美观
    的头像 发表于 12-11 14:50 591次阅读

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概念对非专业
    的头像 发表于 09-10 17:38 1130次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b>学习神经<b class='flag-5'>网络</b>

    基于瑞芯微RK3576的resnet50训练部署教程

    堆叠得到的,但当网络堆叠到一定深度时,就会出现退化问题。网络的特点是容易优化,并且能够通过增加相当的
    的头像 发表于 09-10 11:19 1526次阅读
    基于瑞芯微RK3576的resnet50训练部署教程

    TFT液晶显示屏为什么会显示影、如何解决

    TFT液晶屏(Thin-Film Transistor Liquid Crystal Display)显示影(也称为图像残留)是一个涉及物理和电子原理的现象。 一、为什么工业TFT液晶屏会出现
    发表于 09-08 09:04

    革命性神经形态微控制器 ​**Pulsar**​ 的深度技术解读

    以下是对荷兰公司Innatera推出的革命性神经形态微控制器 ​ Pulsar ​ 的深度技术解读,结合其架构设计、性能突破、应用场景及产业意义进行综合分析: 一、核心技术原理:神经形态架构的突破
    的头像 发表于 06-07 13:06 1982次阅读
    革命性神经形态微控制器 ​**Pulsar**​ 的<b class='flag-5'>深度</b>技术<b class='flag-5'>解读</b>

    瑞萨365 深度解读

    技术架构、核心功能、行业影响及未来展望四个维度进行深度解读: 一、技术架构:融合硬件与设计软件的跨领域协作平台 瑞萨365基于Altium 365云平台构建,整合了瑞萨的半导体产品组合与Altium的设计工具链,形成从芯片选型到系统部署的全流程数字环境。其核心架构围绕 五
    的头像 发表于 06-06 09:58 2718次阅读
    瑞萨365 <b class='flag-5'>深度</b><b class='flag-5'>解读</b>

    ARM Mali GPU 深度解读

    ARM Mali GPU 深度解读 ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,成为全球移动
    的头像 发表于 05-29 10:12 5159次阅读

    Arm 公司面向 PC 市场的 ​Arm Niva​ 深度解读

    面向 PC 市场的 ​ Arm Niva ​ 深度解读 ​ Arm Niva ​ 是 Arm 公司为 PC 市场推出的核心计算平台,属于其“平台优先”战略的关键布局。作为 ​ Arm 计算
    的头像 发表于 05-29 09:56 1985次阅读