0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

神经网络泛化问题

电子设计 来源:电子设计 作者:电子设计 2020-12-14 21:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

每当我们训练自己的神经网络时,我们都需要注意称为神经网络的泛化的问题。从本质上讲,这意味着我们的模型在从给定数据中学习以及将所学信息应用到其他方面有多出色。

在训练神经网络时,将有一些数据在神经网络上进行训练,并且还将保留一些数据以检查神经网络的性能。如果神经网络在尚未训练的数据上表现良好,那么可以说它在给定数据上的推理效果很好。让我们通过一个例子来理解这一点。

假设我们正在训练一个神经网络,该神经网络应该告诉我们给定图像是否有狗。假设我们有几只狗的图片,每只狗属于某个品种,并且这些图片中总共有12个品种。我将保留10个品种的狗的所有图像进行训练,而这2个品种的其余图像将暂时保留。

现在,在进入深度学习之前,让我们从人类的角度来看待这一点。让我们考虑一个一生中从未见过狗的人(仅举一个例子)。现在,我们将向人类展示10种狗,并告诉他们这是狗。此后,如果我们向他们展示其他2个品种,他们是否能够说出它们也是狗?希望他们能做到,十个品种应该足以理解和识别狗的独特特征。从某些数据学习并将获得的知识正确应用于其他数据的这种概念称为generalization(泛化)。

回到深度学习,我们的目标是使神经网络从给定的数据中尽可能有效地学习。如果我们成功地使神经网络了解到,其他2个品种都还狗,那么我们已经培养了非常general(一般的)神经网络,它会在现实世界中执行得很好。

这实际上说起来容易做起来难,而训练通用神经网络是深度学习从业人员最令人沮丧的任务之一。这是由于神经网络中的一种现象,即过度拟合。如果神经网络对10种犬进行训练,并且拒绝将其他2种犬归为狗,那么该神经网络就过度适合了训练数据。这意味着神经网络已经记住了那10种狗,并且只将它们视为狗。因此,它无法形成对狗长什么样的普遍了解。在训练神经网络的同时解决这个问题是我们在本文中要探讨的。

现在,我们实际上没有自由在像“繁殖”这样的基础上划分所有数据。相反,我们将简单地拆分所有数据。数据的一部分,通常是较大部分(大约80–90%)将用于训练模型,其余部分将用于测试模型。我们的目标是确保测试数据的性能与训练数据的性能大致相同。我们使用诸如损失和准确性之类的指标来衡量这一绩效。

我们可以控制神经网络的某些方面,以防止过度拟合。让我们一一介绍。首先是参数的数量。

参数数量

在神经网络中,参数的数量本质上是指权重的数量。这将与层数和每一层中神经元的数目成正比。参数和过度拟合的数量之间的关系如下:越多的参数,越容易导致过拟合。

我们需要根据复杂性来定义问题。一个非常复杂的数据集将需要一个非常复杂的函数来成功理解和表示它。从数学上讲,我们可以将复杂度与非线性相关联。让我们回想一下神经网络公式。

在此,W1,W2和W3是此神经网络的权重矩阵。现在,我们需要注意的是方程中的激活函数,该函数适用于每一层。由于具有这些激活功能,因此每一层都与下一层非线性连接。

第一层的输出为f(W/_1 * X)(设L1),第二层的输出为f(W/_2 * L1)。如您所见,由于激活函数(f),第二层的输出与第一层具有非线性关系。因此,在神经网络的末端,最终值Y相对于输入X具有一定程度的非线性,具体取决于神经网络中的层数。

层的数量越多,越多的激活函数扰乱层之间的线性度,并且因此更加非线性。

由于这种关系,我们可以说,如果神经网络在每一层中具有更多的层和更多的节点,它将变得更加复杂。因此,我们需要根据数据的复杂性来调整参数。除了重复实验和比较结果外,没有确定的方法。

在给定的实验中,如果测试指标远低于训练指标,则模型具有过拟合,这意味着神经网络对于给定的数据具有太多的参数。这基本上意味着神经网络对于给定的数据来说太复杂了,需要简化。如果测试分数与训练分数大致相同,则该模型已经generalized,但这并不意味着我们已经达到了神经网络的最大潜力。如果我们增加参数,性能将会提高,但也可能会过拟合。因此,我们需要继续尝试通过平衡性能和泛化来优化参数数量。

我们需要将神经网络的复杂度与数据复杂度相匹配。如果神经网络太复杂,它将开始记忆训练数据,而不是对数据有一般的了解,从而导致过拟合。

通常,深度学习从业人员如何做到这一点是首先训练具有足够大量参数的神经网络,以使模型过拟合。因此,最初,我们尝试获得一个非常适合训练数据的模型。接下来,我们尝试迭代地减少参数的数量,直到模型停止过度拟合为止,这可以视为一种最佳的神经网络。我们可以用来防止过度拟合的另一种技术是使用dropout神经元。

dropout神经元

在神经网络中,添加dropout神经元是减少神经网络过度拟合的最流行,最有效的方法之一。基本上网络中的每个神经元都有一定的概率从网络中完全退出。这意味着在特定时刻,某些神经元将不会连接到网络中的任何其他神经元。这是一个视觉示例:

在训练过程中的每一个瞬间,一组不同的神经元将以随机的方式掉落。因此,我们可以说在每个时刻,我们都在有效地训练某个神经网络比原始神经网络少的某个子集神经网络。由于辍学神经元的随机性质,该子神经网络每次都会改变。

实际上,这里发生的是,当我们训练带有缺失神经元的神经网络时,我们基本上是在训练许多较小的子集神经网络,并且由于权重是原始神经网络的一部分,因此神经网络的最终权重可以视为所有相应子集神经网络权重的平均值。这是正在发生的事情的基本可视化:

这就是dropout神经元在神经网络中的工作方式,但是为什么dropout会阻止过度拟合?这有两个主要原因。

第一个原因是dropout的神经元促进神经元独立。由于在特定瞬间可能存在或不存在围绕特定神经元的神经元这一事实,因此该神经元不能依赖于围绕其的那些神经元。因此,它会被迫成为更独立,同时训练。

第二个原因是由于dropout,我们实质上是一次训练多个较小的神经网络。通常,如果我们训练多个模型并求平均权重,则由于每个神经网络的独立学习的积累,性能通常会提高。但是,这是一个昂贵的过程,因为我们需要定义多个神经网络并分别进行训练。但是,在辍学的情况下,这也做同样的事情,而我们只需要一个神经网络,就可以从中训练子神经网络的多种可能配置。

训练多个神经网络并汇总其学习知识称为“集合”,通常可以提高性能。使用dropout本质上是在只有1个神经网络的情况下实现的。

减少过度拟合的下一种技术是权重正则化。

权重正则化

在训练神经网络时,某些权重的值可能会变得非常大。发生这种情况是因为这些权重集中在训练数据中的某些特征上,这导致它们在整个训练过程中价值不断增加。因此,网络过度适合训练数据。

我们不需要不断增加权重来捕获特定模式。相反,如果它们的值相对于其他权重较高,则很好。但是,在训练过程中,当神经网络通过多次迭代对数据进行训练时,权重值可能会不断增加,直到权重变大为止,这是不必要的。

为什么权重过大对神经网络不利的其他原因之一是由于增加的输入输出差异。基本上,当出现网络中的巨大权重,这是非常容易对小的变化的输入,但神经网络应该基本输出同样的事情了类似的投入。当我们拥有巨大的权重时,即使我们保留两个非常相似的单独的数据输入,它们的输出也可能有很大的不同。这会导致在测试数据上发生许多错误的预测,从而降低了神经网络的通用性。

神经网络中权重的一般规则是,神经网络中的权重越高,神经网络越复杂。因此,具有较高权重的神经网络通常趋于过拟合。

因此,基本上,我们需要限制权重的增长,以使权重不会增长太多,但是我们到底该如何做呢?神经网络尝试将训练时的损失降到最低,因此我们可以尝试在该损失函数中包括权重的一部分,以便在训练时权重也被最小化,但是当然要优先考虑减少损失。

有两种执行此操作的方法,称为L1和L2正则化。在L1中,我们只占网络中所有权重绝对值之和的一小部分。在L2中,我们在网络中权重的所有平方值的总和中占一小部分。我们只是将此表达式添加到神经网络的整体损失函数中。公式如下:

在这里,lambda是一个允许我们改变权重变化程度的值。我们基本上只是将L1或L2项添加到神经网络的损失函数中,以便网络也将尝试最小化这些项。通过添加L1或L2正则化,网络将限制其权重的增长,因为权重的大小是损失函数的一部分,并且网络始终尝试使损失函数最小化。让我们重点介绍L1和L2之间的一些区别。

使用L1正则化时,虽然权重因正则化而减小,但L1尝试将其完全降低到零。因此,对神经网络贡献不大的不重要权重最终将变为零。但是,在L2的情况下,由于平方函数对于小于1的值成反比例,因此权重不会被推为零,而是被推为较小的值。因此,不重要的权重比其他权重要低得多。

这涵盖了防止过度拟合的重要方法。在深度学习中,我们通常混合使用这些方法来改善神经网络的性能并改善模型的泛化性。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106824
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123921
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NMSIS神经网络库使用介绍

    :   神经网络卷积函数   神经网络激活函数   全连接层函数   神经网络函数   Softmax 函数   神经网络支持功能
    发表于 10-29 06:08

    构建CNN网络模型并优化的一般建议

    通过实践,本文总结了构建CNN网络模型并优化的一般建议,这些建议将会在构建高准确率轻量级CNN神经网络模型方面提供帮助。 1)避免单层神经网络:我们清楚
    发表于 10-28 08:02

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    , batch_size=512, epochs=20)总结 这个核心算法中的卷积神经网络结构和训练过程,是用来对MNIST手写数字图像进行分类的。模型将图像作为输入,通过卷积和池层提取图像的特征,然后通过全连接层进行分类预测。训练过程中,模型通过最小
    发表于 10-22 07:03

    CICC2033神经网络部署相关操作

    读取。接下来需要使用扩展指令,完成神经网络的部署,此处仅对第一层卷积+池的部署进行说明,其余层与之类似。 1.使用 Custom_Dtrans 指令,将权重数据、输入数据导入硬件加速器内。对于权重
    发表于 10-20 08:00

    液态神经网络(LNN):时间连续性与动态适应性的神经网络

    1.算法简介液态神经网络(LiquidNeuralNetworks,LNN)是一种新型的神经网络架构,其设计理念借鉴自生物神经系统,特别是秀丽隐杆线虫的神经结构,尽管这种微生物的
    的头像 发表于 09-28 10:03 711次阅读
    液态<b class='flag-5'>神经网络</b>(LNN):时间连续性与动态适应性的<b class='flag-5'>神经网络</b>

    神经网络压缩框架 (NNCF) 中的过滤器修剪统计数据怎么查看?

    无法观察神经网络压缩框架 (NNCF) 中的过滤器修剪统计数据
    发表于 03-06 07:10

    BP神经网络与卷积神经网络的比较

    多层。 每一层都由若干个神经元构成,神经元之间通过权重连接。信号在神经网络中是前向传播的,而误差是反向传播的。 卷积神经网络(CNN) : CNN主要由卷积层、池
    的头像 发表于 02-12 15:53 1335次阅读

    BP神经网络的实现步骤详解

    BP神经网络的实现步骤主要包括以下几个阶段:网络初始、前向传播、误差计算、反向传播和权重更新。以下是对这些步骤的详细解释: 一、网络初始
    的头像 发表于 02-12 15:50 1136次阅读

    BP神经网络的优缺点分析

    自学习能力 : BP神经网络能够通过训练数据自动调整网络参数,实现对输入数据的分类、回归等任务,无需人工进行复杂的特征工程。 能力强 : BP
    的头像 发表于 02-12 15:36 1603次阅读

    什么是BP神经网络的反向传播算法

    BP神经网络的反向传播算法(Backpropagation Algorithm)是一种用于训练神经网络的有效方法。以下是关于BP神经网络的反向传播算法的介绍: 一、基本概念 反向传播算法是BP
    的头像 发表于 02-12 15:18 1294次阅读

    BP神经网络与深度学习的关系

    ),是一种多层前馈神经网络,它通过反向传播算法进行训练。BP神经网络由输入层、一个或多个隐藏层和输出层组成,通过逐层递减的方式调整网络权重,目的是最小
    的头像 发表于 02-12 15:15 1362次阅读

    BP神经网络的基本原理

    BP神经网络(Back Propagation Neural Network)的基本原理涉及前向传播和反向传播两个核心过程。以下是关于BP神经网络基本原理的介绍: 一、网络结构 BP神经网络
    的头像 发表于 02-12 15:13 1543次阅读

    BP神经网络在图像识别中的应用

    BP神经网络在图像识别中发挥着重要作用,其多层结构使得网络能够学习到复杂的特征表达,适用于处理非线性问题。以下是对BP神经网络在图像识别中应用的分析: 一、BP神经网络基本原理 BP
    的头像 发表于 02-12 15:12 1196次阅读

    深度学习入门:简单神经网络的构建与实现

    / (1 + np.exp(-x))   定义神经网络的结构和参数初始: 收起 python   # 输入层节点数input_size = 2# 隐藏层节点数hidden_size = 3# 输出层节点数output
    的头像 发表于 01-23 13:52 856次阅读

    人工神经网络的原理和多种神经网络架构方法

    在上一篇文章中,我们介绍了传统机器学习的基础知识和多种算法。在本文中,我们会介绍人工神经网络的原理和多种神经网络架构方法,供各位老师选择。 01 人工神经网络   人工神经网络模型之所
    的头像 发表于 01-09 10:24 2270次阅读
    人工<b class='flag-5'>神经网络</b>的原理和多种<b class='flag-5'>神经网络</b>架构方法