【连载】深度学习笔记5：正则化与dropout-电子发烧友网

在笔记 4 中，详细阐述了机器学习中利用正则化防止过拟合的基本方法，对 L1 和 L2 范数进行了通俗的解释。为了防止深度神经网络出现过拟合，除了给损失函数加上 L2 正则化项之外，还有一个很著名的方法——dropout.

废话少说，咱们单刀直入正题。究竟啥是 dropout ? dropout 是指在神经网络训练的过程中，对所有神经元按照一定的概率进行消除的处理方式。在训练深度神经网络时，dropout 能够在很大程度上简化神经网络结构，防止神经网络过拟合。所以，从本质上而言，dropout 也是一种神经网络的正则化方法。

假设我们要训练了一个 4 层（3个隐层）的神经网络，该神经网络存在着过拟合。于是我们决定使用 dropout 方法来处理，dropout 为该网络每一层的神经元设定一个失活（drop）概率，在神经网络训练过程中，我们会丢弃一些神经元节点，在网络图上则表示为该神经元节点的进出连线被删除。最后我们会得到一个神经元更少、模型相对简单的神经网络，这样一来原先的过拟合情况就会大大的得到缓解。这样说似乎并没有将 dropout 正则化原理解释清楚，我们继续深究一下：为什么 dropout 可以可以通过正则化发挥防止过拟合的功能？

因为 dropout 可以随时随机的丢弃任何一个神经元，神经网络的训练结果不会依赖于任何一个输入特征，每一个神经元都以这种方式进行传播，并为神经元的所有输入增加一点权重，dropout 通过传播所有权重产生类似于 L2 正则化收缩权重的平方范数的效果，这样的权重压缩类似于 L2 正则化的权值衰减，这种外层的正则化起到了防止过拟合的作用。

所以说，总体而言，dropout 的功能类似于 L2 正则化，但又有所区别。另外需要注意的一点是，对于一个多层的神经网络，我们的 dropout 某层神经元的概率并不是一刀切的。对于不同神经元个数的神经网络层，我们可以设置不同的失活或者保留概率，对于含有较多权值的层，我们可以选择设置较大的失活概率（即较小的保留概率）。所以，总结来说就是如果你担心某些层所含神经元较多或者比其他层更容易发生过拟合，我们可以将该层的失活概率设置的更高一些。

说了这么多，总算大致把 dropout 说明白了。那 dropout 这种操作在实际的 python 编程中该如何实现呢？以一个三层的神经网络为例，首先我们需要定义一个 3 层的 dropout 向量，然后将其与保留概率 keep-prob 进行比较生成一个布尔值向量，再将其与该层的神经元激活输出值进行乘积运算，最后扩展上一步的计算结果，将其除以 keep-prob 即可。但在实际编程中就没说的这么容易了，我们需要对整个神经网络的计算过程进行重新定义，包括前向传播和反向传播的计算定义。

含 dropout 的前向计算定义如下：

def forward_propagation_with_dropout(X, parameters, keep_prob = 0.5):
  np.random.seed(1)  # retrieve parameters
  W1 = parameters["W1"]
  b1 = parameters["b1"]
  W2 = parameters["W2"]
  b2 = parameters["b2"]
  W3 = parameters["W3"]
  b3 = parameters["b3"]  # LINEAR -> RELU -> LINEAR -> RELU -> LINEAR -> SIGMOID
  Z1 = np.dot(W1, X) + b1
  A1 = relu(Z1)

  D1 = np.random.rand(A1.shape[0], A1.shape[1])  
  D1 = D1 < keep_prob                             
    A1 = np.multiply(D1, A1)                         
    A1 = A1 / keep_prob                             

    Z2 = np.dot(W2, A1) + b2
    A2 = relu(Z2)

    D2 = np.random.rand(A2.shape[0], A2.shape[1])   
  D2 = D2 < keep_prob                             
    A2 = np.multiply(D2, A2)                       
    A2 = A2 / keep_prob                           
    Z3 = np.dot(W3, A2) + b3
    A3 = sigmoid(Z3)

    cache = (Z1, D1, A1, W1, b1, Z2, D2, A2, W2, b2, Z3, A3, W3, b3)    
  return A3, cache

以上代码基本体现了 dropout 的实现的四步流程。

含 dropout 的反向传播计算定义如下：

def backward_propagation_with_dropout(X, Y, cache, keep_prob):

  m = X.shape[1]
  (Z1, D1, A1, W1, b1, Z2, D2, A2, W2, b2, Z3, A3, W3, b3) = cache

  dZ3 = A3 - Y
  dW3 = 1./m * np.dot(dZ3, A2.T)
  db3 = 1./m * np.sum(dZ3, axis=1, keepdims = True)
  dA2 = np.dot(W3.T, dZ3)

  dA2 = np.multiply(dA2, D2)  
  dA2 = dA2 / keep_prob    

  dZ2 = np.multiply(dA2, np.int64(A2 > 0))
  dW2 = 1./m * np.dot(dZ2, A1.T)
  db2 = 1./m * np.sum(dZ2, axis=1, keepdims = True)

  dA1 = np.dot(W2.T, dZ2)

  dA1 = np.multiply(dA1, D1)  
  dA1 = dA1 / keep_prob      

  dZ1 = np.multiply(dA1, np.int64(A1 > 0))
  dW1 = 1./m * np.dot(dZ1, X.T)
  db1 = 1./m * np.sum(dZ1, axis=1, keepdims = True)

  gradients = {"dZ3": dZ3, "dW3": dW3, "db3": db3,"dA2": dA2,         "dZ2": dZ2, "dW2": dW2, "db2": db2, "dA1": dA1, 
         "dZ1": dZ1, "dW1": dW1, "db1": db1}  
  return gradients

在定义反向传播计算函数时，我们必须丢弃和执行前向传播时一样的神经元。
最后带有 dropout 的分类效果如下所示：

所以，总结而言，dropout 就是在正常的神经网络基础上给每一层的每一个神经元加了一道概率流程来随机丢弃某些神经元以达到防止过拟合的目的。

本文来自《自兴动脑人工智能》项目部：凯文。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43845

浏览量
230596
机器学习

机器学习

+关注

关注
66

文章
8122

浏览量
130556
深度学习

深度学习

+关注

关注
73

文章
5237

浏览量
119907

GPU在深度学习中的应用与优势

人工智能的飞速发展，深度学习作为其重要分支，正在推动着诸多领域的创新。在这个过程中，GPU扮演着不可或缺的角色。就像超级英雄电影中的主角一样，GPU在深度学习中拥有举足轻重的地位。那么

发表于 12-06 08:27 •714次阅读

GPU在<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中的应用与优势

深度学习的由来深度学习的经典算法有哪些

深度学习作为机器学习的一个分支，其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的

发表于 10-09 10:23 •358次阅读

<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的由来 <b class='flag-5'>深度</b><b class='flag-5'>学习</b>的经典算法有哪些

一文详解机器学习和深度学习的区别

深度学习这几年特别火，就像5年前的大数据一样，不过深度学习其主要还是属于机器学习的范畴领域内，所以这篇文章里面我们来唠一唠机器

发表于 09-06 12:48 •1339次阅读

一文详解机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的区别

机器学习和深度学习的区别

机器学习和深度学习的区别随着人工智能技术的不断发展，机器学习和深度学习已经成为大家熟知的两个术

发表于 08-17 16:11 •3382次阅读

深度学习服务器怎么做深度学习服务器diy 深度学习服务器主板用什么

深度学习服务器怎么做深度学习服务器diy 深度学习服务器主板用什么随着人工智能的飞速发展，

发表于 08-17 16:11 •540次阅读

深度学习框架和深度学习算法教程

深度学习框架和深度学习算法教程深度学习是机器学习领

发表于 08-17 16:11 •717次阅读

深度学习框架的作用是什么

深度学习框架的作用是什么深度学习是一种计算机技术，它利用人工神经网络来模拟人类的学习过程。由于其高度的精确性和精度，

发表于 08-17 16:10 •1166次阅读

深度学习框架是什么？深度学习框架有哪些？

深度学习框架是什么？深度学习框架有哪些？深度学习框架是一种软件工具，它可以帮助开发者轻松快速

发表于 08-17 16:03 •1771次阅读

什么是深度学习算法？深度学习算法的应用

什么是深度学习算法？深度学习算法的应用深度学习算法被认为是人工智能的核心，它是一种模仿人类大脑

发表于 08-17 16:03 •1477次阅读

深度学习是什么领域

深度学习是什么领域深度学习是机器学习的一种子集，由多层神经网络组成。它是一种自动学习技术，可

发表于 08-17 16:02 •1210次阅读

深度学习算法简介深度学习算法是什么深度学习算法有哪些

深度学习算法简介深度学习算法是什么?深度学习算法有哪些? 作为一种现代化、前沿化的技术，

发表于 08-17 16:02 •6809次阅读

深度学习的七种策略

深度学习的七种策略深度学习已经成为了人工智能领域的热门话题，它能够帮助人们更好地理解和处理自然语言、图形图像、语音等各种数据。然而，要想获得最好的效果，只是使用

发表于 08-17 16:02 •1306次阅读

AI、机器学习和深度学习的区别及应用

深度学习和神经网络的区别在于隐藏层的深度。一般来说，神经网络的隐藏层要比实现深度学习的系统浅得多，而深度

发表于 07-28 10:44 •325次阅读

PyTorch教程-12.1. 优化和深度学习

12.1. 优化和深度学习¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax

发表于 06-05 15:44 •354次阅读

智造之眼丨深度学习应用

智造之眼®科学设计深度学习各应用流程，在尽量简化前期准备工作的基础上为客户提供稳定且准确的深度学习解决方案。

发表于 05-04 16:55 •472次阅读

搜索历史

【连载】深度学习笔记5：正则化与dropout

评论