电子发烧友网>电子资料下载>人工智能>如何使用深度卷积神经网络进行ImageNet数据库的分类

如何使用深度卷积神经网络进行ImageNet数据库的分类

2474220 2019-12-03 | rar | 1.54 MB | 次下载 | 免费

资料介绍

　　我们训练了一个大型的深度卷积神经网络，来将在ImageNet LSVRC-2010 大赛中的120万张高清图像分为1000 个不同的类别。对测试数据，我们得到了top-1 误差率37.5%，以及top-5 误差率17.0%，这个效果比之前最顶尖的都要好得多。该神经网络有6000 万个参数和650，000 个神经元，由五个卷积层，以及某些卷积层后跟着的max-pooling 层，和三个全连接层，还有排在最后的1000-way 的softmax 层组成。为了使训练速度更快，我们使用了非饱和的神经元和一个非常高效的GPU 关于卷积运算的工具。为了减少全连接层的过拟合，我们采用了最新开发的正则化方法，称为“ dropout”，它已被证明是非常有效的。在ILSVRC-2012 大赛中，我们又输入了该模型的一个变体，并依靠top-5 测试误差率15.3%取得了胜利，相比较下，次优项的错误率是26.2%。

　　1 引言

　　当前物体识别的方法基本上都使用了机器学习方法。为了改善这些方法的性能，我们可以收集更大的数据集，学习更强有力的模型，并使用更好的技术，以防止过拟合。直到最近，标记图像的数据集都相当小——大约数万张图像（例如，NORB ［16］，Caltech-101/256［8， 9］，以及CIFAR-10/100 ［12］）。简单的识别任务可以用这种规模的数据集解决得相当好，特别是当它们用标签-保留转换增强了的时候。例如，在MNIST 数字识别任务中当前最好的误差率（《0.3%）接近于人类的表现［4］。但是现实环境中的物体表现出相当大的变化，因此要学习它们以对它们进行识别就必须使用更大的训练集。事实上，小规模图像数据集的缺陷已被广泛认同（例如， Pinto 等人［21］），但是直到最近，收集有着上百万张图像的带标签数据集才成为可能。更大型的新数据集包括LabelMe ［23］，它由几十万张完全分割图组成，还有ImageNet ［6］，它由多于22，000个种类中超过1500 万张带标签的高分辨率图像组成。

　　为了从几百万张图像中学习数以千计的物体，我们需要一个学习能力更强的模型。然而，物体识别任务的极大复杂性意味着这个问题不能被指定，即使是通过与ImageNet一样大的数据集，所以我们的模型中也应该有大量的先验知识，以补偿我们所没有的全部数据。卷积神经网络（CNN）构成了一个这种类型的模型［16， 11， 13， 18， 15， 22， 26］。它们的能力可以通过改变其深度与广度得到控制，它们也可作出有关图像性质的强壮且多半正确的假设（即，统计数据的稳定性和像素依赖关系的局部性）。因此，与层次规模相同的标准前馈神经网络相比， CNN 的连接关系和参数更少，所以更易于训练，而其理论上的最佳性能可能只略差一点。不论CNN 的性质多有吸引力，也不论它们局部结构的相对效率有多高，将它们大规模地应用到高分辨率图像中仍然是极其昂贵的。幸运的是，目前的GPU 搭配了一个高度优化的2D 卷积工具，强大到足以促进大规模CNN 的训练，而且最近的数据集像ImageNet2包含足够的带标签的样例来训练这样的模型，还不会有严重的过拟合。本文的具体贡献如下：我们在ILSVRC-2010 和ILSVRC-2012 大赛中使用过的ImageNet的子集上［2］，训练了迄今为止最大型的卷积神经网络之一，并取得了迄今为止在这些数据集上报告过的最好结果。我们写了一个高度优化的GPU 二维卷积工具以及训练卷积神经网络过程中的所有其他操作，这些我们都提供了公开地址。我们的网络中包含一些既新鲜而又不同寻常的特征，它们提高了网络的性能，并减少了网络的训练时间，这些详见第3 节。我们的网络中甚至有120 万个带标签的训练样本，这么大的规模使得过拟合成为一个显著的问题，所以我们使用了几种有效的方法来防止过拟合，这些在第4 节中给以描述。我们最终的网络包含五个卷积层和三个全连接层，且这种层次深度似乎是重要的：我们发现，移去任何卷积层（其中每一个包含的模型参数都不超过1%）都会导致性能变差。

　　最后，网络的规模主要受限于当前GPU 的可用内存和我们愿意容忍的训练时间。我们的网络在两块GTX 580 3GB GPU 上训练需要五到六天。我们所有的实验表明，等更快的GPU 和更大的数据集可用以后，我们的结果就可以轻而易举地得到改进。