预测深度神经网络泛化性能差异-电子发烧友网

深度神经网络 (DNN) 是近年来机器学习研究进展的基础，也是在图像识别、图像分割、机器翻译等诸多领域能够取得突破性进展的重要原因。

尽管 DNN 无处不在，研究人员仍在尝试全面了解深度神经网络的基本原理。例如，传统理论（如 VC 维和 Rademacher 复杂度）认为：在处理未知数据时，过参数化函数 (over-parameterized functions) 的泛化能力较差；但在近期研究中却发现，大规模过参数化的函数（参数比数据点多出几个数量级）却拥有出色的泛化能力，更深层次地地理解泛化对于理论的落地和DNN理论的实现从而改进模型是很有必要的。

在理解泛化之前，我们需了解 Generalization Gap（泛化性能差异）这一重要概念。泛化性能差异即模型针对相同分布的训练数据和未知数据所表现出的性能差异。在致力获得更好的 DNN 泛化边界（即泛化性能差异的上限）的过程中，研究人员取得了重大进展。但是，这类边界通常仍会大大高估真实的泛化性能差异水平，并且无法解释部分模型为何具有出色的泛化能力。

另一方面，研究人员基于支持向量机 (support-vector machines) 等浅层模型对边缘 (notion) 概念（即数据点与决策边界之间的距离）进行了大量研究，最终发现此概念与模型针对未知数据所表现出的泛化能力密切相关。基于此项发现，研究人员已将使用边缘研究泛化性能差异的方法拓展至 DNN 领域，从而使泛化性能差异的理论上限得到了高度优化，但此方式并未能显著提高泛化模型的预测能力。

注：理论上限链接

支持向量机决策边界示例。w∙x-b=0 定义的超平面是此线性分类器的“决策边界”，即在该线性分类器下，超平面上的每个点 x 在任一类中的可能性相等。

在 ICLR 2019 论文《使用边缘分布预测深度网络的泛化性能差异》(Predicting the Generalization Gap in Deep Networks with Margin Distributions) 中，我们提议在各层网络上使用标准化的边缘分布 (Normalized Margin Distribution) 来预测泛化性能差异。

我们通过实践研究了边缘分布与泛化之间的关系，最终发现在对距离进行适当标准化 (Normalization) 后，边缘分布的一些基本数据可以准确预测泛化性能差异。此外，我们还通过 GitHub 代码库将所有模型作为数据集公开发布，以便您进行泛化研究。

每张图均对应一个基于 CIFAR-10 训练的卷积神经网络（分类准确率各不相同）。三个模型各有差异，从左至右，泛化能力逐渐增强。其中，x 轴表示 4 个层的神经网络标准化边缘分布，y 轴表示此分布的概率密度。标准化的边缘分布与测试准确率密切相关，这表明我们可以将此类分布用作预测网络 Generalization Gap（泛化性能差异）的指标。如需了解这些神经网络的更多详情，请参阅我们的论文。

边缘分布作为泛化性能差异的预测指标

如果边缘分布统计数据可以真实预测泛化性能差异，那么简单的预测方案应能建立起二者的关系。

因此，我们选择使用线性回归作为预测指标。我们发现，在对边缘分布统计数据进行对数转换后，转换后的数据与泛化性能差异之间几乎完全呈线性关系（参见下图）。事实上，相较于其他现有的泛化测量方法，我们提出的方案可提供更准确的预测。这表明，边缘分布可能包含与深度模型泛化性能差异相关的重要信息。

基于 CIFAR-100 和 ResNet-32 得出的 Generalization Gap 预测值（x 轴）与实际值（y 轴）关系图。数据点的分布趋近于贴近对角线，这表明该对数线性模型的预测值非常符合实际的 Generalization Gap 水平。

深度模型泛化数据集

除论文之外，我们还介绍了深度模型泛化 (DEMOGEN) 数据集。该数据集包含 756 个经过训练的深度模型，以及这些深度模型在 CIFAR-10 和 CIFAR-100 数据集上的训练与及测试表现。这些模型均为 CNN（所用架构类似于“网络中的网络”(Network-in-Network)）和 ResNet-32 的变体，它们采用当下流行的各类正则化技术和超参数设置，因而也产生了广泛的泛化行为。

例如，基于 CIFAR-10 训练的 CNN 模型的测试准确率在 60% 至 90.5% 之间，泛化性能差异率则介于 1% 至 35% 之间。如需了解数据集详情，请查看我们的论文或 GitHub 代码库。发布数据集时，我们还为其添加了许多实用程序，以便您能够轻松加载模型，并重现论文中所展示的结果。

我们希望本次研究和 DEMOGEN 数据集能为社区提供便利工具，让社区成员无需重新训练大量模型，即可研究深度学习领域的泛化问题而提供便利工具。同时，我们也希望本次研究成果能够提供助力，以帮助我们日后对隐藏层中的泛化性能差异预测指标和边缘分布进行更加深入的研究。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4564

浏览量
98647
机器学习

机器学习

+关注

关注
66

文章
8096

浏览量
130520

原文标题：预测深度神经网络泛化性能差异

文章出处：【微信号：tensorflowers，微信公众号：Tensorflowers】欢迎添加关注！文章转载请注明出处。

详解深度学习、神经网络与卷积神经网络的应用

在如今的网络时代，错综复杂的大数据和网络环境，让传统信息处理理论、人工智能与人工神经网络都面临巨大的挑战。近些年，深度学习逐渐走进人们的视线，通过深

发表于 01-11 10:51 •699次阅读

浅析深度神经网络压缩与加速技术

深度神经网络是深度学习的一种框架，它是一种具备至少一个隐层的神经网络。与浅层神经网络类似

发表于 10-11 09:14 •386次阅读

人工神经网络和bp神经网络的区别

人工神经网络和bp神经网络的区别人工神经网络（Artificial Neural Network, ANN）是一种模仿人脑神经元网络结构和功能的计算模型，也被称为

发表于 08-22 16:45 •3408次阅读

cnn卷积神经网络模型卷积神经网络预测模型生成卷积神经网络模型

cnn卷积神经网络模型卷积神经网络预测模型生成卷积神经网络模型卷积神经网络（Convolutional Neural Network

发表于 08-21 17:11 •794次阅读

卷积神经网络和深度神经网络的优缺点卷积神经网络和深度神经网络的区别

深度神经网络是一种基于神经网络的机器学习算法，其主要特点是由多层神经元构成，可以根据数据自动调整神经元之间的权重，从而实现对大规模数据进行

发表于 08-21 17:07 •2225次阅读

卷积神经网络是什么？卷积神经网络的工作原理和应用

　　卷积神经网络(Convolutional Neural Network，CNN)是一种深度学习神经网络，主要用于图像和视频的识别、分类和预测，是计算机视觉领域中应用最广泛的

发表于 08-21 17:03 •1171次阅读

卷积神经网络的基本原理卷积神经网络发展卷积神经网络三大特点

卷积神经网络的基本原理卷积神经网络发展历程卷积神经网络三大特点卷积神经网络的基本原理卷积神经网络（Convolutional Ne

发表于 08-21 16:49 •1417次阅读

卷积神经网络计算公式

积神经网络计算公式 神经网络是一种类似于人脑的神经系统的计算模型，它是一种可以用来进行模式识别、分类、预测等任务的强大工具。在深度学习领域，

发表于 08-21 16:49 •1187次阅读

卷积神经网络模型原理卷积神经网络模型结构

卷积神经网络模型原理卷积神经网络模型结构卷积神经网络是一种深度学习神经网络，是在图像、语音、文本和视频等方面的任务中最有效的

发表于 08-21 16:41 •651次阅读

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点卷积神经网络（Convolutional neural network，CNN）是一种基于

发表于 08-21 16:41 •1913次阅读

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法

一。其主要应用领域在计算机视觉和自然语言处理中，最初是由Yann LeCun等人在20世纪80年代末和90年代初提出的。随着近年来计算机硬件性能的提升和深度学习技术的发展，CNN在很多领域取得了重大的进展和应用。一、卷积神经网络

发表于 08-17 16:30 •893次阅读

什么是神经网络？为什么说神经网络很重要？神经网络如何工作？

神经网络是一个具有相连节点层的计算模型，其分层结构与大脑中的神经元网络结构相似。神经网络可通过数据进行学习，因此，可训练其识别模式、对数据分类和预测未来事件。

发表于 07-26 18:28 •1887次阅读

浅析三种主流深度神经网络

来源：青榴实验室1、引子深度神经网络(DNNs)最近在图像分类或语音识别等复杂机器学习任务中表现出的优异性能令人印象深刻。在本文中，我们将了解深度神

发表于 05-17 09:59 •1051次阅读

浅析三种主流深度神经网络

来源：青榴实验室 1、引子深度神经网络(DNNs)最近在图像分类或语音识别等复杂机器学习任务中表现出的优异性能令人印象深刻。在本文中，我们将了解深度

发表于 05-15 14:20 •600次阅读

三个最流行神经网络

在本文中，我们将了解深度神经网络的基础知识和三个最流行神经网络：多层神经网络(MLP)，卷积神经网络(CNN)和递归

发表于 05-15 14:19 •1171次阅读