0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

预测深度神经网络泛化性能差异

Tensorflowers 来源:YXQ 作者:h1654155287.6125 2019-07-28 10:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

深度神经网络 (DNN) 是近年来机器学习研究进展的基础,也是在图像识别、图像分割、机器翻译等诸多领域能够取得突破性进展的重要原因。

尽管 DNN 无处不在,研究人员仍在尝试全面了解深度神经网络的基本原理。例如,传统理论(如 VC 维和 Rademacher 复杂度)认为:在处理未知数据时,过参数化函数 (over-parameterized functions) 的泛化能力较差;但在近期研究中却发现,大规模过参数化的函数(参数比数据点多出几个数量级)却拥有出色的泛化能力,更深层次地地理解泛化对于理论的落地和DNN理论的实现从而改进模型是很有必要的。

在理解泛化之前,我们需了解 Generalization Gap(泛化性能差异)这一重要概念。泛化性能差异即模型针对相同分布的训练数据和未知数据所表现出的性能差异。在致力获得更好的 DNN 泛化边界(即泛化性能差异的上限)的过程中,研究人员取得了重大进展。但是,这类边界通常仍会大大高估真实的泛化性能差异水平,并且无法解释部分模型为何具有出色的泛化能力。

另一方面,研究人员基于支持向量机 (support-vector machines) 等浅层模型对边缘 (notion) 概念(即数据点与决策边界之间的距离)进行了大量研究,最终发现此概念与模型针对未知数据所表现出的泛化能力密切相关。基于此项发现,研究人员已将使用边缘研究泛化性能差异的方法拓展至 DNN 领域,从而使泛化性能差异的理论上限得到了高度优化,但此方式并未能显著提高泛化模型的预测能力。

注:理论上限 链接

支持向量机决策边界示例。w∙x-b=0 定义的超平面是此线性分类器的“决策边界”,即在该线性分类器下,超平面上的每个点 x 在任一类中的可能性相等。

ICLR 2019 论文《使用边缘分布预测深度网络的泛化性能差异》(Predicting the Generalization Gap in Deep Networks with Margin Distributions) 中,我们提议在各层网络上使用标准化的边缘分布 (Normalized Margin Distribution) 来预测泛化性能差异。

我们通过实践研究了边缘分布与泛化之间的关系,最终发现在对距离进行适当标准化 (Normalization) 后,边缘分布的一些基本数据可以准确预测泛化性能差异。此外,我们还通过 GitHub 代码库将所有模型作为数据集公开发布,以便您进行泛化研究。

每张图均对应一个基于 CIFAR-10 训练的卷积神经网络(分类准确率各不相同)。三个模型各有差异,从左至右,泛化能力逐渐增强。其中,x 轴表示 4 个层的神经网络标准化边缘分布,y 轴表示此分布的概率密度。标准化的边缘分布与测试准确率密切相关,这表明我们可以将此类分布用作预测网络 Generalization Gap(泛化性能差异)的指标。如需了解这些神经网络的更多详情,请参阅我们的论文。

边缘分布作为泛化性能差异的预测指标

如果边缘分布统计数据可以真实预测泛化性能差异,那么简单的预测方案应能建立起二者的关系。

因此,我们选择使用线性回归作为预测指标。我们发现,在对边缘分布统计数据进行对数转换后,转换后的数据与 泛化性能差异之间几乎完全呈线性关系(参见下图)。事实上,相较于其他现有的泛化测量方法,我们提出的方案可提供更准确的预测。这表明,边缘分布可能包含与深度模型泛化性能差异相关的重要信息。

基于 CIFAR-100 和 ResNet-32 得出的 Generalization Gap 预测值(x 轴)与实际值(y 轴)关系图。数据点的分布趋近于贴近对角线,这表明该对数线性模型的预测值非常符合实际的 Generalization Gap 水平。

深度模型泛化数据集

除论文之外,我们还介绍了深度模型泛化 (DEMOGEN) 数据集。该数据集包含 756 个经过训练的深度模型,以及这些深度模型在 CIFAR-10 和 CIFAR-100 数据集上的训练与及测试表现。这些模型均为 CNN(所用架构类似于“网络中的网络”(Network-in-Network))和 ResNet-32 的变体,它们采用当下流行的各类正则化技术和超参数设置,因而也产生了广泛的泛化行为。

例如,基于 CIFAR-10 训练的 CNN 模型的测试准确率在 60% 至 90.5% 之间,泛化性能差异率则介于 1% 至 35% 之间。如需了解数据集详情,请查看我们的论文或 GitHub 代码库。发布数据集时,我们还为其添加了许多实用程序,以便您能够轻松加载模型,并重现论文中所展示的结果。

我们希望本次研究和 DEMOGEN 数据集能为社区提供便利工具,让社区成员无需重新训练大量模型,即可研究深度学习领域的泛化问题而提供便利工具。同时,我们也希望本次研究成果能够提供助力,以帮助我们日后对隐藏层中的泛化性能差异预测指标和边缘分布进行更加深入的研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106783
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136229

原文标题:预测深度神经网络泛化性能差异

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NMSIS神经网络库使用介绍

    NMSIS NN 软件库是一组高效的神经网络内核,旨在最大限度地提高 Nuclei N 处理器内核上的神经网络性能并最​​大限度地减少其内存占用。 该库分为多个功能,每个功能涵盖特定类别
    发表于 10-29 06:08

    构建CNN网络模型并优化的一般化建议

    :Dropout层随机跳过神经网络模型中某些神经元之间的连接,通过随机制造缺陷进行训练提升整个神经网络的鲁棒性。 6)指定合理的学习率策略:一旦神经网络的准确率饱和,那么学习率应当
    发表于 10-28 08:02

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    模型。 我们使用MNIST数据集,训练一个卷积神经网络(CNN)模型,用于手写数字识别。一旦模型被训练并保存,就可以用于对新图像进行推理和预测。要使用生成的模型进行推理,可以按照以下步骤进行操作: 1.
    发表于 10-22 07:03

    液态神经网络(LNN):时间连续性与动态适应性的神经网络

    1.算法简介液态神经网络(LiquidNeuralNetworks,LNN)是一种新型的神经网络架构,其设计理念借鉴自生物神经系统,特别是秀丽隐杆线虫的神经结构,尽管这种微生物的
    的头像 发表于 09-28 10:03 689次阅读
    液态<b class='flag-5'>神经网络</b>(LNN):时间连续性与动态适应性的<b class='flag-5'>神经网络</b>

    神经网络的并行计算与加速技术

    问题。因此,并行计算与加速技术在神经网络研究和应用中变得至关重要,它们能够显著提升神经网络性能和效率,满足实际应用中对快速响应和大规模数据处理的需求。神经网络并行
    的头像 发表于 09-17 13:31 883次阅读
    <b class='flag-5'>神经网络</b>的并行计算与加速技术

    无刷电机小波神经网络转子位置检测方法的研究

    摘要:论文通过对无刷电机数学模型的推导,得出转角:与三相相电压之间存在映射关系,因此构建了一个以三相相电压为输人,转角为输出的小波神经网络来实现转角预测,并采用改进遗传算法来训练网络结构与参数,借助
    发表于 06-25 13:06

    使用BP神经网络进行时间序列预测

    使用BP(Backpropagation)神经网络进行时间序列预测是一种常见且有效的方法。以下是一个基于BP神经网络进行时间序列预测的详细步骤和考虑因素: 一、数据准备 收集数据 :
    的头像 发表于 02-12 16:44 1265次阅读

    BP神经网络与卷积神经网络的比较

    BP神经网络与卷积神经网络在多个方面存在显著差异,以下是对两者的比较: 一、结构特点 BP神经网络 : BP神经网络是一种多层的前馈
    的头像 发表于 02-12 15:53 1304次阅读

    如何优化BP神经网络的学习率

    优化BP神经网络的学习率是提高模型训练效率和性能的关键步骤。以下是一些优化BP神经网络学习率的方法: 一、理解学习率的重要性 学习率决定了模型参数在每次迭代时更新的幅度。过大的学习率可能导致模型在
    的头像 发表于 02-12 15:51 1421次阅读

    BP神经网络的优缺点分析

    自学习能力 : BP神经网络能够通过训练数据自动调整网络参数,实现对输入数据的分类、回归等任务,无需人工进行复杂的特征工程。 化能力强 : BP神经网络通过训练数据学习到的特征表示
    的头像 发表于 02-12 15:36 1569次阅读

    什么是BP神经网络的反向传播算法

    神经网络(即反向传播神经网络)的核心,它建立在梯度下降法的基础上,是一种适合于多层神经元网络的学习算法。该算法通过计算每层网络的误差,并将这些误差反向传播到前一层,从而调整权重,使得
    的头像 发表于 02-12 15:18 1273次阅读

    BP神经网络深度学习的关系

    BP神经网络深度学习之间存在着密切的关系,以下是对它们之间关系的介绍: 一、BP神经网络的基本概念 BP神经网络,即反向传播神经网络(Ba
    的头像 发表于 02-12 15:15 1339次阅读

    BP神经网络的基本原理

    BP神经网络(Back Propagation Neural Network)的基本原理涉及前向传播和反向传播两个核心过程。以下是关于BP神经网络基本原理的介绍: 一、网络结构 BP神经网络
    的头像 发表于 02-12 15:13 1513次阅读

    深度学习入门:简单神经网络的构建与实现

    深度学习中,神经网络是核心模型。今天我们用 Python 和 NumPy 构建一个简单的神经网络神经网络由多个神经元组成,
    的头像 发表于 01-23 13:52 838次阅读

    人工神经网络的原理和多种神经网络架构方法

    所拟合的数学模型的形式受到大脑中神经元的连接和行为的启发,最初是为了研究大脑功能而设计的。然而,数据科学中常用的神经网络作为大脑模型已经过时,现在它们只是能够在某些应用中提供最先进性能的机器学习模型。近年来,由于
    的头像 发表于 01-09 10:24 2243次阅读
    人工<b class='flag-5'>神经网络</b>的原理和多种<b class='flag-5'>神经网络</b>架构方法