0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

将训练神经网络看作是抽奖?如何找到“中奖彩票”的官方解释

电子工程师 来源:YXQ 2019-05-14 10:14 次阅读

我们现在所使用的神经网络模型,可能有 80% - 90% 的体积是多余的,这浪费了巨大的处理能力。

近日,麻省理工学院的计算机科学与人工智能实验室(MIT CSAIL)公布了一项新的研究成果,用富有创意的“彩票机制”修剪了传统神经网络模型,选择性地剔除了对结果意义不大的连接(权重),使其变为更小的子神经网络。

最终,在保证预测准确率前提下,他们将实验中的子网络模型的体积减少了 80% - 90%,进而降低了对训练数据量和硬件的需求,而且学习速度还有所提升。

研究团队将这一方法称为“彩票假设(Lottery Ticket Hypothesis)”,成果以论文形式发表在最近召开的 ICLR 2019 大会上,并且被评选为两篇最佳论文之一。《麻省理工科技评论》报道了这一成果,预测这种构建微小神经网络的新方法,可以在手机上创建强大的人工智能。

将训练神经网络看作是抽奖

如今,深度学习技术已经成为了计算机科学领域的最热门研究方向,从应用自然语言处理的语音识别,到应用计算机视觉的自动驾驶,都十分依赖于构建(深度)神经网络。而为了达到最佳学习效果,构建神经网络通常需要非常庞大的数据集,用来训练和测试模型。很多研究团队都在想办法优化这一过程,在不牺牲准确度的前提下,让神经网络和模型变得更小巧轻便。

传统神经网络由很多层和神经元构成,神经元之间的连接可以用权重来衡量,通过调整某些权重的参数,我们就可以改变相应的连接在整个网络中的作用。权重一般都是随机初始化的,随着模型经过大量训练,神经网络会慢慢“学会”哪些神经元和连接更重要,继而改变对应的权重参数,输出准确率更高的结果。

图 | 神经网络剪枝示意图(来源:Dr. Lance Eliot, the AI Trends Insider)

在 MIT 研究人员看来,这就像是一个抽奖过程:最开始我们手里有一大堆数字,但只有少部分数字最富价值,所以我们可以在训练过程中将它们筛选出来,用这些数字组合成一张“中奖彩票”,也就是实现了准确预测的目的。

如果我们可以在最开始就知道哪些数字能够或者更容易中奖,那么就可以*直接**去除**剩下**那些价值不大的**数字*,从而在保证准确率的情况下,缩小神经网络的体积,甚至是提高训练效率。

研究人员将这一思路命名为“彩票假设”。他们认为,一个随机初始化的密集神经网络包含一个(一些)子网络,在独立初始化并训练相同迭代次数后,它们的预测准确率能够媲美原始的神经网络。

图 |“彩票假设”定义

“稀疏剪枝”法修剪出微小神经网络

值得注意的是,目前已存在多种神经网络剪枝(Pruning)技术,AI 大牛 Yann LeCun 就曾提出过。在最理想的情况下,可以将网络体积缩小 90%。但修剪之后的网络普遍难以重新训练,而且重新训练还会导致准确率降低等问题。

相比之下,MIT 团队想要找到一种,可以在最开始就训练修剪过的小型神经网络的方法。

为了验证“彩票假设”,研究人员先进行了复杂的数学推导,从理论上证明了实现的可行性。然后随机初始化了一个神经网络,并且迭代训练 N 次,获得了第 N 次迭代之后的所有参数,再按照特定的比例和方法剪掉部分参数,比如剔除数量级最小的权重,创造出一个蒙版。最后将所有剩余参数还原到初始值,套上刚刚得到的参数蒙版,由此创建了一套“中奖彩票”,再进行重新初始化和训练。

图 | 如何找到“中奖彩票”的官方解释

研究团队使用了全连接网络和卷积神经网络来测试“彩票假设”的效果,分别建立在 MNIST 和 CIFAR10 数据集之上——两者都是深度学习领域知名数据集。

针对这两种网络,他们在多种条件下重复进行了数万次实验,尝试分析和组合很多不同的方法,从而确定在不牺牲学习能力和准确度的前提下,可以最多删除多少个参数。

结果显示,“稀疏剪枝(Sparse Pruning)”方法是找到“中奖彩票”的最有效手段。由此生成的子网络大小只有原始网络前馈架构大小的 10% - 20%,而且在某些情况下,例如使用早停,Dropout 或随机重初始化等方法,还可以使学习速度加快,甚至是获得超过原始网络的准确度。

研究人员认为,这样的成果还只是起步,如果想找到合适的子网络,必须经过多次迭代、训练和修剪,对于算力有较高要求,而且存在一定的局限性,因为他们只找到了“稀疏剪枝”这一种寻求“彩票”的方法,还只考虑了数据集相对较小的视觉分类任务。

不过“彩票假设”的新思路可以激发机器学习领域的其它团队,尝试更多类似的网络压缩和优化研究。研究团队下一步将围绕更多的剪枝方法展开研究,分析为什么迭代剪枝(Iterative Pruning)在更深的网络中无法找到“中奖彩票”,同时对参数初始化机制进行更透彻的研究。

他们相信,如果投入更多的努力,能够找到最有效的剪枝手段,或许有望加速很多深度学习模型的训练过程,节省可观的开支和工作量,甚至是创造更有价值的新模型。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4575

    浏览量

    98764
  • 人工智能
    +关注

    关注

    1776

    文章

    43881

    浏览量

    230632

原文标题:ICLR最佳论文:训练神经网络就像买彩票?

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    BP神经网络算法的基本流程

    训练经过约50次左右迭代,在训练集上已经能达到99%的正确率,在测试集上的正确率为90.03%,单纯的BP神经网络能够提升的空间不大了,但kaggle上已经有人有卷积神经网络在测试集达
    发表于 03-20 09:58 397次阅读
    BP<b class='flag-5'>神经网络</b>算法的基本流程

    Kaggle知识点:训练神经网络的7个技巧

    科学神经网络模型使用随机梯度下降进行训练,模型权重使用反向传播算法进行更新。通过训练神经网络模型解决的优化问题非常具有挑战性,尽管这些算法在实践中表现出色,但不能保证它们会及时收敛到一
    的头像 发表于 12-30 08:27 360次阅读
    Kaggle知识点:<b class='flag-5'>训练</b><b class='flag-5'>神经网络</b>的7个技巧

    如何训练这些神经网络来解决问题?

    神经网络建模中,经常会出现关于神经网络应该有多复杂的问题,即它应该有多少层,或者它的滤波器矩阵应该有多大。这个问题没有简单的答案。与此相关,讨论网络过拟合和欠拟合非常重要。过拟合是模型过于复杂
    发表于 11-24 15:35 311次阅读
    如何<b class='flag-5'>训练</b>这些<b class='flag-5'>神经网络</b>来解决问题?

    卷积神经网络(CNN)的工作原理 神经网络训练过程

    前文《卷积神经网络简介:什么是机器学习?》中,我们比较了在微控制器中运行经典线性规划程序与运行CNN的区别,并展示了CNN的优势。我们还探讨了CIFAR网络,该网络可以对图像中的猫、房子或自行车等对象进行分类,还可以执行简单的语
    发表于 09-05 10:19 933次阅读
    卷积<b class='flag-5'>神经网络</b>(CNN)的工作原理 <b class='flag-5'>神经网络</b>的<b class='flag-5'>训练</b>过程

    人工神经网络和bp神经网络的区别

    人工神经网络和bp神经网络的区别  人工神经网络(Artificial Neural Network, ANN)是一种模仿人脑神经元网络结构和功能的计算模型,也被称为
    的头像 发表于 08-22 16:45 3445次阅读

    卷积神经网络和深度神经网络的优缺点 卷积神经网络和深度神经网络的区别

    深度神经网络是一种基于神经网络的机器学习算法,其主要特点是由多层神经元构成,可以根据数据自动调整神经元之间的权重,从而实现对大规模数据进行预测和分类。卷积
    发表于 08-21 17:07 2351次阅读

    卷积神经网络的基本原理 卷积神经网络发展 卷积神经网络三大特点

    卷积神经网络的基本原理 卷积神经网络发展历程 卷积神经网络三大特点  卷积神经网络的基本原理 卷积神经网络(Convolutional Ne
    的头像 发表于 08-21 16:49 1452次阅读

    卷积神经网络三大特点

    是一种基于图像处理的神经网络,它模仿人类视觉结构中的神经元组成,对图像进行处理和学习。在图像处理中,通常将图像看作是二维矩阵,即每个像素点都有其对应的坐标和像素值。卷积神经网络采用卷积
    的头像 发表于 08-21 16:49 3655次阅读

    卷积神经网络如何识别图像

    为多层卷积层、池化层和全连接层。CNN模型通过训练识别并学习高度复杂的图像模式,对于识别物体和进行图像分类等任务有着非常优越的表现。本文将会详细介绍卷积神经网络如何识别图像,主要包括以下几个方面: 1. 卷积神经网络的基本结构和
    的头像 发表于 08-21 16:49 1426次阅读

    卷积神经网络的工作原理 卷积神经网络通俗解释

    卷积神经网络的工作原理 卷积神经网络通俗解释  卷积神经网络(Convolutional Neural Network, CNN)是一种众所周知的深度学习算法,是人工智能领域中最受欢迎
    的头像 发表于 08-21 16:49 2754次阅读

    卷积神经网络模型训练步骤

    卷积神经网络模型训练步骤  卷积神经网络(Convolutional Neural Network, CNN)是一种常用的深度学习算法,广泛应用于图像识别、语音识别、自然语言处理等诸多领域。CNN
    的头像 发表于 08-21 16:42 1065次阅读

    卷积神经网络原理:卷积神经网络模型和卷积神经网络算法

    卷积神经网络原理:卷积神经网络模型和卷积神经网络算法 卷积神经网络(Convolutional Neural Network,CNN)是一种基于深度学习的人工
    的头像 发表于 08-17 16:30 925次阅读

    如何使用TensorFlow神经网络模型部署到移动或嵌入式设备上

    有很多方法可以经过训练神经网络模型部署到移动或嵌入式设备上。不同的框架在各种平台上支持Arm,包括TensorFlow、PyTorch、Caffe2、MxNet和CNTK,如Android
    发表于 08-02 06:43

    什么是神经网络?为什么说神经网络很重要?神经网络如何工作?

    神经网络是一个具有相连节点层的计算模型,其分层结构与大脑中的神经元网络结构相似。神经网络可通过数据进行学习,因此,可训练其识别模式、对数据分类和预测未来事件。
    的头像 发表于 07-26 18:28 1996次阅读
    什么是<b class='flag-5'>神经网络</b>?为什么说<b class='flag-5'>神经网络</b>很重要?<b class='flag-5'>神经网络</b>如何工作?

    三个最流行神经网络

    在本文中,我们将了解深度神经网络的基础知识和三个最流行神经网络:多层神经网络(MLP),卷积神经网络(CNN)和递归神经网络(RNN)。
    发表于 05-15 14:19 1177次阅读
    三个最流行<b class='flag-5'>神经网络</b>