0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ICLR 2019在官网公布了最佳论文奖!

DPVg_AI_era 来源:lq 2019-05-07 09:00 次阅读

ICLR 2019今天在官网公布了最佳论文奖!两篇最佳论文分别来自Mila/加拿大蒙特利尔大学、微软蒙特利尔研究院和MIT CSAIL,主题分别集中在NLP深度学习模型和神经网络压缩。

今天,ICLR 2019在官网公布了最佳论文奖!

两篇最佳论文分别来自Mila/加拿大蒙特利尔大学、微软蒙特利尔研究院和MITCSAIL,主题分别集中在NLP深度学习模型和神经网络压缩。

ICLR 是深度学习领域的顶级会议,素有深度学习顶会 “无冕之王” 之称。今年的 ICLR 大会从5月6日到5月9日在美国新奥尔良市举行。

今年 ICLR 共接收 1578 篇投稿,相较去年 981 篇有了很大的增加,录用结果如下:1.5% 录用为 oral 论文(24 篇)、30.2% 录用为 poster 论文(476 篇),58% 论文被拒(918 篇)、610% 撤回(160 篇)。

与往年一样,ICLR 2019采用公开评审制度,所有论文会匿名公开在 open review 网站上,接受同行们的匿名评分和提问。

今年论文平均打分是 5.15

关键词排序前 50

接下来,新智元带来两篇最佳论文的解读:

最佳论文1:有序神经元:将树结构集成到循环神经网络

标题:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

《有序神经元:将树结构集成到循环神经网络》

作者:Yikang Shen,Shawn Tan,Alessandro Sordoni,Aaron Courville

作者机构:Mila/加拿大蒙特利尔大学、微软蒙特利尔研究院

论文地址:https://openreview.net/forum?id=B1l6qiR5F7

摘要:

自然语言是一种分层结构:较小的单元(例如短语)嵌套在较大的单元(例如子句)中。当较大的成分结束时,嵌套在其中的所有较小单元也必须结束。虽然标准的LSTM架构允许不同的神经元在不同的时间尺度上跟踪信息,但它并没有明确地偏向于对成分层次结构建模。

本文提出通过对神经元进行排序来增加这种归纳偏差;一个主输入和遗忘门的向量确保当一个给定的神经元被更新时,按照顺序跟随它的所有神经元也被更新。所提出的新循环结构称为有序神经元LSTM (ordered neurons LSTM, ON-LSTM),在语言建模、无监督句法分析、目标语法评估和逻辑推理四个不同的任务上都取得了良好的性能。

关键词:深度学习,自然语言处理,递归神经网络,语言建模

一句话概括:本文提出一种新的归纳偏置,将树结构集成到循环神经网络中。

从实用的角度看,将树结构集成到神经网络语言模型中有以下几个重要原因:

深度神经网络的一个关键特征是获得抽象层次不断增加的分层表示;

建模语言的组成效应,并为梯度反向传播提供快捷方式,以帮助解决长期依赖问题;

通过更好的归纳偏置改进泛化,同时能够减少对大量训练数据的需求。

图1:由模型推断的二进制解析树(左)及其对应的round-truth(右)。

问题是:具有对学习这种潜在树结构的归纳偏置的架构能否获得更好的语言模型?

在这篇论文中,我们提出有序神经元(ordered neurons),这是一种面向循环神经网络的新型归纳偏置。这种归纳偏置增强了存储在每个神经元中的信息的生命周期的分化:高级神经元存储长期信息,这些信息通过大量步骤保存,而低级神经元存储短期信息,这些信息可以很快被遗忘。

为了避免高级和低级神经元之间的固定划分,我们提出一种新的激活函数——cumulative softmax,或称为cumax(),用于主动分配神经元来存储长/短期信息。

基于cumax()和LSTM架构,我们设计了一个新的模型ON-LSTM,该模型偏向于执行类似树的组合操作。

ON-LSTM模型在语言建模、无监督成分句法分析、目标句法评估和逻辑推理四项任务上都取得了良好的性能。对无监督成分句法分析的结果表明,所提出的归纳偏置比以前模型更符合人类专家提出的语法原则。实验还表明,在需要捕获长期依赖关系的任务中,ON-LSTM模型的性能优于标准LSTM模型。

有序神经元

图2:一个成分解析树和ON-LSTM的隐藏状态之间的对应关系

ON-LSTM

ON-LSTM模型与标准LSTM的架构类似:

与LSTM的不同之处在于,这里用了一个新函数替换cell state的 update 函数。

实验

语言建模

表1:Penn Treebank语言建模任务验证集和测试集上的单模型困惑度。

如表1所示,ON-LSTM模型在共享相同的层数、嵌入维数和隐藏状态单元的情况下,比标准的LSTM性能更好。值得注意的是,我们可以在不添加skip connection或显著增加参数数量的情况下提高LSTM模型的性能。

无监督成分句法分析(ConstituencyParsing)

表2:在full WSJ10和WSJ test两个数据集上评估的成分句法分析结果

目标句法评估

表3:ON-LSTM和LSTM在每个测试用例中的总体精度

表3显示,ON-LSTM在长期依赖情况下表现更好,而基线LSTM在短期依赖情况下表现更好。不过,ON-LSTM在验证集上实现了更好的困惑度。

逻辑推理

图3:模型的测试准确性,在逻辑数据的短序列(≤6)上训练。

图3显示了ON-LSTM和标准LSTM在逻辑推理任务上的性能。

最佳论文2:彩票假设

标题:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

《彩票假设:寻找稀疏的、可训练的神经网络》

作者:Jonathan Frankle,Michael Carbin

作者机构:MIT CSAIL

论文地址:https://openreview.net/forum?id=rJl-b3RcF7

摘要:

神经网络剪枝技术可以在不影响精度的前提下,将训练网络的参数数量减少90%以上,降低存储需求并提高推理的计算性能。然而,当前的经验是,剪枝产生的稀疏架构从一开始就很难训练,这同样可以提高训练性能。

我们发现,一种标准的剪枝技术可以自然地揭示子网络,这些子网络的初始化使它们能够有效地进行训练。基于这些结果,我们提出了“彩票假设”(lottery ticket hypothesis):包含子网络(“中奖彩票”,winning tickets)的密集、随机初始化的前馈网络,这些子网络在单独训练时,经过类似次数的迭代达到与原始网络相当的测试精度。我们找到的“中奖彩票”中了初始化彩票:它们的连接具有初始权重,这使得训练特别有效。

我们提出一个算法来确定中奖彩票,并激进型了一系列实验来支持彩票假说以及这些偶然初始化的重要性。我们发现,MNIST和CIFAR10的中奖彩票的规模始终比几个全连接架构和卷积前馈架构小10-20%。超过这个规模的话,我们发现中奖彩票比原来的网络学习速度更快,达到了更高的测试精度。

关键词:神经网络,稀疏性,剪枝,压缩,性能,架构搜索

一句话概括:可以在训练后剪枝权重的前馈神经网络,也可以在训练前剪枝相同的权重。

本文证明了,始终存在较小的子网络,它们从一开始就进行训练,学习速度至少与较大的子网络一样快,同时能达到类似的测试精度。

图1:早期停止发生的迭代(左边)和用于MNIST的Lenet架构以及用于CIFAR10的conv2、conv4和conv6架构的迭代(右边)的测试精度。虚线是随机抽样的稀疏网络。实线是中奖彩票。

图1中的实线显示了我们找到的网络,即winning tickets。

论文提出了几个新概念,首先是“彩票假设”(The Lottery Ticket Hypothesis)。

彩票假设:将一个复杂网络的所有参数当作一个奖池,奖池中存在一组子参数所对应的子网络(代表中奖号码,文中的wining ticket),单独训练该子网络,可以达到原始网络的测试精度。

那么怎样找到中奖彩票呢?

确定中奖彩票:通过训练一个网络并修剪它的最小量级权重来确定中奖彩票。其余未修剪的连接构成了中奖彩票的架构。

具体来说,有以下4步:

随机初始化一个复杂神经网络

训练复杂网络j次,得到网络参数

对模型按p%进行修剪,得到一个mask m;将

对留下来的模型,重新用

图2:本文测试的架构

本文的贡献

我们证明剪枝可以揭示可训练的子网络,这些子网络达到了与原始网络相当的测试精度;

我们证明剪枝发现的中奖彩票比原始网络学习更快,同时具有更高的测试精度和更好的泛化能力。

我们提出“彩票假设”,作为神经网络组成的新视角,可以解释这些发现。

应用

本文对彩票假设进行了实证研究。既然我们已经证明了中奖彩票的存在,我们希望利用这一知识:

提高训练性能。由于中奖彩票可以从一开始就单独进行训练,我们希望能够设计出能够搜索中奖彩票并尽早进行修剪的训练方案。

设计更好的网络。中奖彩票揭示了稀疏架构和特别擅长学习的初始化的组合。我们可以从中获得灵感,设计有助于学习的新架构和初始化方案。我们甚至可以把为一项任务发现的中奖彩票迁移到更多其他任务。

提高对神经网络的理论理解。我们可以研究为什么随机初始化的前馈网络似乎包含中奖彩票,以及增加对优化和泛化的理论理解。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4574

    浏览量

    98753
  • 论文
    +关注

    关注

    1

    文章

    103

    浏览量

    14885
  • 深度学习
    +关注

    关注

    73

    文章

    5239

    浏览量

    119910

原文标题:ICLR 2019最佳论文揭晓!NLP深度学习、神经网络压缩成焦点

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NUCLEO-L073RZ烧录的代码后,运行不起来是怎么回事?

    NUCLEO-L073RZ开发板自带的固件可以运行,但是烧录的代码后,运行不起来
    发表于 04-03 07:30

    STM32MP135F-DK按照例程跑代码报错的原因?怎么解决?

    如图,按照例程跑代码,会出现这样的报错。请问有什么解决方法吗?
    发表于 03-18 08:30

    比创达元启新程 共创新佳绩:2023年度总结暨迎新年晚会圆满收!a

    幸运之神眷顾,将幸运大奖收入囊中。恭喜中奖的幸运儿▼ 比创达年会节目的评比结果也现场新鲜出炉,获得“最佳表演”的是由业务二部表演的自制情景剧《业务员的一天》,获得“最佳创意
    发表于 02-26 11:05

    论文遭首届ICLR拒稿、代码被过度优化,word2vec作者Tomas Mikolov分享背后的故事

    尽管 word2vec 是我被引用最多的论文,但我从未认为它是我最有影响力的项目。实际上,word2vec 代码最初只是我之前项目 RNNLM 的一个子集,我感觉 RNNLM 很快就被人们遗忘了。但在我看来,它应该和 AlexNet 一样具有革命性意义。
    的头像 发表于 12-18 16:51 381次阅读
    <b class='flag-5'>论文</b>遭首届<b class='flag-5'>ICLR</b>拒稿、代码被过度优化,word2vec作者Tomas Mikolov分享背后的故事

    ICLR 2024高分投稿:用于一般时间序列分析的现代纯卷积结构

    这篇是 ICLR 上用 TCN 来做一般的时间序列分析的论文,在 Rebuttal 之后的分数为 888,算得上是时间序列领域相关的论文中最高分那一档了。本文提出了一个 ModernTCN 的模型
    的头像 发表于 12-18 16:05 445次阅读
    <b class='flag-5'>ICLR</b> 2024高分投稿:用于一般时间序列分析的现代纯卷积结构

    名单公布!【书籍评测活动NO.26】图灵奖得主亲自撰写!RISC-V开放架构设计之道

    杰出工程学院校友。他南加州长大,兴趣爱好是和儿子们一起玩人体冲浪、骑自行车和踢足球,以及和妻子一起远足。他们高中时期相爱,并于2022 年庆祝55 周年结婚纪念日。 安德鲁·沃
    发表于 12-13 17:25

    【AI简报20231020期】出自华人之手:DALL-E 3论文公布、上线ChatGPT!超火迷你GPT-4

    1. OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人 原文: https://mp.weixin.qq.com
    的头像 发表于 10-21 16:35 698次阅读
    【AI简报20231020期】出自华人之手:DALL-E 3<b class='flag-5'>论文公布</b>、上线ChatGPT!超火迷你GPT-4

    OpenHarmony创新赛 | 您有一份创新激励待领取 请查收!

    大赛公示获奖团队。 此外,作品到10月30日之前都可以二次迭代提交 但要确保首次提交的作品版本为完整作品! 作品提交地址 ​​https://atomgit.com/​​ 参赛队伍
    发表于 09-21 15:32

    中科驭数联合处理器芯片全国重点实验室获得FPL 2023最佳论文奖!

    Information Reuse》获得FPL2023最佳论文奖。该项工作由鄢贵海指导完成,作者包括樊海爽、吴婧雅、卢文岩、李晓维。论文第一作者樊海爽受邀在会上做口头报告。 ▲ 《Co-ViSu
    的头像 发表于 09-20 14:58 589次阅读
    中科驭数联合处理器芯片全国重点实验室获得FPL 2023<b class='flag-5'>最佳</b><b class='flag-5'>论文</b>奖!

    FPL 2023最佳论文奖!

    团队共同完成的论文《Co-ViSu: a Video Super-Resolution Accelerator Exploiting Codec Information Reuse》获得FPL2023最佳论文奖。该项工作由鄢贵海
    的头像 发表于 09-19 17:55 442次阅读
    FPL 2023<b class='flag-5'>最佳</b><b class='flag-5'>论文</b>奖!

    虚幻引擎的纹理最佳实践

    纹理是游戏不可或缺的一部分。 这是一个艺术家可以直接控制的领域,以提高游戏的性能。 本最佳实践指南介绍几种纹理优化,这些优化可以帮助您的游戏运行得更流畅、看起来更好。 最佳实践系列指南的总体目标
    发表于 08-28 06:39

    STM32MP135F-DK按照例程跑代码报错,请问有什么解决方法吗?

    如图,按照例程跑代码,会出现这样的报错。请问有什么解决方法吗?
    发表于 08-07 09:19

    创造历史!商汤联合团队斩获CVPR最佳论文,推出首个“感知决策一体化”自动驾驶通用大模型

    一篇最佳论文,一篇最佳论文候选,共计54篇论文被接收 ,商汤科技及联合实验室交出CVPR 2023闪亮的成绩单。 6月18日-22日,全球计
    的头像 发表于 06-22 06:15 252次阅读
    创造历史!商汤联合团队斩获CVPR<b class='flag-5'>最佳</b><b class='flag-5'>论文</b>,推出首个“感知决策一体化”自动驾驶通用大模型

    新塘keil的软件包无法下载怎么解决?

    新塘keil的软件包无法下载
    发表于 06-15 10:15

    150套开发板免费送!还有5G手机拿?米尔RZ/G2L开发板创意秀

    ? 本次活动由米尔电子和瑞萨联合举办,除免费开发板之外,提供产品开发的作品,有机会赢得大奖,奖品非常丰富: 最佳项目 :3名;奖品:价值2500元左右的智能手机; 优秀设计奖 :5名;奖品:价值
    发表于 05-24 16:36