0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Adam模型的新改进“Rectified Adam”

DPVg_AI_era 来源:lq 2019-09-13 16:31 次阅读

UIUC华人博士生团队提出了对常用机器学习模型优化器Adam的新改进RAdam,省去了使用Adam必须的“预热”环节,既能保证学习率和收敛速度,又能有效避免模型陷入“局部最优解”的陷阱,堪称Adam的优秀接班人!

近日,UIUC的华人博士生Liyuan Liu等人的一篇新论文中介绍了Adam模型的新改进“Rectified Adam”(简称RAdam)。这是基于原始Adam作出的改进,它既能实现Adam快速收敛的优点,又具备SGD方法的优势,令模型收敛至质量更高的结果。

有国外网友亲测,效果拔群。

以下是网友测试过程和RAdam的简介:

我已经在FastAI框架下测试了RAdam,并快速获得了高精度新记录,而不是ImageNette上两个难以击败的FastAI排行榜得分。我今年测试了许多论文中的模型,大部分模型似乎在文中给出的特定数据集上表现良好,而在我尝试的新的数据集上表现不佳。但RAdam不一样,看起来真的实现了性能提升,可能成为vanilla Adam的永久“接班人”。

RAdam具备在多种学习率下的强大性能,同时仍能快速收敛并实现更高的性能(CIFAR数据集)

RAdam和XResNet50,5个epoch精度即达到86%

Imagenette排行榜:达到当前最高性能84.6%

下面来看看RAdam的内部机制,看看为什么能够实现更优质的收敛,更好的训练稳定性(相对所选择的学习率更不敏感),为何基于几乎所有AI应用都能实现更好的准确性和通用性。

不只是对于CNN:RAdam在Billion Word Dataset上的表现优于LSTM

RAdam:无需预热,避免模型收敛至“局部最优解”

作者指出,虽然每个人都在努力实现快速稳定的优化算法,但包括Adam,RMSProp等在内的自适应学习率优化器都存在收敛到质量较差的局部最优解的可能。因此,几乎每个人都使用某种形式的“预热”方式来避免这种风险。但为什么需要预热?

由于目前对AI社区中对于“预热”出现的潜在原因,甚至最佳实践的理解有限,本文作者试图揭示这个问题的基础。他们发现,根本问题是自适应学习率优化器具有太大的变化,特别是在训练的早期阶段,并且可能由于训练数据量有限出现过度跳跃,因此可能收敛至局部最优解。

使用原始Adam必须预热,否则正态分布会变得扭曲,是否预热的分布对比见上图

因此,当优化器仅使用有限的训练数据时,采用“预热”(这一阶段的学习率要慢得多)是自适应优化器要求抵消过度方差的要求。

简而言之,vanilla Adam和其他自适应学习速率优化器可能会基于训练早期数据太少而做出错误决策。因此,如果没有某种形式的预热,很可能在训练一开始便会收敛局部最优解,这使得训练曲线由于糟糕的开局而变得更长、更难。

然后,作者在不用预热的情况下运行了Adam,但是在前2000次迭代(adam-2k)中避免使用动量,结果实现了与“Adam+预热”差不多的结果,从而验证了“预热”在训练的初始阶段中起到“降低方差”的作用,并可以避免Adam在没有足够数据的情况下在开始训练时即陷入局部最优解。

适用于多个数据集,堪称Adam的优秀“接班人”

我们可以将“预热”作为降低方差的方法,但所需的预热程度未知,而且具体情况会根据数据集不同而变化,本文确定了一个数学算法,作为“动态方差减少器”。作者建立了一个“整流项”,可以缓慢而稳定地允许将自适应动量作为基础方差的函数进行充分表达。完整模型是这样的:

作者指出,在某些情况下,由于衰减率和基本方差的存在,RAdam可以在动量等效的情况下退化为SGD。

实验表明,RAdam优于传统的手动预热调整,其中需要预热或猜测需要预热的步骤数。RAdam自动提供方差缩减,在各种预热长度和各种学习率下都优于手动预热。

总之,RAdam可以说是AI最先进的优化器,可以说是Adam的优秀接班人!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    3866

    浏览量

    61308
  • 机器学习
    +关注

    关注

    66

    文章

    8116

    浏览量

    130546
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24348

原文标题:Adam可以换了?UIUC中国博士生提出RAdam,收敛快精度高,大小模型通吃

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    防止AI大模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4

    在设计防止AI大模型被黑客病毒入侵时,需要考虑到复杂的加密和解密算法以及模型的实现细节,首先需要了解模型的结构和实现细节。 以下是我使用Python和TensorFlow 2.x实现深度学习
    发表于 03-19 11:18

    蔚来2024款车型交付,全新ADAM平台及8295座舱芯片亮相

    据悉,除了外观上有所改进之外,2024款车型还会采用全新的ADAM中央计算平台以及高通骁龙8295座舱处理器。此外,新车还将配备4颗英伟达OrinX芯片以及8096个浮点运算单元,整体性能卓越。
    的头像 发表于 03-10 10:29 892次阅读

    蔚来2024款车型开启预售,性能提升、体验升级,售价未变

    此外,为了提高车辆的智能化程度,蔚来选择从硬件层面对中央计算平台ADAM进行全面升级。预计下一代蔚来车型将全部采用全新设计,其搭载的高通骁龙8295座舱芯片,使得整体算力有显著提升。
    的头像 发表于 02-22 10:47 425次阅读

    亚马逊云科技re:Invent大会Adam Selipsky带来多项重磅发布

     2023亚马逊云科技re:Invent全球大会第二天,亚马逊云科技首席执行官Adam Selipsky进行了主题演讲,并发布了多项重磅新功能。在会上Adam还特别提到,此次re:Invent大会
    的头像 发表于 11-30 15:10 233次阅读
    亚马逊云科技re:Invent大会<b class='flag-5'>Adam</b> Selipsky带来多项重磅发布

    拥抱变革:亚马逊云科技与 NVIDIA 共同推进生成式 AI 和云的创新

    在 2023 亚马逊云科技 re:Invent 大会上,亚马逊云科技首席执行官 Adam Selipsky 和 NVIDIA 创始人兼首席执行官黄仁勋强调了生成式 AI 在云转型过程中起到的关键作用
    的头像 发表于 11-29 21:00 342次阅读
    拥抱变革:亚马逊云科技与 NVIDIA 共同推进生成式 AI 和云的创新

    蔚来NIO的ADAM的控制板技术拆解

    NIO Adam超级计算机内部还集成了关键的GPS导航系统,由ST微电子的6轴MEMS加速度计和陀螺仪、Nexperia的双逆变器、NXP Semiconductors的GPS LNA等组成。这些元件保证了蔚来生产的电动汽车在导航时的准确性和稳定性。
    的头像 发表于 11-09 09:14 413次阅读
    蔚来NIO的<b class='flag-5'>ADAM</b>的控制板技术拆解

    System Initiative宣布将其所有软件全部开源

    总部位于美国旧金山的 System Initiative 成立于 2019 年,公司首席执行官 Adam Jacob 曾是 Chef Software 公司的联合创始人兼首席技术官、Chef 的原作者;Chef 在 2020 年被 Progress 以 2.2 亿美元收购。
    的头像 发表于 08-22 15:40 358次阅读
    System Initiative宣布将其所有软件全部开源

    异步电机的改进型电压模型磁链观测器介绍

    导读:本期文章主要介绍异步电机的改进型电压模型磁链观测器。传统纯积分形式的积分器在低速区域存在初始值问题和直流偏置问题,所以在实际应用中必须对电压模型进行改进。本期文章中的对电压
    的头像 发表于 08-19 16:00 697次阅读
    异步电机的<b class='flag-5'>改进</b>型电压<b class='flag-5'>模型</b>磁链观测器介绍

    Keras搭建神经网络的一般步骤

    参考https://keras.io/zh/ 的安装指引。 2 使用Keras搭建神经网络的步骤 2 示例 搭建一个最简单的手写数字识别MNIST step1:选择顺序模型并初始化 model
    发表于 08-18 07:35

    keras内置的7个常用的优化器介绍

    编译模型时需要如下两个参数: 一个“损失函数”(loss function),用来衡量网络的预测有多好。 一个“优化器”(optimizer),可以告诉网络如何改变其权重。 keras内置了7个
    发表于 08-18 06:32

    keras顺序模型与函数式模型

    keras提供两种搭建模型的方式: 1. 顺序模型(也可看做是函数式模型的一种特殊情况) 2. 函数式模型 两种方式优点缺点顺序模型
    发表于 08-18 06:01

    AI大模型和小模型是什么?AI大模型和小模型的区别

      随着人工智能的不断发展和应用,机器学习模型的大小越来越成为一个重要的问题。在机器学习中,我们通常将模型分为两类:大模型和小模型。本文将介绍AI大
    发表于 08-08 16:55 5486次阅读

    MySQL全新版本模型简析

    在 Oracle,我们不断寻找方法来改进产品,以更好地满足您的需求。我们很高兴地推出 MySQL 创新版(Innovation)和长期支持版(LTS,Long-Term Support),这是 MySQL 版本模型中的一个重要改进
    的头像 发表于 08-01 16:41 459次阅读
    MySQL全新版本<b class='flag-5'>模型</b>简析

    智能开源大模型baichuan-7B技术改进

    baichuan-7B 主要是参考LLaMA进行的改进,且模型架构与LLaMA一致。而在开源大模型中,LLaMA无疑是其中最闪亮的星,但LLaMA存在如下问题: LLaMA 原生仅支持 Latin
    的头像 发表于 06-17 14:14 750次阅读

    Innovusion图达通助力蔚来全新ES6开启规模化交付

    苏州2023年5月25日 /美通社/ -- 2023年5月25日,全新蔚来ES6正式开启用户交付。新车基于全新的NT2.0平台打造,标配ADAM蔚来超算平台和Aquila蔚来超感系统,拥有包括
    的头像 发表于 05-25 22:36 428次阅读