0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Adam模型的新改进“Rectified Adam”

DPVg_AI_era 来源:lq 2019-09-13 16:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

UIUC华人博士生团队提出了对常用机器学习模型优化器Adam的新改进RAdam,省去了使用Adam必须的“预热”环节,既能保证学习率和收敛速度,又能有效避免模型陷入“局部最优解”的陷阱,堪称Adam的优秀接班人!

近日,UIUC的华人博士生Liyuan Liu等人的一篇新论文中介绍了Adam模型的新改进“Rectified Adam”(简称RAdam)。这是基于原始Adam作出的改进,它既能实现Adam快速收敛的优点,又具备SGD方法的优势,令模型收敛至质量更高的结果。

有国外网友亲测,效果拔群。

以下是网友测试过程和RAdam的简介:

我已经在FastAI框架下测试了RAdam,并快速获得了高精度新记录,而不是ImageNette上两个难以击败的FastAI排行榜得分。我今年测试了许多论文中的模型,大部分模型似乎在文中给出的特定数据集上表现良好,而在我尝试的新的数据集上表现不佳。但RAdam不一样,看起来真的实现了性能提升,可能成为vanilla Adam的永久“接班人”。

RAdam具备在多种学习率下的强大性能,同时仍能快速收敛并实现更高的性能(CIFAR数据集)

RAdam和XResNet50,5个epoch精度即达到86%

Imagenette排行榜:达到当前最高性能84.6%

下面来看看RAdam的内部机制,看看为什么能够实现更优质的收敛,更好的训练稳定性(相对所选择的学习率更不敏感),为何基于几乎所有AI应用都能实现更好的准确性和通用性。

不只是对于CNN:RAdam在Billion Word Dataset上的表现优于LSTM

RAdam:无需预热,避免模型收敛至“局部最优解”

作者指出,虽然每个人都在努力实现快速稳定的优化算法,但包括Adam,RMSProp等在内的自适应学习率优化器都存在收敛到质量较差的局部最优解的可能。因此,几乎每个人都使用某种形式的“预热”方式来避免这种风险。但为什么需要预热?

由于目前对AI社区中对于“预热”出现的潜在原因,甚至最佳实践的理解有限,本文作者试图揭示这个问题的基础。他们发现,根本问题是自适应学习率优化器具有太大的变化,特别是在训练的早期阶段,并且可能由于训练数据量有限出现过度跳跃,因此可能收敛至局部最优解。

使用原始Adam必须预热,否则正态分布会变得扭曲,是否预热的分布对比见上图

因此,当优化器仅使用有限的训练数据时,采用“预热”(这一阶段的学习率要慢得多)是自适应优化器要求抵消过度方差的要求。

简而言之,vanilla Adam和其他自适应学习速率优化器可能会基于训练早期数据太少而做出错误决策。因此,如果没有某种形式的预热,很可能在训练一开始便会收敛局部最优解,这使得训练曲线由于糟糕的开局而变得更长、更难。

然后,作者在不用预热的情况下运行了Adam,但是在前2000次迭代(adam-2k)中避免使用动量,结果实现了与“Adam+预热”差不多的结果,从而验证了“预热”在训练的初始阶段中起到“降低方差”的作用,并可以避免Adam在没有足够数据的情况下在开始训练时即陷入局部最优解。

适用于多个数据集,堪称Adam的优秀“接班人”

我们可以将“预热”作为降低方差的方法,但所需的预热程度未知,而且具体情况会根据数据集不同而变化,本文确定了一个数学算法,作为“动态方差减少器”。作者建立了一个“整流项”,可以缓慢而稳定地允许将自适应动量作为基础方差的函数进行充分表达。完整模型是这样的:

作者指出,在某些情况下,由于衰减率和基本方差的存在,RAdam可以在动量等效的情况下退化为SGD。

实验表明,RAdam优于传统的手动预热调整,其中需要预热或猜测需要预热的步骤数。RAdam自动提供方差缩减,在各种预热长度和各种学习率下都优于手动预热。

总之,RAdam可以说是AI最先进的优化器,可以说是Adam的优秀接班人!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4408

    浏览量

    66905
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136271
  • 数据集
    +关注

    关注

    4

    文章

    1232

    浏览量

    26063

原文标题:Adam可以换了?UIUC中国博士生提出RAdam,收敛快精度高,大小模型通吃

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    , activation=\'softmax\', name=\"FC2\"))2. 编译模型 model.compile(optimizer=\'adam\', loss
    发表于 10-22 07:03

    Adam Tech推拉式连接器产品特点

    Adam Tech 提供完整系列的推拉式连接器,涵盖金属与塑料款式、直角插座以及应力缓解设计,满足各种应用需求。每款产品皆提供多样化选项,包括不同的针脚数、安装方式及尺寸。另有防水型号,符合
    的头像 发表于 09-16 14:18 454次阅读

    Adam Tech推出Secur-Seal系列线对线连接器

    随着电动车(EV)及储能系统(ESS)市场迅速成长,连接器在严苛环境下的高可靠性已成为设计的重要核心需求。 轻型电动车(LEVs)、工业设备及户外装置等应用场景,经常面临长时间的震动、潮湿及尘埃挑战,传统标准连接器已无法满足其耐用性要求。
    的头像 发表于 08-15 11:32 928次阅读

    基于改进滑模观测器的PMSM无位置传感器控制

    为解决传统基于滑模观测器永磁同步电机无位置传感器控制系统存在的抖振问题,本文提出了一种基于非线性能量函数参考模型的新型改进滑模观测器。在分析非线性能量函数参考模型的基础上,设计了改进
    发表于 08-06 14:38

    改进电压模型的异步电机无速度传感器矢量控制

    无速度传感器矢量控制技术能够有效提高交流传动系统的可靠性,降低系统成本。该技术的核心问题是准确获取电机转子转速,并将其反馈到速度闭环控制环节。介绍一种采用改进模型参考自适应转速估计方法的异步电机矢量
    发表于 05-28 15:43

    改进GPC算法在永磁同步电机控制系统中的应用

    (CARIMA)模型。基于此模型和金元郁等提出的改进广义预测控制算法(JGPC)设计出了适用于 PMSM驱动系统的速度环的改进广义预测控制器。仿真实验表明,JCPC控制器可以很好的跟踪
    发表于 05-28 15:41

    FPGA 大神 Adam Taylor 使用 ALINX VD100(AMD Versal系列)开发平台实现图像处理

    本篇文章来自 FPGA 大神、Ardiuvo XVtc VtcInst;VideoMode video;XVtc_Config *vtc_config ;int main(){ XVtc_SourceSelect SourceSelect; XVtc_Timing vtcTiming; u32 height,width,status; init_platform(); print("Setting up Timingnr"); vtc_config = XVtc_LookupConfig(XPAR_XVTC_0_BASEADDR); XVtc_CfgInitialize( print("Setting up Videonr"); video = VMODE_1280x720 ;vtcTiming.HActiveVideo = video.width;vtcTiming.HFrontPorch = video.hps - video.width;vtcTiming.HSyncWidth = video.hpe - video.hps;vtcTiming.HBackPorch = video.hmax - video.hpe + 1;vtcTiming.HSyncPolarity = video.hpol;vtcTiming.VActiveVideo
    的头像 发表于 05-16 09:46 2216次阅读
    FPGA 大神 <b class='flag-5'>Adam</b> Taylor 使用 ALINX VD100(AMD Versal系列)开发平台实现图像处理

    KaihongOS操作系统FA模型与Stage模型介绍

    FA模型与Stage模型介绍 KaihongOS操作系统中,FA模型(Feature Ability)和Stage模型是两种不同的应用模型
    发表于 04-24 07:27

    如何将 ADAM 采集模块的 Modbus 原始值转换成物理值?

    在工业数据采集领域,ADAM系列模块的Modbus原始值转换是工程师常见的技术挑战。本文苏州研讯电子科技有限公司将通过具体案例,解析16位数据转换的底层逻辑与实操步骤,帮助您快速实现原始数据到物理量
    的头像 发表于 04-07 11:17 583次阅读
    如何将 <b class='flag-5'>ADAM</b> 采集模块的 Modbus 原始值转换成物理值?

    如何将Cycle模型转换为中间表示 (IR)?

    转换后的 TensorFlow* 1 Cycle ECLIPSE 非冻结模型。 mo --input_meta_graph cyclegan.model-2002.meta 收到错误
    发表于 03-06 07:56

    明晚开播 |数据智能系列讲座第5期:理解并改进基础模型

    鹭岛论坛数据智能系列讲座第5期「理解并改进基础模型」明晚(19号)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目理解并改进基础模型报告简介大型基础
    的头像 发表于 02-18 17:23 931次阅读
    明晚开播 |数据智能系列讲座第5期:理解并<b class='flag-5'>改进</b>基础<b class='flag-5'>模型</b>

    直播预约 |数据智能系列讲座第5期:理解并改进基础模型

    鹭岛论坛数据智能系列讲座第5期「理解并改进基础模型」2月19日(周三)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目理解并改进基础模型报告简介大型基础
    的头像 发表于 02-11 14:33 698次阅读
    直播预约 |数据智能系列讲座第5期:理解并<b class='flag-5'>改进</b>基础<b class='flag-5'>模型</b>

    FPC&FFC连接器图纸

    Adam Tech PCB系列柔性印刷电路(FPC)和柔性扁平电缆(FFC)连接器是LIF(低插入力)设计,可提供低成本,快速,轻松可靠的柔性印刷电路到PCB的连接。Adam Tech的特殊触点
    发表于 01-08 17:57 3次下载

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    介绍了如何使用分类任务进行手写数字的分类。相信大家脑海中可能会产生如下疑问: 数据依赖性强:分类模型的表现通常依赖于大量的标注数据进行训练。获取高质量、大规模的数据集既耗时又昂贵。 泛化能力有限:模型
    发表于 12-19 14:33

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    在客服领域是大模型落地场景中最多的,也是最容易实现的。本身客服领域的特点就是问答形式,大模型接入难度低。今天跟随《大模型启示录 》这本书,学习大模型在客服领域的改变。选择大
    发表于 12-17 16:53