侵权投诉

中国博士生Liyuan Liu提出了一个新的优化器RAdam

通信信号处理研究所 2019-12-06 15:32 次阅读

找到一种快速稳定的优化算法,是所有AI研究人员的目标。

但是鱼和熊掌不可兼得。Adam、RMSProp这些算法虽然收敛速度很快,当往往会掉入局部最优解的“陷阱”;原始的SGD方法虽然能收敛到更好的结果,但是训练速度太慢。

最近,一位来自UIUC的中国博士生Liyuan Liu提出了一个新的优化器RAdam。

它兼有Adam和SGD两者的优点,既能保证收敛速度快,也不容易掉入局部最优解,而且收敛结果对学习率的初始值非常不敏感。在较大学习率的情况下,RAdam效果甚至还优于SGD。

RAdam意思是“整流版的Adam”(Rectified Adam),它能根据方差分散度,动态地打开或者关闭自适应学习率,并且提供了一种不需要可调参数学习率预热的方法。

一位Medium网友Less Wright在测试完RAdam算法后,给予了很高的评价:

RAdam可以说是最先进的AI优化器,可以永远取代原来的Adam算法了。

目前论文作者已将RAdam开源,FastAI现在已经集成了RAdam,只需几行代码即可直接调用。

补众家之短

想造出更强的优化器,就要知道前辈们的问题出在哪:

像Adam这样的优化器,的确可以快速收敛,也因此得到了广泛的应用。

但有个重大的缺点是不够鲁棒,常常会收敛到不太好的局部最优解 (Local Optima) ,这就要靠预热 (Warmup)来解决——

最初几次迭代,都用很小的学习率,以此来缓解收敛问题。

为了证明预热存在的道理,团队在IWSLT’14德英数据集上,测试了原始Adam和带预热的Adam。

结果发现,一把预热拿掉,Transformer语言模型的训练复杂度 (Perplexity) ,就从10增到了500。

另外,BERT预训练也是差不多的情况。

为什么预热、不预热差距这样大?团队又设计了两个变种来分析:

缺乏样本,是问题根源

一个变种是Adam-2k:

在前2000次迭代里,只有自适应学习率是一直更新的,而动量 (Momentum) 和参数都是固定的。除此之外,都沿袭了原始Adam算法。

实验表明,在给它2000个额外的样本来估计自适应学习率之后,收敛问题就消失了:

另外,足够多的样本可以避免梯度分布变扭曲 (Distorted) :

这些发现证明了一点:早期缺乏足够数据样本,就是收敛问题的根源。

下面就要证明,可以通过降低自适应学习率的方差来弥补这个缺陷。

降低方差,可解决问题

一个直接的办法就是:

把ψ-cap里面的ϵ增加。假设ψ-cap(. ) 是均匀分布,方差就是1/12ϵ^2。

这样就有了另一个变种Adam-eps。开始把ϵ设成一个可以忽略的1×10^-8,慢慢增加,到不可忽略的1×10^-4。

从实验结果看,它已经没有Adam原本的收敛问题了:

这就证明了,真的可以通过控制方差来解决问题。另外,它和Adam-2k差不多,也可以避免梯度分布扭曲。

然而,这个模型表现比Adam-2k和带预热的Adam差很多。

推测是因为ϵ太大,会给自适应学习率带来重大的偏差 (Bias) ,也会减慢优化的过程。

所以,就需要一个更加严格的方法,来控制自适应学习率。

论文中提出,要通过估算自由度ρ来实现量化分析。

RAdam定义

RAdam算法的输入有:步长αt;衰减率{β1, β2},用于计算移动平均值和它的二阶矩。

输出为θt。

首先,将移动量的一阶矩和二阶矩初始化为m0,v0,计算出简单移动平均值(SMA)的最大长度ρ∞←2/(1-β2)-1。

然后按照以下的迭代公式计算出:第t步时的梯度gt,移动量的二阶矩vt,移动量的一阶矩mt,移动偏差的修正和SMA的最大值ρt。

如果ρ∞大于4,那么,计算移动量二阶矩的修正值和方差修正范围:

如果ρ∞小于等于4,则使用非自适应动量更新参数:

以上步骤都完成后,得出T步骤后的参数θT。

测试结果

RAdam在图像分类任务CIFAR-10和ImageNet上测试的结果如下:

尽管在前几个周期内整流项使得RAdam比Adam方法慢,但是在后期的收敛速度是比Adam要更快的。

尽管RAdam在测试精度方面未能超越SGD,但它可以带来更好的训练性能。

此外,RAdam算法对初始学习率是具有鲁棒性的,可以适应更宽范围内的变化。在从0.003到0.1一个很宽的范围内,RAdam表现出了一致的性能,训练曲线末端高度重合。

亲测过的网友Less Wright说,RAdam和他今年测试的许多其它论文都不一样。

其他方法常常是在特定数据集上有良好的效果,但是放在新的数据集上往往表现不佳。

而RAdam在图像分类、语言建模,以及机器翻译等等许多任务上,都证明有效。

(也侧面说明,机器学习的各类任务里,广泛存在着方差的问题。)

Less Wright在ImageNette上进行了测试,取得了相当不错的效果(注:ImageNette是从ImageNet上抽取的包含10类图像的子集)。在5个epoch后,RAdam已经将准确率快速收敛到86%。

如果你以为RAdam只能处理较小数据集上的训练,或者只有在CNN上有较好的表现就大错特错了。即使大道有几十亿个单词的数据集的LSTM模型,RAdam依然有比Adam更好的表现。

总之,RAdam有望提供更好的收敛性、训练稳定性,以及几乎对所有AI应用都用更好的通用性。

关于作者

论文的作者Liyuan Liu是一位90后,本科毕业于中国科学技术大学,曾在微软亚洲研究院实习。而这项工作,也得益于与微软的合作。

早在本科期间,Liyuan Liu就师从国家杰出青年基金获得者,中科大陈恩红教授,以第一作者的身份在ICDM发表过文章。

2016年,Liyuan Liu小哥本科毕业,加入了美国伊利诺伊大学香槟分校数据挖掘小组(DMG),成为美国计算机协会和IEEE院士韩家炜教授课题组的一名CS博士,从事NLP研究。

读博以来,Liyuan Liu开始在各大顶会上崭露头角。在2018年NLP领域国际顶会EMNLP当中,他的一作论文《Efficient Contextualized Representation: Language Model Pruning for Sequence Labeling》就被收录为口头报告。

又是一位闪闪发光的少年英才啊。

论文地址:
https://arxiv.org/abs/1908.03265v1

源代码:
https://github.com/LiyuanLucasLiu/RAdam

原文标题:中国博士生提出最先进AI训练优化器,收敛快精度高,网友亲测:Adam可以退休了

文章出处:【微信号:tyutcsplab,微信公众号:通信信号处理研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

中美包揽2019年全球前五大AI企业

知名商业管理杂志《哈佛商业评论》在不久前公布了2019年全球AI公司前5名的榜单,当中有我们都十分熟....
的头像 荷叶塘 发表于 01-22 09:25 521次 阅读
中美包揽2019年全球前五大AI企业

香港科技园公司于A.I.R. Week为机械人技术促进中心2.0及AI PLUG正式揭幕

香港科技园公司(科技园公司)今日启动人工智能及机械人技术活动周(A.I.R. Week),并为机械人....
发表于 01-21 14:32 171次 阅读
香港科技园公司于A.I.R. Week为机械人技术促进中心2.0及AI PLUG正式揭幕

AI芯片战火蔓延 国内芯片公司开始蠢蠢欲动

AI不仅是最大科技热点,也是未来数十年科技发展趋势。伴随着这股热潮,AI芯片成为了半导体行业的新风向....
发表于 01-19 16:31 94次 阅读
AI芯片战火蔓延 国内芯片公司开始蠢蠢欲动

砸2亿美元!苹果收购AI初创公司的真实原因

苹果花费了大量时间,金钱和资源来使用人工智能(AI)使其设备(尤其是iPhone)变得更加智能,这已....
的头像 刘伟DE 发表于 01-19 04:43 1123次 阅读
砸2亿美元!苹果收购AI初创公司的真实原因

在AI加持下 全屋智能安防体系建设速度加快

随着AI相关技术的深入发展与落地使用,传统安防行业加快了智能化转型升级,开始涵盖更多领域,智能家居行....
发表于 01-18 08:51 30次 阅读
在AI加持下 全屋智能安防体系建设速度加快

AI人脸识别赋能寻亲系统 用技术为破碎家庭保驾护航

近年来,随着科技的不断进步,我国失踪人口找寻从最初利用报案、登报、电视寻亲等手段,到后来依靠网络技术....
发表于 01-18 08:48 54次 阅读
AI人脸识别赋能寻亲系统 用技术为破碎家庭保驾护航

CES 深度:科技巨头布局了哪些方向?

美国当地时间1月7日至1月10日,一年一度的消费电子盛会CES2020在美国内华达州拉斯维加斯召开,....
的头像 刘伟DE 发表于 01-18 05:22 1285次 阅读
CES 深度:科技巨头布局了哪些方向?

比指纹识别、面部识别更安全的技术已在医院试用

如今智能手机的解锁方式以苹果的Face ID和安卓手机的指纹解锁为主,我们平常接触的最多的还有虹膜识....
的头像 独爱72H 发表于 01-17 17:56 879次 阅读
比指纹识别、面部识别更安全的技术已在医院试用

米兔儿童学习手表4Pro的性能评测与使用体验

儿童手表作为新一代少年儿童的标配,已经越来越多的在了中小学以及幼儿园广泛出现。作为家长联系到孩子的必....
的头像 牵手一起梦 发表于 01-17 17:38 1128次 阅读
米兔儿童学习手表4Pro的性能评测与使用体验

利用AI技术,英特尔让PC更加智能

当无人驾驶汽车在公路上飞驰的时候,它通过计算机视觉、车载终端、低延迟的无线网络、强大的云计算服务器等....
的头像 汽车玩家 发表于 01-17 16:50 472次 阅读
利用AI技术,英特尔让PC更加智能

Lunit完成2600万美元C轮融资 跨学科团队聚焦医疗AI

近日,动脉网获悉,韩国医疗AI企业Lunit完成了2600万美元C轮融资。该轮融资由新韩投资(Shi....
发表于 01-17 15:48 49次 阅读
Lunit完成2600万美元C轮融资 跨学科团队聚焦医疗AI

5G与AI将给数据中心带来了什么

随着2020年的到来,数据中心开始采用更新、更成熟的技术。具体来说,我们不仅将看到5G对边缘计算需求....
发表于 01-17 15:18 131次 阅读
5G与AI将给数据中心带来了什么

人工智能训狗设备,或与人类训练师效果一样

据外媒报道,训狗通常需要一位人类训狗师,但如果不是能否达到训练的目的呢?这正是这家名为Compani....
的头像 汽车玩家 发表于 01-17 15:18 461次 阅读
人工智能训狗设备,或与人类训练师效果一样

智能手机的AI处理器能做些什么

三年前,AI成为了智能手机的新卖点。一时间,支持AI特性的智能手机快速普及,AI性能表现成为了继CP....
的头像 汽车玩家 发表于 01-17 15:07 903次 阅读
智能手机的AI处理器能做些什么

5G与AI助力本季度台积电营收大增

据台湾媒体报道,台积电昨日预告,受5G与AI应用快速发展驱动,本季将是台积电历年最旺的第一季度。
的头像 汽车玩家 发表于 01-17 14:58 306次 阅读
5G与AI助力本季度台积电营收大增

韩国科技部启动AI国家战略,未来十年投资1万亿韩元用于技术研发

据国外媒体报道,韩国科技部今日公布了2020年度工作计划。根据计划,韩国科技部今年正式启动《人工智能....
的头像 牵手一起梦 发表于 01-17 14:52 479次 阅读
韩国科技部启动AI国家战略,未来十年投资1万亿韩元用于技术研发

人工智能芯片研发成功,未来手机将会如何变化

科技的发展,实在太快,几乎让人没弄明白是怎么一回事,一款新的科技产品又出现了。当前科技力量增长迅速,....
发表于 01-17 13:57 70次 阅读
人工智能芯片研发成功,未来手机将会如何变化

可用于水下形成清晰图像的机器学习算法,高度还原拍照颜色与亮度

你有过水下拍摄照片的经历吗?你是否注意到水下拍摄的图片总是有些模糊甚至失真?这是由于光的衰减和反向散....
的头像 牵手一起梦 发表于 01-17 13:50 188次 阅读
可用于水下形成清晰图像的机器学习算法,高度还原拍照颜色与亮度

天翼云十年耕耘 “5G+云+AI”早已蓄势待发

今天的5G、云计算、大数据、人工智能,推动着物理世界向信息化、智能化发展,撬动了各行各业的市场活力和....
发表于 01-17 13:43 66次 阅读
天翼云十年耕耘 “5G+云+AI”早已蓄势待发

“实时”天气预报可以借助人工智能来实现?

该研究利用谷歌自己训练的人工智能(AI)模型,能够大大增强“实时”天气预报的能力。
发表于 01-17 13:33 56次 阅读
“实时”天气预报可以借助人工智能来实现?

IBM对2020年人工智能发展有怎样的展望

人工智能不仅成功吸引了全世界的关注,而且还激发了人们的想象力。
发表于 01-17 11:53 54次 阅读
IBM对2020年人工智能发展有怎样的展望

Google AI发布一项新研究 可以“近乎即时”地预报天气

近日,据外媒报道,Google AI发布一项新研究,称可以“近乎即时”地预报天气。谷歌的研究人员描述....
发表于 01-17 11:47 70次 阅读
Google AI发布一项新研究 可以“近乎即时”地预报天气

人工智能芯片可以研发出“指甲手机”?

随着军事的发展,人工智能被投放民用市场,普及市场,推动了社会的全面进步。
发表于 01-17 11:42 118次 阅读
人工智能芯片可以研发出“指甲手机”?

人工智能赋能智能家居能带来什么

随着AI相关技术的深入发展与落地使用,传统安防行业加快了智能化转型升级,开始涵盖更多领域,智能家居行....
发表于 01-17 11:12 61次 阅读
人工智能赋能智能家居能带来什么

从云、网络到边缘和PC 英特尔的AI大时代即将到来

在CES 2020发布会上,英特尔回顾过去,展示了人工智能技术在防灾备灾、娱乐、体育等多个领域的应用....
发表于 01-17 11:10 54次 阅读
从云、网络到边缘和PC 英特尔的AI大时代即将到来

AI技术将助力医疗领域实现智能化

人工智能的最大机遇之一或许是医疗行业。据ReportLinker预测,到2025年,医疗行业的人工智....
发表于 01-17 10:13 199次 阅读
AI技术将助力医疗领域实现智能化

中国电信将如何打造5G+天翼云+AI战略的优势

中国电信天翼云经过十年耕耘,在云市场取得令人瞩目的成绩。据IDC及信通院数据显示,天翼云公有云市场份....
发表于 01-17 09:43 117次 阅读
中国电信将如何打造5G+天翼云+AI战略的优势

AI三类医疗器械和人工智能有直接的关系吗

这是我国首个应用人工智能技术的三类器械过审。而人工智能三类器械过审的通过,对于医疗AI行业来说是一件....
发表于 01-16 13:45 239次 阅读
AI三类医疗器械和人工智能有直接的关系吗

合作阿里巴巴和科大讯飞,友杰智新获得数千万融资

友杰智新于2019年12月获得数千万Pre-A轮融资,本轮由同威资本领投,驰星创投与天使轮投资方招商....
的头像 汽车玩家 发表于 01-16 11:52 711次 阅读
合作阿里巴巴和科大讯飞,友杰智新获得数千万融资

网龙AI教育机器人走进课堂 寓教于乐 ”未来课堂”带学生玩转AI

三年级的学生通过编程,让AI机器人说话,做表情,甚至能“私人订制”一个属于自己的AI机器人。13日,....
发表于 01-16 11:13 125次 阅读
网龙AI教育机器人走进课堂 寓教于乐 ”未来课堂”带学生玩转AI

关于人工智能改变税收行业的几种方式

政府正在医疗保健、交通运输、国防以及国家安全等诸多领域动用AI与机器人技术。各国政府对于这些新兴成果....
发表于 01-16 11:10 103次 阅读
关于人工智能改变税收行业的几种方式

借助人工智能来监测心率和压力指数

自互联网、移动装置和人工智能(AI)技术逐渐发展盛行后,远距医疗便成为近年来许多科技公司致力于投入的....
发表于 01-16 11:03 188次 阅读
借助人工智能来监测心率和压力指数

5G时代的到来 给AI、AR带来了加速落地的可能

助力传统行业数字化升级,这是李波的创业初衷。瑞欧威尔致力于转化AI人工智能技术适用于工业领域,提供适....
发表于 01-16 10:18 121次 阅读
5G时代的到来 给AI、AR带来了加速落地的可能

AI的发展增加了医疗隐私被侵犯的风险

据国外媒体报道,加州大学伯克利分校的一项新研究显示,人工智能的进步为人们健康数据的隐私性带来了新威胁....
发表于 01-16 10:15 506次 阅读
AI的发展增加了医疗隐私被侵犯的风险

AI颠覆的用户体验有多厉害

以前放在桌上的PC机很大,随后智能硬件开始走向笔记本、iPad、手机,甚至开始走向可穿戴,因此未来个....
发表于 01-16 09:56 362次 阅读
AI颠覆的用户体验有多厉害

Rokid发布全新AR眼镜 为行业客户打造的超强AI.AR助手

1月15日, 国内知名的交互科技公司Rokid在杭州举办2020 Rokid Open Day,这是....
发表于 01-16 09:54 183次 阅读
Rokid发布全新AR眼镜 为行业客户打造的超强AI.AR助手

中国AI看百度已是行业共识 百度AI约等于中国AI的底气

在人工智能这条赛道上,百度的技术实力又一次得到了业界权威的认可,这也让中国AI看百度的行业共识再度牢....
发表于 01-16 09:52 225次 阅读
中国AI看百度已是行业共识 百度AI约等于中国AI的底气

2030年会有多少工作会被替代

人工智能技术飞速发展。从阿尔法Go到自动驾驶,人工智能似乎一夜之间就充斥着我们生活和工作的方方面面。
发表于 01-16 09:51 98次 阅读
2030年会有多少工作会被替代

全系统机器人中餐厅亮相,手艺不亚于名厨水准

所谓“全系统”机器人餐厅,是实现了从中央厨房到冷链运输,再到店面餐饮机器人的全系统搭建与运营,通俗讲....
发表于 01-16 09:48 176次 阅读
全系统机器人中餐厅亮相,手艺不亚于名厨水准

人工智能全球2000位具有影响力的学者有哪一些

而当前人工智能领域热点研究话题位居前十的是:神经网络、卷积神经网络、机器学习、计算机视觉、移动设备、....
发表于 01-16 09:47 104次 阅读
人工智能全球2000位具有影响力的学者有哪一些

40家江苏AI企业盘点 江苏人工智能产业面临的挑战与机遇并存

回顾2014年,大量初创的人工智能公司集中出现。此后,随着资本进一步加持,全球范围内“Al”热潮不断....
发表于 01-16 09:43 134次 阅读
40家江苏AI企业盘点 江苏人工智能产业面临的挑战与机遇并存

除了AI还有这些领域加速落地 科技浪潮的新时代正在逐渐开启

随着AI在人们的日常生活和企业运作的应用中逐步深入,AI技术的落地已经出现了多元化和专属化的趋势。2....
发表于 01-16 08:44 87次 阅读
除了AI还有这些领域加速落地 科技浪潮的新时代正在逐渐开启

AI+大数据的组合,打造人与机器的全新世界

人类的发展伴随着科技的进步,科技进步解放了人类的双手,于是人类有更多的时间去享受生活,提升精神境界。
的头像 独爱72H 发表于 01-15 18:00 583次 阅读
AI+大数据的组合,打造人与机器的全新世界

2020的AI有哪一些预言

一直以来,5G的高速度、低时延、大容量特点都被认为会带来AI、移动XR、自动驾驶等行业的颠覆性的改变....
发表于 01-15 17:21 197次 阅读
2020的AI有哪一些预言

京东云与AI独创分布式网络负载均衡是如何做到的

人工智能和实体经济的深度融合,正在推动一个新的经济时代的到来。
发表于 01-15 17:14 125次 阅读
京东云与AI独创分布式网络负载均衡是如何做到的

AI应该怎样来判别客户的个性

他们将使人工智能系统失去社交性,运行算法并获得结果。对于处于此过程另一端的人们来说,该过程将没有透明....
发表于 01-15 17:04 144次 阅读
AI应该怎样来判别客户的个性

科技小达人全球领先品牌榜单发布 利亚德荣获两项品牌大奖

美国时间1月8日晚,在全球顶级消费电子展(CES 2020)举办期间,由国际数据集团主办的2019-....
的头像 说科技 发表于 01-15 16:53 519次 阅读
科技小达人全球领先品牌榜单发布 利亚德荣获两项品牌大奖

谷歌AI模型在即时预报降水的使用

据外媒报道,几周前,谷歌人工智能(AI)使用了一个机器学习模型来改进对乳腺癌的筛查工作。
的头像 汽车玩家 发表于 01-15 15:40 310次 阅读
谷歌AI模型在即时预报降水的使用

财务金融服务产业被人工智能做出了什么改变

AI是一种强大的科技,但当它与分析,区块链和物联网等技术相结合时,其功能呈指数级成长。
发表于 01-15 15:29 110次 阅读
财务金融服务产业被人工智能做出了什么改变

Socionext携手合作伙伴打造AI边缘服务器

SoC设计与应用技术领导厂商Socionext宣布,与鸿海和Network Optix携手,共同打造....
的头像 Duke 发表于 01-15 15:06 1116次 阅读
Socionext携手合作伙伴打造AI边缘服务器

阿里巴巴开源 Dragonwell JDK 最新版本 8.1.1-GA 发布

导读:新版本主要有三大变化:同步了 OpenJDK 上游社区 jdk8u222-ga 的最新更新;带来了正式的 feature:G1ElasticHeap;...
发表于 10-23 09:52 407次 阅读
阿里巴巴开源 Dragonwell JDK 最新版本 8.1.1-GA 发布

浅析开源软件LAMP

LAMP(源码编译)
发表于 10-15 10:16 106次 阅读
浅析开源软件LAMP

开源工具Sqoop的安装

Sqoop安装和导入导出
发表于 10-14 15:55 115次 阅读
开源工具Sqoop的安装

ELK开源工具

ELK日志分析系统
发表于 10-12 15:23 110次 阅读
ELK开源工具

请问TI-RIOS在工程中全部是开源的吗?

TI是否提供完全开源的TI-RIOS?
发表于 09-16 10:30 180次 阅读
请问TI-RIOS在工程中全部是开源的吗?

浅析Anaconda

什么是Anaconda?
发表于 09-06 07:45 195次 阅读
浅析Anaconda

关于开源协议,你知多少

软件在追求“自由”的同时,不能牺牲程序员的利益,否则将会影响程序员的创造激情,因此世界上现在有 60 多种被开源促进组织(O...
发表于 08-20 15:39 448次 阅读
关于开源协议,你知多少

Linux开发工具总结

Linux是一个优秀的开发环境,但是如果没有好的开发工具作为武器,这个环境给你带来的好处就会大打折扣。幸运的是,有很多好用的...
发表于 07-23 06:35 205次 阅读
Linux开发工具总结

ST 5.0开源电机库分享!

链接: 密码:juz7
发表于 07-22 04:35 404次 阅读
ST 5.0开源电机库分享!

开源webbloger Roller的安装记录

设置系统变量JAVA_HOME=c:/j2sdk142为你的JDK安装目录,然后安装tomcat,并设置系统变量CATALINA_HOME=d...
发表于 07-15 06:08 141次 阅读
开源webbloger Roller的安装记录