0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入浅出地介绍了牛顿法、动量法、RMSProp、Adam优化算法

zhKF_jqr_AI 来源:未知 作者:李倩 2018-10-08 09:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

编者按:DRDO研究人员Ayoosh Kathuria深入浅出地介绍了牛顿法、动量法、RMSProp、Adam优化算法

本系列的上一篇文章介绍了随机梯度下降,以及如何应对陷入局部极小值或鞍点的问题。在这篇文章中,我们将查看另一个困扰神经网络训练的问题,病态曲率。

局部极小值和鞍点会使训练停滞,而病态曲率则会减慢训练速度,以至于机器学习从业者可能会觉得搜索收敛到了一个次优极小值。让我们深入了解下什么是病态曲率。

病态曲率

考虑下面的损失曲面。

如你所见,我们从随机点开始,渐渐进入蓝色的沟壑区。(颜色表示损失函数在特定点的值是高是低,红色表示高值,蓝色表示低值。)

在到达最小值之前,我们需要首先穿过沟壑区,也就是病态曲率。让我们放大一下这一区域,看看为什么称病态?

红线为梯度下降的路径;蓝线为理想路径

如上图所示,梯度下降在沟壑区的脊间反复振荡,极其缓慢地向最小值处移动。这是因为w1方向要陡峭得多。

考虑下图中A点的梯度,可以分解为w1、w2方向的两个分量。w1方向的梯度要大很多,因此梯度的方向大为偏向w1,而不是w2(但w2才是能够更快到达最小值处的梯度方向)。

通常情况下,我们使用低学习率来应对这样的反复振荡,但在病态曲率区域使用低学习率,可能要花很多时间才能达到最小值处。事实上,有论文报告,防止反复振荡的足够小的学习率,也许会导致从业者相信损失完全没有改善,干脆放弃训练。

大概,我们需要找到一种方法,首先缓慢地进入病态曲率的平坦底部,然后加速往最小值方向移动。二阶导数可以帮助我们做到这一点。

牛顿法

梯度下降是一阶优化方法。它只考虑损失函数的一阶导数,不考虑高阶函数。基本上这意味着它对损失函数的曲率一无所知。梯度下降可以告诉我们损失是否下降,下降得有多快,但无法区分曲线的的弯曲程度。

上图三条曲线,红点处的梯度都是一样的,但曲率大不一样。解决方案?考虑二阶导数,或者说梯度改变得有多快。

使用二阶导数解决这一问题的一个非常流行的技术是牛顿法(Newton's Method)。为了避免偏离本文的主题,我不会过多探究牛顿法的数学。相反,我将尝试构建牛顿法的直觉。

牛顿法可以提供向梯度方向移动的理想步幅。由于我们现在具备了损失曲面的曲率信息,步幅可以据此确定,避免越过病态曲率的底部。

牛顿法通过计算Hessian矩阵做到这一点。Hessian矩阵是损失函数在所有权重组合上的二阶导数的矩阵。

Hessian提供了损失曲面每一点上的曲率估计。正曲率意味着随着我们的移动,损失曲面变得不那么陡峭了。负曲率则意味着,损失曲面变得越来越陡峭了。

注意,如果这一步的计算结果是负的,那就意味着我们可以切换回原本的算法。这对应于下面梯度变得越来越陡峭的情形。

然而,如果梯度变得越来越不陡峭,那么我们也许正向病态曲率的底部移动。这时牛顿算法提供了一个修正过的学习步幅,和曲率成反比。换句话说,如果损失曲面变得不那么陡峭,学习步幅就下降。

为何我们不常使用牛顿法?

你已经看到公式中的Hessian矩阵了。Hessian矩阵需要我们计算损失函数在所有权重组合上的梯度。也就是说,需要做的计算的数量级是神经网络所有权重数量的平方。

现代神经网络架构的参数量可能是数亿,计算数亿的平方的梯度在算力上不可行。

虽然高阶优化方法在算力上不太可行,但二阶优化关于纳入梯度自身如何改变的想法是可以借鉴的。虽然我们无法准确计算这一信息,但我们可以基于之前梯度的信息使用启发式算法引导优化过程。

动量

搭配SGD使用的一个非常流行的技术是动量(Momentum)。动量法不仅使用当前的梯度,同时还利用之前的梯度提供的信息。

上面的第一个等式就是动量,动量等式由两部分组成,第一项是上一次迭代的动量,乘以“动量系数”。

比如,假设我们将初始动量v设为0,系数定为0.9,那么后续的更新等式为:

我们看到,后续的更新保留了之前的梯度,但最近的梯度权重更高。(致喜欢数学的读者,这是梯度的指数平均。)

下面我们来看看动量法如何帮助我们缓解病态曲率的问题。下图中,大多数梯度更新发生在之字形方向上,我们将每次更新分解为w1和w2方向上的两个分量。如果我们分别累加这些梯度的两个分量,那么w1方向上的分量将互相抵消,而w2方向上的分量得到了加强。

也就是说,基于动量法的更新,积累了w2方向上的分量,清空了w1方向上的分量,从而帮助我们更快地通往最小值。从这个意义上说,动量法也有助于抑制振荡。

动量法同时提供了加速度,从而加快收敛。但你可能想要搭配模拟退火,以免跳过最小值。

在实践中,动量系数一般初始化为0.5,并在多个epoch后逐渐退火至0.9.

RMSProp

RMSProp,也就是均方根传播的历史很有趣。它是传奇人物Geoffrey Hinton在Coursera授课时初次提出的。

RMSProp也试图抑制振荡,但采取的方法和动量不同。此外,RMSProp可以自动调整学习率。还有,RMSProp为每个参数选定不同的学习率。

在第一个等式中,类似之前的动量法,我们计算了梯度平方的指数平均。由于我们为每个参数单独计算,这里的梯度gt表示正更新的参数上的梯度投影。

第二个等式根据指数平均决定步幅大小。我们选定一个初始学习率η,接着除以平均数。在我们上面举的例子中,w1的梯度指数平均比w2大得多,所以w1的学习步幅比w2小得多。这就帮助我们避免了脊间振荡,更快地向最小值移动。

第三个等式不过是权重更新步骤。

上面的等式中,超参数ρ一般定为0.9,但你可能需要加以调整。等式2中的ε是为了确保除数不为零,一般定为1e-10.

注意RMSProp隐式地应用了模拟退火。在向最小值移动的过程中,RMSProp会自动降低学习步幅,以免跳过最小值。

Adam

Adam,即Adaptive Moment Optimization算法结合了动量和RMSProp的启发式算法。

这里,我们计算了梯度的指数平均和梯度平方的指数平均(等式1和等式2)。为了得出学习步幅,等式3在学习率上乘以梯度的平均(类似动量),除以梯度平方平均的均方根(类似RMSProp)。等式4是权重更新步骤。

超参数β1一般取0.9,β2一般取0.99. ε一般定为1e-10.

结语

本文介绍了三种应对病态曲率同时加速训练过程的梯度下降方法。

在这三种方法之中,也许动量法用得更普遍,尽管从论文上看Adam更吸引人。经验表明这三种算法都能收敛到给定损失曲面的不同的最优局部极小值。然而,动量法看起来要比Adam更容易找到比较平坦的最小值,而自适应方法(自动调整学习率)倾向于迅速地收敛于较尖的最小值。比较平坦的最小值概括性更好。

尽管这些方法有助于我们驯服深度网络难以控制的损失平面,随着网络日益变深,它们开始变得不够用了。除了选择更好的优化方法,有相当多的研究试图寻找能够生成更平滑的损失曲面的架构。批量归一化(Batch Normalization)和残差连接(Residual Connections)正是这方面的两个例子。我们会在后续的文章中详细介绍它们。但这篇文章就到此为止了

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106829
  • 函数
    +关注

    关注

    3

    文章

    4406

    浏览量

    66863

原文标题:深度学习优化算法入门:二、动量、RMSProp、Adam

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AES加解密算法逻辑实现及其在蜂鸟E203SoC上的应用介绍

    这次分享我们会简要介绍AES加解密算法的逻辑实现,以及如何将AES算法做成硬件协处理器集成在蜂鸟E203 SoC上。 AES算法介绍 AE
    发表于 10-29 07:29

    易二代充电枪解锁充电新境界

    的基础上采用零锁枪方案和更轻的枪体设计,重新定义充电新体验。传统锁枪机制因操作复杂或故障率高,易引发用户抱怨。易推出零锁枪方案,用户无需等待,即插即用,大幅提升
    的头像 发表于 07-07 10:41 493次阅读
    <b class='flag-5'>法</b><b class='flag-5'>法</b>易二代充电枪解锁充电新境界

    100微电容怎么测量

    本文介绍三种主流测量电容的方法:万用表直接测量、指针式万用表、差动式直流充电。其中,万用表直接测量操作简单、成本低,适合现场维修等场
    的头像 发表于 06-22 09:52 1591次阅读
    100微<b class='flag-5'>法</b>电容怎么测量

    VirtualLab:光栅的优化与分析

    算法: TEA和FMM(也称为RCWA)。比较不同周期的两种类型的光栅(正弦和闪耀)结果。 倾斜光栅的参数优化及公差分析 以傅里叶模态(FMM)作为参数
    发表于 05-23 08:49

    门老师教你快速看懂电子电路图

    本文从最基本的电容电阻开讲,包含模电数电,以及部分电气知识点,深入浅出。 资料介绍: 全文共分7课,以老师授课和师生交流的形式系统地介绍电子电路识图方面的基本知识和技能,包括电路图的
    发表于 05-16 15:17

    程序设计与数据结构

    的地址)出发,采用推导的方式,深入浅出的分析广大C程序员学习和开发中遇到的难点。 2. 从方法论的高度对C语言在数据结构和算法方面的应用进行了深入讲解和阐述。 3. 讲解了绝大多
    发表于 05-13 16:45

    深入浅出解析低功耗蓝牙协议栈

    深入Bluetooth LE协议栈各个组成部分之前,我们先看一下Bluetooth LE协议栈整体架构。 如上图所述,要实现一个Bluetooth LE应用,首先需要一个支持Bluetooth
    的头像 发表于 04-09 14:49 1020次阅读
    <b class='flag-5'>深入浅出</b>解析低功耗蓝牙协议栈

    2025 中国华东智能家居创新技术研讨会现场直击,高精度算法如何改变生活?--其利天下

    在此次展会上,我司技术总监冯建武先生带来了《智能家居的 “心脏” 革命:高精度电机驱动算法如何重塑未来生活》的演讲,深入浅出地阐述我司目前在无刷马达自适应算法、FOC控制
    的头像 发表于 03-30 11:11 843次阅读
    2025 中国华东智能家居创新技术研讨会现场直击,高精度<b class='flag-5'>算法</b>如何改变生活?--其利天下

    易400A风冷充电枪助力电动重卡充电提速

    易官方消息,易400A风冷充电枪已成功在重卡充电站上得到了广泛的应用。目前重卡充电在行业内受到广泛的关注,
    的头像 发表于 03-18 16:29 1225次阅读
    <b class='flag-5'>法</b><b class='flag-5'>法</b>易400A风冷充电枪助力电动重卡充电提速

    《零基础开发AI Agent——手把手教你用扣子做智能体》

    《零基础开发AI Agent——手把手教你用扣子做智能体》是一本为普通人量身打造的AI开发指南。它不仅深入浅出地讲解了Agent的概念和发展,还通过详细的工具介绍和实战案例,帮助读者快速掌握
    发表于 03-18 12:03

    VirtualLab Fusion应用:非近轴衍射分束器的设计与优化

    介绍这一部分。 非近轴衍射分束器的严格分析 采用傅里叶模态(FMM)对非近轴衍射分束器进行了严格的评价,该方法最初采用迭代傅里叶变换算法(IFTA)和薄元近似
    发表于 03-10 08:56

    VirtualLab Fusion应用:参数优化文档介绍

    摘要 VirtualLab Fusion的参数优化文档使用户能够为其光学装置应用非线性优化算法。该文档指导您完成优化配置并最终输出结果。这个用例解释
    发表于 02-28 08:44

    半导体STGAP3S系列电隔离栅极驱动器概述

    半导体的STGAP3S系列碳化硅(SiC)和 IGBT功率开关栅极驱动器集成了意半导体最新的稳健的电隔离技术、优化的去饱和保护功能和灵活的米勒钳位架构。
    的头像 发表于 01-09 14:48 1208次阅读

    深居AutoCAD二次开发

    深居AutoCAD二次开发,net版
    发表于 01-06 14:12 12次下载

    持续深耕 坚守品质|易荣获2024年中国充电设施行业质量金奖!

    充电设施领域的卓越表现和持续创新,荣获“2024年中国充电设施行业质量金奖”。此次获奖不仅是对法易产品质量的认可,同时也督促我们向更高的目标前进,为充电市场带
    的头像 发表于 01-02 09:41 847次阅读
    持续深耕  坚守品质|<b class='flag-5'>法</b><b class='flag-5'>法</b>易荣获2024年中国充电设施行业质量金奖!