0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习中低精度计算产生高准确度结果的解决方案

zhKF_jqr_AI 2018-03-29 16:16 次阅读

有人认为,用低精度训练机器学习模型会限制训练的精度,事实真的如此吗?本文中,斯坦福大学的DAWN人工智能研究院介绍了一种名为bit recentering的技术,它可以用低精度的计算实现高准确度的解决方案。以下是论智对原文的编译,文末附原论文地址。

低精度计算在机器学习中已经吸引了大量关注。一些公司甚至已经开始研发能够原生支持并加速低精度操作的硬件了,比如微软的脑波计划(Project Brainwave)和谷歌的TPU。虽然使用低精度计算对系统来说有很多好处,但是低精度方法仍然主要用于推理,而非训练。此前,低精度训练算法面临着一个基本困境(fundamental tradeoff):当使用较少的位进行计算时,舍弃误差就会增加,这就限制了训练的准确度。根据传统观点,这种制约限制了研究人员在系统中部署低精度训练算法的能力,但是这种限制能否改变?是否有可能设计一种使用低精度却不会限制准确度的算法呢?

答案是肯定的。在某些情况下我们可以从低精度训练中获得高准确度的解决方案,在这里我们使用了一种新的随机梯度下降方法,称为高准确度低精度(HALP)法。HALP比之前的算法表现更好,因为它减少了两个限制低精度随机梯度下降准确度的噪声源:梯度方差和舍弃误差。

为了减少梯度方差带来的噪音,HALP使用常见的SVRG(stochastic variance-reduced gradient)技术。SVRG能定期使用完全梯度来减少随机梯度下降中使用的梯度样本的方差。

为了降低量化数字带来的噪声,HALP使用了名为“bit centering”的新技术,它背后的原理是,当我们接近最优点时,梯度渐变的幅度变小。也就是说携带的信息变少,于是我们能对其进行压缩。通过动态地重新调整低精度数字,我们可以在算法收敛时降低量化噪声。

将这两种技术结合,HALP能够以和全精度SVRG同样的线性收敛率生成任意准确地解决方案,同时在低精度迭代时使用的是固定位数。这个结果颠覆了有关低精度训练算法的传统观点。

为什么低精度的随机梯度下降有所限制?

首先先交代一下背景:我们想要解决以下这个训练问题:

这是用来训练许多机器学习模型(包括深度神经网络)的经典实证问题:让风险最小化。解决这个问题的标准方法之一是随机梯度下降,它是一种通过运行接近最佳值的迭代算法。

在每次迭代时,it是从{1,..., N}中随机挑选的一个指数,我们虽然想运行这样的算法,但是要保证迭代wt是低精度的。也就是说,我们希望它们使用较少位的定点运算(通常为8位或16位)。但是,当直接对随机梯度下降更新规则而进行这项操作时,我们遇到了问题:问题的解决方案w可能无法再选中的定点表示中显示出来。例如,如果一个8位的定点表示,可以储存{-128,-127,…,127}之间的整数,正确的解决方法是w*=100.5,那么我们与解决方案的距离不可能小于0.5,因为我们不能表示非整数。除此之外,将梯度转换为定点导致的舍弃误差可能会减慢收敛速度,这也影响了低精度SGD的准确性。

Bit Centering

当我们运行随机梯度下降时,在某种意义上,我们世纪正对一堆梯度样本进行平均(或总结)。Bit Centering背后的关键思想是随着梯度渐变逐渐变小,我们可以用同样的位数、以较小的误差对它们求平均值。想要知道为什么,想像一下,你想对[-100, 100]之间的数字求平均值,然后和[-1, 1]的平均值作比较。在前一个集合中,我们需要选择一个定点表示,它可以覆盖整个集合(例如{-128,-127,…,127})。而在第二个集合中,我们选择的定点要覆盖[-1, 1],例如{-128/127,-127/127,..., 126/127,127/127}。这就意味着在固定位数情况下,第二种情况中的相邻可表示数字之间的差值比第一种情况更小,因此舍弃误差也更低。

这个关键的想法让我们得到了启发。为了在[-1, 1]中求出比[-100, 100]中更少误差的平均数,我们需要用一个不同的定点表示,即我们应该不断更新低精度表示:随着梯度渐变得越小,我们应该用位数更小的定点数字,覆盖更小的范围。

但是我们该如何更新表示呢?我们要覆盖的范围到底多大?如果目标是带有参数μ的强凸,那么不管我们何时在某一点w采取完整的梯度渐变是,都可以用以下公式限制最佳位置

这种不等式为最终的解决方案提供了一系列可能的定位,所以无论何时计算完整梯度,我们都可以重新居中并缩放低精度表示以覆盖此范围。下图说明了这一过程。

低精度计算产生高准确度结果的解决方案

HALP

HALP是运行SVRG并在每个时期都使用具有完全梯度的bit centering更新低精度表示的算法。原论文有对这一方法的具体描述,在这里我们只简单做些介绍。首先,我们证明了,对于强凸的Lipschitz光滑函数,只要我们使用的位数b满足

其中κ是该问题的条件数字,那么为了适当设置尺寸和时间长度,HALP将以线性速度收敛到任意准确度的解。更显然的是,0<γ<1,

其中wk+1表示第K次迭代后的值。下表表现了这一变化过程

低精度计算产生高准确度结果的解决方案

图表通过对具有100个特征和1000个样本的合成数据集进行线性回归,来评估HALP。将它与全精度梯度下降、SVRG、低精度的梯度下降和低精度的SVRG进行比较。需要注意的是,尽管只有8位(受到浮点错误的限制),HALP仍能收敛到精度非常高的结果上。在这种情况下,HALP可以比全精度SVRG收敛到更高精度的结果中,因为HALP较少使用浮点运算,因此对浮点的非准确性不敏感。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8112

    浏览量

    130545

原文标题:斯坦福DAWN实验室实现用低精度计算产生高准确度结果

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何用ADUC845产生准确度的脉冲?

    希望用aduc845产生如下占空比的精准脉冲: 希望200us周期和20us高电平时间非常准确。 现在用Time0 在6MHz产生时,20us脉冲的浮动比较大,有2~3us的变化;200us的周期
    发表于 01-11 08:18

    湿度传感器的哪些特性影响测量准确度

    湿度传感器的哪些特性影响测量准确度? 湿度传感器测量准确度受到许多特性的影响。下面将详细介绍影响湿度传感器测量准确度的一些重要特性。 1. 温度 湿度传感器的测量准确度受环境温度的影响
    的头像 发表于 12-25 14:28 451次阅读

    请问要达到0.05%的测量精度,需要多少位分辨率和准确度的ADC?

    请问要达到0.05%的测量精度,需要多少位分辨率和准确度的ADC。 能不能推荐几款,最好是能有2路同时输入的高精度ADC.
    发表于 12-18 06:54

    ADAS3022怎样能提高ADC的测量准确度呢?

    在调试ADAS3022这颗ADC时每次测量会有30+mV的波动,信号源电压波动不到0.1mV,怎样能提高ADC的测量准确度呢?下图为不同次测量的值(信号源1.1V),感觉误差挺大:
    发表于 12-04 07:39

    在ADC输入内阻不配情况下提高ADC准确度方法

    在ADC输入内阻不配情况下提高ADC准确度方法
    发表于 10-19 07:39

    一种高精度电子秤的设计

    能够达到较高的准确度和可靠性,但他们使用的称重传感器的成本都非常,这样就使得整机的成本过高。由于这些不足之处的存在,本研究设计一种高精度、低成本的电子秤。该设计采用HX711芯片对传感器输出的信号进行放大和模数转换,采用中位值
    发表于 09-19 07:44

    测量仪表的准确度等级

    ΔA与被测量的真值A 0 之比的百分数,用符号γ表示,即: γ=ΔA/A 0 ×100% 3、引用误差 引用误差是仪表的基本误差,等于绝对误差ΔA与仪表测量上限A m 之比的百分数,用符号γ m 表示,即: γ m =ΔA/A m ×100% 二、测量仪表的准确度等级 测量仪表的
    的头像 发表于 09-18 14:37 3754次阅读

    Sentry ND网络防御:实时无监督机器学习解决方案

    电子发烧友网站提供《Sentry ND网络防御:实时无监督机器学习解决方案.pdf》资料免费下载
    发表于 09-13 10:19 0次下载
    Sentry ND网络防御:实时无监督<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>解决方案</b>

    机器学习是什么意思?机器学习属于什么分支?机器学习有什么用处?

    的技术。在这个过程中,计算机通过不断地迭代和学习,提高算法的准确性和可靠性,从而可以更好地解决各种实际问题。 机器学习属于
    的头像 发表于 08-17 16:30 1271次阅读

    如何通过低频热噪声来提高电源的准确度精度

    工程师在为采用时钟、数据转换器或放大器的医疗应用、测试和测量以及无线基础设施的噪声敏感型系统设计电源时,经常遇到的一个问题是如何提高准确度精度,并最大限度降低系统噪声。鉴于不同的人对“噪声”这个
    的头像 发表于 07-03 17:47 898次阅读
    如何通过低频热噪声来提高电源的<b class='flag-5'>准确度</b>和<b class='flag-5'>精度</b>?

    机器视觉精度检测

    机器视觉精度检测 机器视觉检测技术及应用随着越来越多的制造商使用机器视觉系统,必须确保检测系统尽可能准确和高效,同时有正确的
    发表于 06-29 11:18 587次阅读

    高精密激光锡球焊,高精度准确度# 激光锡球焊

    激光
    武汉松盛光电科技有限公司
    发布于 :2023年06月29日 09:55:40

    探头及附件的准确度如何验证?

    探头及附件的准确度如何验证呢,今天我们通过一则实例来学习一下。
    的头像 发表于 06-06 09:34 324次阅读
    探头及附件的<b class='flag-5'>准确度</b>如何验证?

    高压电源对精度准确度有什么需求

    用于高压应用的动力导轨通常需要低噪声和紧负荷的线路调节。本文讨论了“精度”和“准确度”是如何分开考虑的,以及它们在功率转换器设计中通常是如何实现的。
    发表于 05-02 16:11 352次阅读
    高压电源对<b class='flag-5'>精度</b>和<b class='flag-5'>准确度</b>有什么需求