0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

2018年 什么样的芯片才能够真正适应终端智能的需求

mK5P_AItists 2018-01-25 09:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

概要:2017年,人工智能最火的风口一定是AI芯片。

2017年,人工智能最火的风口一定是AI芯片。

AI芯片的出现,与深度学习技术的成熟及应用密不可分。深度学习的过程可以简化理解为利用大量标注的数据进行训练,训练出一个行之有效的模型,再将这一模型运用于新数据的推断。

这个耳熟能详的爆款算法是建立在多层大规模神经网络之上的,后者本质上是包含了矩阵乘积和卷积操作的大运算量函数。往往需要先定义一个包含回归问题的方差、分类时的交叉熵的代价函数,再数据分批传递进网络,根据参数求导出代价函数值,从而更新整个网络模型。这通常意味着至少几百万次的相乘处理,计算量巨大。通俗来说,包含了数百万次A*B+C的计算,算力消耗巨大。

为解决这一问题,AI芯片应运而生。2017年开始,围绕AI芯片,半导体行业,战事升级,赛场上新老玩家暗潮涌动,连横合众,大有“AI芯片太多,设备都不够用了”之势。

时间进入2018年,备受关注的大小公司都将正式推出自研AI芯片。这些芯片也都被业界寄予厚望,是否能解决或者部分解决终端计算难题?什么样的芯片才能够真正适应终端智能的需求?

这些都是我们十分好奇且关注的问题。于是也与一些创业者进行了交流。本文即是其中的一篇,来自于与探境科技CEO鲁勇的访谈。目前探境科技正研发适用于终端的AI芯片,在创业前鲁勇曾在芯片厂商Marvell任高管,从事过存储芯片的相关工作,而存储正是计算之外所有芯片另一核心。基于过往的经历、经验与观察,鲁勇认为,做适用于终端的AI芯片,除了要在计算方面提升,存储优化同样至关重要。

以下为正文,来自36氪对鲁勇的访谈内容,36氪基于访谈内容对其观点进行了整理。

AI算法在芯片实现时遇到的核心问题不是计算资源而是存储问题,强如GPU提供众多的计算资源,而实际计算能力与计算资源大为降低。

概括来说,存储问题分为两个部分,一个是带宽问题,一个是功耗问题,这两个问题的解决其实也是耦合在一起的。

具体来说,深度学习算法使用大量存储资源,即包括静态模型参数,也包括网络层之间的动态数据。对于静态模型参数权重,动辄几十兆上百兆样本数量,无法在片上SRAM保存,因此需要存入外部DRAM。DRAM与AI计算芯片间带宽有限,如果芯片上计算资源很大,但受存储带宽的瓶颈限制,实际计算力大为下降。

打比方来说,负责存储的DRAM和与负责计算的芯片就像是位于河两岸的仓库,整个运算的过程可以类比从存储的仓库搬取数据、搬运过桥,将数据搬入计算的单元进行处理,并高速循环往复。而当前的AI芯片技术重点提升将数据搬入计算单元后的处理速度,但因为搬出数据、过桥的过程基本未发送变化,因此整体的效率提升还相对有限。

与之对应的方法即是克服存储带宽的手段:一是减少数据量,降低所需数据带宽,就是说想办法只要从仓库搬出少量数据,就可以达到同样的效果;二是更科学的调度数据使用,提升调度的效率。

(1)减少数据容量

如果数据量降低了,这将总体上减少对DRAM的访问,在DRAM物理带宽保持不变的前提下,降低了DRAM的依赖性,提高了整体性能,同时减少DRAM访问也将大幅减少系统功耗开销。因此首先需要解决的问题是减少静态参数权重的大小。通常的解决办法包括参数定点化,将每个32bit浮点数减少为16bit以下的定点数,至少能降低50%甚至75%的存储容量,也同样幅度的降低了存储带宽的需求。实践证明16bit定点化可以采用线性量化的方式,而16bit以下定点化根据模型的不同,有些需要采用非线性量化才可以达到维持模型性能的目的。

目前主要有模型剪枝、设计适于终端设备的简化网络两种实现方式。模型剪枝作为进一步降低模型容量和存储带宽的方式,是基于神经网络模型存在大量冗余信息的基础,而另一种从源头开始重新设计适于终端设备的简化网络的方式也在逐渐兴起,从同样规模的网络性能来看,新设计的网络可能比旧网络通过剪枝再训练的方式更为简单快捷,性能也更好。

(2)更科学的调度数据使用

深度学习的计算大量使用乘累加,即完成AXB+C的工作,这种乘累加单元(MAC)每次运算需要三个输入,完成一个输出。参与运算的数据包括事先准备好的权重参数和网络层产生的中间数据。每个乘累加完成后的输出通常也会作为下一次运算的输入,因此如何调度这些数据成为关键。

功耗角度来说,从DRAM获取数据所消耗的功耗最大,从SRAM中获取数据其次,从本地寄存器中获取数据消耗功耗最低,但从成本角度考虑刚好相反,因此这三个不同层次的存储器的使用非常关键,我们希望尽可能减少DRAM的访问,最理想的结果是仅从DRAM中读取一次事先存好的模型参数,而不依赖DRAM做任何其他工作。

从宏观上看,整个深度学习运算计算一次,进入MAC的总数据量远大于静态数据的容量,因为无论是模型参数还是中间数据都多次被重复使用,因此实际所需的数据带宽非常大,并且当所有这些数据都仅通过DRAM被缓存使用时,其功耗开销也是惊人的,因此充分利用各级缓存的特性非常重要,设计一个合理的数据流,将多次被重复使用的数据放在离计算资源较近的地方,少量读取的数据放在DRAM中,将提高计算性能,降低系统功耗。

那么问题来了,如何才能设计一款真正适用于终端的AI芯片。

简单的设计一个卷积加速器并不能带来深度学习计算性能上的提高,合格的计算架构需要结合对存储问题的分析来设计,不仅要考虑计算架构,也要考虑存储的数据流控制,因此深度学习的计算特点并非是一个简单粗暴的并行计算问题。

首先还是要考虑浮点和定点计算的问题,8 位的整数乘法比IEEE 754标准下16位浮点乘法降低 6 倍的能耗,占用的芯片面积也少 6 倍;而整数加法的差异是13倍的能耗与38倍的面积,因此终端AI芯片采用定点计算将获得巨大收益。当定点成为设计目标的时候,要充分考虑软硬件的结合,不同网络对定点位数的影响程度是不一样的,数据量化的具体方式也有差异,有线性量化也有非线性量化的方法,因此针对应用场景结合软件协同设计非常有必要。

其次深度学习不是简单粗暴的并行计算但仍然有明显的并行计算特征,因此考虑存储问题后放入更多的计算资源会大幅提高计算性能。首先将最多被重复使用的数据放在接近计算资源的地方,这符合较为流行的In Memory Computing(存储计算一体化)的思想,并且考虑到当前工业水平,这更为实际,而通过重新设计包括计算单元的存储单元或采用ReRAM等方式是未来的 发展方向。

第三要考虑到深度学习数据的另一重要特性,即数据稀疏化特性,也就是说在参与运算的数据中有大量的零值数据存在,这些零值数据即可以在存储中被压缩存放,降低存储容量和带宽需求,也可以在计算中被进一步调度,减少运算压力,提高运算的有效性能。这些零值数据不仅存在于模型参数中,也大量存在于神经网络各层运算的中间数据中,这两方面都需要进行考虑。稀疏数据在多核心并行计算中的调度是个复杂的问题,而不同网络结构也会带来不同的影响,因此将软硬件协同设计,动态调度的调度器是非常复杂的设计难点。

最后要考虑针对不同网络的资源有效利用率问题,由于神经网络差异化较大,如果希望针对不同网络都有较高的资源有效利用率,则需要在较细的颗粒度上进行优化,进一步加深了数据流调度器的复杂度。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53534

    浏览量

    459105
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106797
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296594
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261513
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123905

原文标题:AI芯片之争白热化的当下,如何设计一款真正适用于终端的AI芯片?

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    什么样智能才能称为具身智能

    [首发于智驾最前沿微信公众号]2025,是科幻照进现实的一。当小鹏汽车发布的“IRON”人形机器人以高度拟人的步态与流畅的运动控制进入大众视野时,着实惊呆众人。 还记得年初的具身智能还是在春晚
    的头像 发表于 11-19 09:29 519次阅读
    <b class='flag-5'>什么样</b>的<b class='flag-5'>智能</b>体<b class='flag-5'>才能</b>称为具身<b class='flag-5'>智能</b>?

    手持终端PDA定制厂家|安卓手持机厂家|扫码手持机PDA供应商

    如何选择靠谱的手持终端PDA定制厂家?本篇指南讲透了!在仓储物流、零售巡检、工业制造甚至政务管理中,手持终端PDA早已不是陌生工具。但市面上品牌众多、功能繁杂,很多企业在选择时常常陷入困惑:到底什么样的设备才最适合自己的业务?又
    的头像 发表于 09-27 12:02 284次阅读
    手持<b class='flag-5'>终端</b>PDA定制厂家|安卓手持机厂家|扫码手持机PDA供应商

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    具身智能芯片:说白了就是能够感知、思考推理以及决策的一体式可达人类智能水平的智能体-----就跟电影里的一
    发表于 09-18 11:45

    2025AI 智能终端和SoC芯片解读(下)

    AI智能终端经验分享
    电子发烧友网官方
    发布于 :2025年09月15日 16:49:21

    2025AI 智能终端和SoC芯片解读(中)

    AI智能终端经验分享
    电子发烧友网官方
    发布于 :2025年09月15日 16:44:48

    2025AI 智能终端和SoC芯片解读

    电子发烧友网站提供《2025AI 智能终端和SoC芯片解读.pptx》资料免费下载
    发表于 09-15 16:38 584次下载

    2025AI 智能终端和SoC芯片解读(上)

    AI智能终端经验分享
    电子发烧友网官方
    发布于 :2025年09月15日 16:37:48

    车载终端定制_基于联发科MTK平台的智能车载终端安卓主板解决方案

    在现代智能驾驶场景中,车载终端需要应对多任务并发的复杂需求,例如高清导航、ADAS(高级驾驶辅助系统)信息显示、车辆诊断和后排娱乐投屏等。然而,传统车载终端在设备连接能力、实时数据处理
    的头像 发表于 09-05 15:19 657次阅读
    车载<b class='flag-5'>终端</b>定制_基于联发科MTK平台的<b class='flag-5'>智能</b>车载<b class='flag-5'>终端</b>安卓主板解决方案

    工业数采终端的技术参数是什么样

    在工业4.0与智能制造浪潮的推动下,工业数据采集终端作为连接物理设备与数字系统的桥梁,其技术参数直接决定了数据采集的精度、传输的可靠性及系统的扩展能力。物通博联工业数采终端WD240凭借其高集成度
    的头像 发表于 09-05 11:14 506次阅读
    工业数采<b class='flag-5'>终端</b>的技术参数是<b class='flag-5'>什么样</b>的

    在使用EZ-USB® FX3™ 设备时,上电后相机开始正常工作,但延时10s左右播放器才能够显示图像数据?为什么?

    在使用EZ-USB® FX3™ 设备时,上电后相机开始正常工作,但延时10s左右播放器才能够显示图像数据?这是由于固件中的某些设置问题吗?
    发表于 07-16 07:08

    什么是物联网智能路灯? 智慧路灯是什么?什么样的智慧路灯更满足现代需求

    什么是物联网智能路灯? 智慧路灯是什么?什么样的智慧路灯更满足现代需求
    的头像 发表于 02-18 10:19 1062次阅读
    什么是物联网<b class='flag-5'>智能</b>路灯? 智慧路灯是什么?<b class='flag-5'>什么样</b>的智慧路灯更满足现代<b class='flag-5'>需求</b>

    使用TLV5616进行DAC数模转化,怎么才能够给其提供稳定精确地参考电压从而保证转换精度?

    我正在使用TI公司的TLV5616进行DAC数模转化,想请教大家怎么才能够给其提供稳定精确地参考电压从而保证转换精度?期待大家的经验分享。
    发表于 02-07 07:55

    ADS1259初始化程序必须执行两次才能够初始化成功,为什么?

    最近在调试ADS1259这个片子,发现初始化程序必须执行两次才能够初始化成功,然后读出来的CONFIG0寄存器的最高位是“0”(官方文档上是“1”),不知道是什么原因,求TI工程师解答呀!
    发表于 01-10 12:41

    ADS1298采用怎样的平均方法才能够将高采样率的数据平均成低采样率后,相应的把噪声降下来?

    是非常小的。这也符合datasheet上8.1 Noise Measurements的描述; 我们现在的问题是:采用怎样的平均方法才能够将高采样率的数据平均成低采样率后,相应的把噪声降下来?
    发表于 01-07 06:53

    计划的采样频率是2.56mhz,计划采用dsp+外部ad的方案,请问应该选择什么样的采样芯片比较合理?

    你好,我现在计划的采样频率是2.56mhz,计划采用dsp+外部ad的方案,请问应该选择什么样的采样芯片比较合理,还有主芯片采用150mhz的28335能不能满足? 精度要求在5%。
    发表于 12-24 07:08