0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何提升NPU的能效比?

佐思汽车研究 来源:佐思汽车研究 作者:Nathan J 2022-08-01 11:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

现如今,深度神经网络正在以越来越大的规模部署,横跨了从云端,自动驾驶IoT等平台。比如用于图像识别,语音识别及翻译,癌症检测以及自动驾驶中对感知层海量数据的处理等。在很多领域,深度神经网络的精度已经超越人类,它的优越性来源于它对原始数据的特征提取,并通过对大量数据的学习来获取输入空间的有效表征,但是它的高精度是以超高计算复杂度为代价。因此很多厂商都在追逐NPU的算力来解决这些复杂问题,但是随着算力的提高,NPU设计也越来越复杂,将伴随着面积和功耗的增加,这对于那些面积和功耗有很大限制的设备带来了挑战,因此如何提升NPU的能效比就成了亟待解决的问题。

6bdd29be-1147-11ed-ba43-dac502259ad0.png

NPU通过数据分区和有效调度,利用数据的重用以及执行分段来提高能效比和硬件利用率,而实现高利用率,数据重用将直接依赖于如何调度深度神经网络的计算和如何将这些计算有效的映射到NPU的硬件单元上。以CNN为例,数据流无非包含三个方面filter(Weight),ifmap和ofmap,如下图。

6bf2bb62-1147-11ed-ba43-dac502259ad0.png

因此在设计NPU时需要考虑如利用内存的层次结构,决定哪些数据要读到那一层的内存中以及什么时候被处理,如何可以重用filter,ifmap和ofmap,将他们存放在本地内存中,从而大大减少DRAM的访问次数,这将在很大程度上提高NPU的硬件利用率及性能,并减少由于DRAM访问带了的额外功耗。根据数据处理特征可以将数据流分为以下几类:

1)、静态weight

weight静态数据流的设计是通过在PE的RF(Register File)中存取weight,来减少读取weight产生的功耗。weight从DRAM读取到RF并保持静态以供进一步访问,NPU在计算时尽可能多的利用RF中的weight以达到最大程度的重用。通常的实现是将ifmap广播给所有的PE,部分和(Psum)将穿过所有的PE来完成空间上的累加。

6c0593b8-1147-11ed-ba43-dac502259ad0.png

2)、静态输出

输出静态数据流的设计是通过将accumulator产生的Psum存放到本地的RF中,以避免将Psum刚写入DRAM再读回,从而减少因Psum读写产生的功耗。通常的实现是流式输入Activation,并将weight广播给所有的PE。

6c19630c-1147-11ed-ba43-dac502259ad0.png

3)、无本地重用

如果考虑到RF会增大面积,可以将所有的数据都存放到Global Buffer中,这样没有任何数据会留在PE的RF,也不会增设RF单元来减小面积,但是增加了PE和Global Buffer的数据交互。具体来说是通过多广播Activation,单广播Weight以及Psum穿过所有的PE进行累加来实现的。

6c29f104-1147-11ed-ba43-dac502259ad0.png

4)、静态行

静态行数据流的目标是将所有的数据类型(Activation,weight, psum)的重用和计算都在RF中完成,来提升总体的能效。它区别于上面的静态weight和静态输出,只是分别对weight和psum进行优化。

6c3b85a4-1147-11ed-ba43-dac502259ad0.png

具体选用哪种数据流方式要结合NPU微架构的设计。下面总结了来自于几个厂家的NPU,它们分别利用了不同数据流类型来提高能效比。

6c461b0e-1147-11ed-ba43-dac502259ad0.png

参考文献:

【1】Vivienne S. Yu-Hsin C.and etc., “Efficient Processing of Deep Neural Networks: A Tutorial and Survey”

关于复睿微电子:

复睿微电子是世界500强企业复星集团出资设立的先进科技型企业。复睿微电子植根于创新驱动的文化,通过技术创新改变人们的生活、工作、学习和娱乐方式。公司成立于2022年1月,目标成为世界领先的智能出行时代的大算力方案提供商,致力于为汽车电子人工智能、通用计算等领域提供以高性能芯片为基础的解决方案。

目前主要从事汽车智能座舱、ADS/ADAS芯片研发,以领先的芯片设计能力和人工智能算法,通过底层技术赋能,推动汽车产业的创新发展,提升人们的出行体验。在智能出行的时代,芯片是汽车的大脑。复星智能出行集团已经构建了完善的智能出行生态,复睿微是整个生态的通用大算力和人工智能大算力的基础平台。复睿微以提升客户体验为使命,在后摩尔定律时代持续通过先进封装、先进制程和解决方案提升算力,与合作伙伴共同面对汽车智能化的新时代。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53534

    浏览量

    459106
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106797
  • NPU
    NPU
    +关注

    关注

    2

    文章

    358

    浏览量

    20836

原文标题:ADS算力芯片NPU数据流的重用性

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中央空调管理解决方案:从能耗监测到故障预警的全周期赋

    %-60%; 2) 监测缺失 ,缺乏实时数据采集与分析能力,无法精准定位能耗漏洞; 3) 运维效率低下 ,故障预警滞后,依赖人工巡检,维护成本高且响应不及时。 (二)核心目标
    的头像 发表于 11-12 13:17 79次阅读
    中央空调<b class='flag-5'>能</b><b class='flag-5'>效</b>管理解决方案:从能耗监测到故障预警的全周期赋<b class='flag-5'>能</b>

    通信机房能耗监测:提升与实现绿色运营的关键路径

    在数字化时代,通信机房作为信息基础设施的核心,其能耗问题日益突出。随着数据中心规模扩大和5G网络普及,机房电力消耗占总运营成本的比例不断攀升。据统计,重点工业领域到2025年需全面提升,其中
    的头像 发表于 10-11 09:45 330次阅读
    通信机房能耗监测:<b class='flag-5'>提升</b><b class='flag-5'>能</b><b class='flag-5'>效</b>与实现绿色运营的关键路径

    弧形导轨如何提升新能源汽车的和续航里程?

    弧形导轨在新能源汽车中的应用主要集中在电池生产线和自动化装配线等领域,通过提高生产效率和精度,间接提升新能源汽车的和续航里程。
    的头像 发表于 09-13 17:55 425次阅读
    弧形导轨如何<b class='flag-5'>提升</b>新能源汽车的<b class='flag-5'>能</b><b class='flag-5'>效</b>和续航里程?

    佐航BYQ3712PK变压器等级测试仪:以精准测量赋配电变压器升级

    在“双碳”目标推动下,高效节能的配电变压器已成为电力系统降本增效的关键环节。而准确判定变压器等级,是推广节能产品、淘汰低效设备的核心前提。佐航推出的BYQ3712PK变压器等级
    的头像 发表于 06-27 13:35 471次阅读
    佐航BYQ3712PK变压器<b class='flag-5'>能</b><b class='flag-5'>效</b>等级测试仪:以精准测量赋<b class='flag-5'>能</b>配电变压器<b class='flag-5'>能</b><b class='flag-5'>效</b>升级

    优化电机控制以提高能

    得益于更轻量化高效材料的应用,以及热绝缘和电绝缘技术的进步。更轻巧的电机对汽车应用尤为有利——既可通过减重提升,又能将电机集成到更紧凑的空间。这些技术进步的影响深远,造就了
    发表于 06-11 09:57

    提升3倍!异构计算架构让AI跑得更快更省电

    电子发烧友网报道(文/李弯弯)异构计算架构通过集成多种不同类型的处理单元(如CPU、GPU、NPU、FPGA、DSP等),针对不同计算任务的特点进行分工协作,从而在性能、和灵活性之间实现最优平衡
    的头像 发表于 05-25 01:55 3453次阅读

    交流充电桩负载提升技术

    随着电动汽车普及率提升,交流充电桩的优化成为降低运营成本、减少能源浪费的核心课题。负载提升
    发表于 05-21 14:38

    和算力提升的衡量方法

    /h·W表示。 影响因素及优化方向‌ 技术升级‌:采用变频技术、高效电机等可提升,例如变频空调通过动态调节功率减少能耗。 环境因素‌:温度、湿度等外部条件会影响实际
    的头像 发表于 04-28 07:47 2791次阅读
    <b class='flag-5'>能</b><b class='flag-5'>效</b><b class='flag-5'>比</b>和算力<b class='flag-5'>提升</b>的衡量方法

    超越CPU/GPU:NPU如何让AI“轻装上阵”?

    电子发烧友网报道(文/李弯弯)NPU是一种专门为人工智能(AI)计算设计的处理器,主要用于高效执行神经网络相关的运算(如矩阵乘法、卷积、激活函数等)。相较于传统CPU/GPU,NPU
    的头像 发表于 04-18 00:05 3282次阅读

    双倍阵列云,重新定义服务器性价比

    一、架构创新:高密度集成与跃升 ‌阵列化芯片设计‌ 新一代服务器通过高密度集成芯片阵列(如72片QCS8550芯片)实现算力聚合,单片CPU算力提升50%、GPU算力提升230%+
    的头像 发表于 03-26 08:35 487次阅读
    双倍<b class='flag-5'>能</b><b class='flag-5'>效</b>阵列云,重新定义服务器性价比

    AI服务器电源模块:光颉高精密薄膜电阻0.01%精度如何提升

    贞光科技代理的品牌-光颉科技高精密薄膜电阻凭借0.01%的超高精度,在AI服务器电源模块中实现了精确电压分配、优化功率因数和减少热损耗,显著提升系统和可靠性。
    的头像 发表于 03-20 16:57 806次阅读
    AI服务器电源模块:光颉高精密薄膜电阻0.01%精度如何<b class='flag-5'>提升</b><b class='flag-5'>能</b><b class='flag-5'>效</b>?

    电源滤波器协同优化:提升电源系统的关键路径

    电源滤波器在现代电子设备中起着核心作用,其、性能稳定性和环境友好性直接关系到设备成本、性能和环保。元件选择、参数优化、散热设计和布局优化等是关键,多路电源并联系统中的滤波器协同则可以显著提升系统
    的头像 发表于 03-18 16:49 742次阅读

    中央空调系统管理解决方案

    中央空调系统管理解决方案
    的头像 发表于 02-14 08:03 610次阅读
    中央空调系统<b class='flag-5'>能</b><b class='flag-5'>效</b>管理解决方案

    安科瑞管理监测云平台

    管理监测云平台的主要内容包括以下几个方面: 制定科学的管理制度和标准; 建立完善的能源监测系统和数据分析平台; 推进节能技术和设备的研发和应用; 加强人员培训和管理,提高
    的头像 发表于 12-18 14:52 714次阅读
    安科瑞<b class='flag-5'>能</b><b class='flag-5'>效</b>管理监测云平台

    IO模块助力PLC,全面提升中水处理设备

    随着我国环保事业的不断发展,中水处理技术在工业、生活等领域发挥着越来越重要的作用。如何提高中水处理设备的,成为行业关注的焦点。本文将为您介绍明达技术高效解决方案——利用自主研发的分布式IO模块配合PLC,实现中水处理设备
    的头像 发表于 12-16 14:57 671次阅读
    IO模块助力PLC,全面<b class='flag-5'>提升</b>中水处理设备<b class='flag-5'>能</b><b class='flag-5'>效</b>