0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存内计算对“存”的选择

E4Life 来源:电子发烧友网 作者:周凯扬 2022-12-13 00:19 次阅读
电子发烧友网报道(文/周凯扬)无论是前段时间爆火的绘图模型Stable Diffusion,还是大规模语言模型ChatGPT,AI无疑已经成了新时代的自动化工具,哪怕是在某些与认知相关的任务上,也能通过深度学习实现高于人类的精度。

但正因我们提过多次的算力问题,对于大型AI训练的计算要求已经在每两个月翻倍了,别说可持续能源供应了,就连硬件的可持续都有些陷入停滞了。其实以目前各种模型的迭代速度来看,更高的运算效率才是重中之重,毕竟这些模型并不需要每两个月就推陈出新。

深度学习还有哪些环节可以提升效率

我们先从深度学习运算来看哪些算数运算占比最高,根据IBM给出的统计数据,无论是语音识别的RNN、语言模型DNN和视觉模型CNN,矩阵向量乘法都占据了运算总数的70%到90%,所以打造一个矩阵矢量乘法加速器,是多数AI加速器的思路。
CleanShot 2022-12-12 at 17.15.13@2x
数据传输和运算的功耗对比 / ISSCC

要考虑效率,我们就不能不谈到功耗的问题,如果只顾算力而不考虑功耗,任由庞大规模的GPU等硬件消耗能量不顾碳排放的话,也不符合全球当下的节能减排趋势。而在深度学习中,各种精度的加法乘法都会消耗能量,但这些运算消耗的能量与传统冯诺依曼结构中数据移动消耗的能量相比,就显得微不足道了,尤其是从DRAM中读写高精度数值时,能耗差距甚至可以达到数十倍以上。

这还只是在数据中心场景中,如果我们放到边缘来看,如今的移动设备需要语音识别、图像识别之类的各种深度学习应用。所以提升这类设备的效率,才有可能在功耗和内存都有所限制的嵌入式应用中普及深度学习。

存内计算的存储选择

为了减少数据移动消耗的能量,提高MVM的计算性能,存内计算成了一个不错的选择。存内计算(IMC)是一项创新的计算方式,将特定的计算任务放到存储设备中,并使用模拟或混合信号的计算技术。相较冯诺依曼结构或近存计算来说,最大程度地减少了数据移动。

而早期利用IMC进行神经网络推理的测试结果证明,在软硬件结合的情况下,可以得到优秀的精度结果,而DACADC、功能激活之类的数字操作则是通过片外的软件或硬件来实现的。自那之后,各种使用SRAM、NOR Flash、RRAM、PCM和MRAM的单核或多核存内计算芯片纷纷面世。

在对于正确存储类型的选择上,存内计算必须面临取舍的问题,比如性能、密度、写入时间、写入功耗、稳定性以及制造工艺上。性能自然就是直接影响到我们说的TOPS算力以及效率,目前SRAM优势较大,密度则决定了裸片大小,同时也影响到了成本。

而在边缘场景下,环境一致性往往不比数据中心,所以如果不能保证稳定性的话,就会影响到存内计算进行深度学习的精度。最后的制造工艺不仅决定了这类存内计算芯片能否量产,是否存在供应链危机或成本问题,也决定了它有没有继续推进的空间,比如目前工艺较为先进的主要是PCM和SRAM,最高分别已经到了14nm和12nm。

在2021年的VLSI技术大会上,IBM发表了一篇文章,讲述了他们以14nm CMOS工艺打造的一个64核PCM模拟存内计算芯片,HERMES。该芯片采用了后端集成的多层相变化内存,由256个线性化的CCO ADC组成,可以在1GHz的工作频率之上进行精确的片上矩阵矢量乘法运算。在深度学习的运算测试中,HERMES获得了10.5 TOPS/W的运算效率以及1.59TOPS/mm2的性能密度。
IMG_256
Thetis Core芯片 / Axelera AI

而荷兰初创企业Axelera AI则选了数字SRAM这一路线,他们在去年12月成功流片第一代IMC芯片Thetis Core。Thetis Core的面积不到9mm2,却可以在INT8精度下提供39.3TOPS的算力和14.1 TOPS/W的性能,甚至还可以超频到48.16TOPS。但不少存内计算芯片提到性能表现时,往往都是指满载的情况,正因如此,Thetis Core在低利用率下的效率表现才显得无比亮眼。哪怕从100%利用率降低至25%的,该芯片也能展现13TOPS/W的效率,降幅只有7%左右。

小结

除了“存”以外,存内计算在“算”上的选择也不尽相同,比如进行模拟或数字MAC运算等等。从斯坦福大学教授Boris Murmann提出的观点来看,在低精度下模拟运算要比数字运算更高效,但一旦精度拔高,比如8位以后,模拟计算的功耗就会成倍增加了。考虑到落地应用较少,未来的存内计算会更倾向于哪种形式仍有待观察,但从存储厂商、存算一体芯片厂商的动向来看,这或许是存储市场迎来又一轮爆发的绝佳机遇。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存内计算
    +关注

    关注

    0

    文章

    14

    浏览量

    1281
收藏 人收藏

    评论

    相关推荐

    仪表信号电缆最大敷设长度计算与截面选择

    仪表信号按常规可分为两类五种,即模拟和数字两类或AI、AO、DI、DO、PI五种(A表示模拟量,D表示数字量,P表示脉冲量,I表示输入,O表示输出),其中,脉冲量是一种变化频率较高的特殊数字量。
    的头像 发表于 01-02 13:55 738次阅读
    仪表信号电缆最大敷设长度<b class='flag-5'>计算</b>与截面<b class='flag-5'>选择</b>

    计算时代新选择:华为云耀云服务器 L 实例助力业务轻松上云

    在云计算的时代潮流中,中小企业和开发者们正迎来一场全新的挑战。云计算基础设施正在成为支撑业务运营和推动创新开发的不可或缺的一环。为满足广大用户对简便易用、高效能的需求,华为云推出了华为云耀云服务器
    的头像 发表于 12-08 09:38 149次阅读
    云<b class='flag-5'>计算</b>时代新<b class='flag-5'>选择</b>:华为云耀云服务器 L 实例助力业务轻松上云

    AD790的锁引脚造成电流过大怎么解决?

    上面是其中文手册的写法。 我现在的用法是±15V供电,Vlogic为5V。 我将锁脚直接接到5V,上电发现,AD790的温度突然就升了上去,而从我的供电电源也看到,我的5V电源输出电流一下
    发表于 11-20 06:41

    器的作用是什么?

    数码管的动态显示截取了部分程序,使用了74hc573锁器,但是我觉得去掉锁器程序照样可以执行,那么这里使用锁器的意义是什么呢?还是说只是用一下没有什么特殊的含义? for( i=0
    发表于 10-26 07:18

    VideoWriter.write文件慢是怎么回事?

    VideoWriter.write性能问题,有些客户反应,文件慢
    发表于 09-19 07:17

    如何选择适合教育用途的单板计算机?

    了处理器、内存、输入输出接口和操作系统的完整计算机系统,尺寸通常只有几英寸。它们提供了一个实践学习的平台,使学生能够亲手进行编程、电子项目和硬件控制。 然而,面对市场上众多的单板计算选择,如何
    的头像 发表于 09-01 10:26 247次阅读

    日立统一计算平台选择Microsoft Exchange Server 2010

    电子发烧友网站提供《日立统一计算平台选择Microsoft Exchange Server 2010.pdf》资料免费下载
    发表于 08-29 11:51 0次下载
    日立统一<b class='flag-5'>计算</b>平台<b class='flag-5'>选择</b>Microsoft Exchange Server 2010

    日立统一计算平台选择SAP HANA:融合横向扩展解决方案

    电子发烧友网站提供《日立统一计算平台选择SAP HANA:融合横向扩展解决方案.pdf》资料免费下载
    发表于 08-29 11:46 0次下载
    日立统一<b class='flag-5'>计算</b>平台<b class='flag-5'>选择</b>SAP HANA:融合横向扩展解决方案

    匹兹堡超级计算中心选择LSI和塞内加数据技术归档关键数据

    电子发烧友网站提供《匹兹堡超级计算中心选择LSI和塞内加数据技术归档关键数据.pdf》资料免费下载
    发表于 08-24 14:33 0次下载
    匹兹堡超级<b class='flag-5'>计算</b>中心<b class='flag-5'>选择</b>LSI和塞内加数据技术归档关键数据

    03 ex_2verilog 基本语法,锁器产生原因与避免产生锁器的方法;Modelsim仿真技巧。 -

    fpga软件程序代码
    充八万
    发布于 :2023年08月17日 23:29:20

    03 ex_2verilog 基本语法,锁器产生原因与避免产生锁器的方法;Modelsim仿真技巧。 -

    fpga软件程序代码
    充八万
    发布于 :2023年08月17日 23:28:29

    供电计算时如何提供合适的电力电容器

    在供电计算中,选择合适的电力电容器对于电力系统的运行非常重要。本文将探讨如何在供电计算中提供合适的电力电容器,并解释其重要性和影响因素。
    的头像 发表于 07-12 14:15 286次阅读
    供电<b class='flag-5'>计算</b>时如何提供合适的电力电容器

    如何计算DC-DC的电感值

    引言:DC-DC的电感值通常我们很少计算,会直接选择手册里面推荐的值,这在通常场景下快速展开设计和选型没有问题,但是当有特别的电源需求时,就需要自己手动计算电感并选型,才能满足我们的设计指标,本节以降压DC-DC为例讲解如何
    发表于 06-12 15:49 1726次阅读
    如何<b class='flag-5'>计算</b>DC-DC的电感值

    Labview中的TDMS文件,大的过分了

    Labview中以最大速度了25秒不到的数据,.tdms后缀的文件大小达到了5.69GB,但是,我把其中一个表(5秒)的数据复制,粘贴到EXCEL中保存,EXCEL文件大小才8.38MB。为啥会差
    发表于 05-29 16:11

    请问sr锁器是如何消除脉冲抖动的?

    数电分析,电平从高到低再到高的过程,sr锁器是如何消除脉冲抖动的?
    发表于 05-10 15:03