0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存内计算对“存”的选择

lPCU_elecfans 来源:未知 2022-12-13 07:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)无论是前段时间爆火的绘图模型Stable Diffusion,还是大规模语言模型ChatGPT,AI无疑已经成了新时代的自动化工具,哪怕是在某些与认知相关的任务上,也能通过深度学习实现高于人类的精度。
但正因我们提过多次的算力问题,对于大型AI训练的计算要求已经在每两个月翻倍了,别说可持续能源供应了,就连硬件的可持续都有些陷入停滞了。其实以目前各种模型的迭代速度来看,更高的运算效率才是重中之重,毕竟这些模型并不需要每两个月就推陈出新。

深度学习还有哪些环节可以提升效率

我们先从深度学习运算来看哪些算数运算占比最高,根据IBM给出的统计数据,无论是语音识别的RNN、语言模型DNN和视觉模型CNN,矩阵向量乘法都占据了运算总数的70%到90%,所以打造一个矩阵矢量乘法加速器,是多数AI加速器的思路。

数据传输和运算的功耗对比 / ISSCC
要考虑效率,我们就不能不谈到功耗的问题,如果只顾算力而不考虑功耗,任由庞大规模的GPU等硬件消耗能量不顾碳排放的话,也不符合全球当下的节能减排趋势。而在深度学习中,各种精度的加法乘法都会消耗能量,但这些运算消耗的能量与传统冯诺依曼结构中数据移动消耗的能量相比,就显得微不足道了,尤其是从DRAM中读写高精度数值时,能耗差距甚至可以达到数十倍以上。
这还只是在数据中心场景中,如果我们放到边缘来看,如今的移动设备需要语音识别、图像识别之类的各种深度学习应用。所以提升这类设备的效率,才有可能在功耗和内存都有所限制的嵌入式应用中普及深度学习。

存内计算的存储选择

为了减少数据移动消耗的能量,提高MVM的计算性能,存内计算成了一个不错的选择。存内计算(IMC)是一项创新的计算方式,将特定的计算任务放到存储设备中,并使用模拟或混合信号的计算技术。相较冯诺依曼结构或近存计算来说,最大程度地减少了数据移动。
而早期利用IMC进行神经网络推理的测试结果证明,在软硬件结合的情况下,可以得到优秀的精度结果,而DACADC、功能激活之类的数字操作则是通过片外的软件或硬件来实现的。自那之后,各种使用SRAM、NOR Flash、RRAM、PCM和MRAM的单核或多核存内计算芯片纷纷面世。
在对于正确存储类型的选择上,存内计算必须面临取舍的问题,比如性能、密度、写入时间、写入功耗、稳定性以及制造工艺上。性能自然就是直接影响到我们说的TOPS算力以及效率,目前SRAM优势较大,密度则决定了裸片大小,同时也影响到了成本。
而在边缘场景下,环境一致性往往不比数据中心,所以如果不能保证稳定性的话,就会影响到存内计算进行深度学习的精度。最后的制造工艺不仅决定了这类存内计算芯片能否量产,是否存在供应链危机或成本问题,也决定了它有没有继续推进的空间,比如目前工艺较为先进的主要是PCM和SRAM,最高分别已经到了14nm和12nm。
在2021年的VLSI技术大会上,IBM发表了一篇文章,讲述了他们以14nm CMOS工艺打造的一个64核PCM模拟存内计算芯片,HERMES。该芯片采用了后端集成的多层相变化内存,由256个线性化的CCO ADC组成,可以在1GHz的工作频率之上进行精确的片上矩阵矢量乘法运算。在深度学习的运算测试中,HERMES获得了10.5 TOPS/W的运算效率以及1.59TOPS/mm2的性能密度。

Thetis Core芯片 / Axelera AI
而荷兰初创企业Axelera AI则选了数字SRAM这一路线,他们在去年12月成功流片第一代IMC芯片Thetis Core。Thetis Core的面积不到9mm2,却可以在INT8精度下提供39.3TOPS的算力和14.1 TOPS/W的性能,甚至还可以超频到48.16TOPS。但不少存内计算芯片提到性能表现时,往往都是指满载的情况,正因如此,Thetis Core在低利用率下的效率表现才显得无比亮眼。哪怕从100%利用率降低至25%的,该芯片也能展现13TOPS/W的效率,降幅只有7%左右。

小结

除了“存”以外,存内计算在“算”上的选择也不尽相同,比如进行模拟或数字MAC运算等等。从斯坦福大学教授Boris Murmann提出的观点来看,在低精度下模拟运算要比数字运算更高效,但一旦精度拔高,比如8位以后,模拟计算的功耗就会成倍增加了。考虑到落地应用较少,未来的存内计算会更倾向于哪种形式仍有待观察,但从存储厂商、存算一体芯片厂商的动向来看,这或许是存储市场迎来又一轮爆发的绝佳机遇。

声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。


更多热点文章阅读

  • 狂砸900亿美元!塔塔集团半导体投资超美欧补贴,印度半导体制造这就成了?
  • 全球首架C919正式交付,背后是中国制造业的崛起
  • 包机出海拿下10亿订单!企业面对面沟通,或更利于电子产品出口!
  • 千亿芯片出货的Arm,能在PC市场称王吗?
  • 被裹挟的台积电与昂贵的“美国制造”:投资400亿美元补贴不足5%


原文标题:存内计算对“存”的选择

文章出处:【微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

原文标题:存内计算对“存”的选择

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ISSCC 2026重磅:清华+华为+字节联合发布计算芯片,重塑推荐系统能效边界

    Recommendation System Acceleration》(HYDAR:面向高效推荐系统加速的混合计算框架),首次提出基于 28nm 工艺的混合
    的头像 发表于 02-28 09:15 7391次阅读
    ISSCC 2026重磅:清华+华为+字节联合发布<b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>芯片,重塑推荐系统能效边界

    74LVCN16373:16位D型透明锁器的详细解析

    74LVCN16373:16位D型透明锁器的详细解析 在电子设计领域,选择合适的锁器对于系统的稳定运行至关重要。今天我们就来深入了解一下SGMICRO推出的74LVCN16373,这是一款16位
    的头像 发表于 03-13 16:00 205次阅读

    74HC373:8位D型透明锁器的详细解析

    74HC373:8位D型透明锁器的详细解析 在电子设计领域,锁器是一种常见且重要的器件。今天我们就来详细探讨一下SGMICRO公司的74HC373,这是一款8位D型透明锁器,具有三态输出
    的头像 发表于 03-13 14:20 311次阅读

    计算芯片,热度大增

    。自动驾驶汽车需要实时响应,避免数据传输延迟。医疗和工业应用通常依赖于无法与第三方共享的敏感数据。尽管边缘人工智能应用速度更快、更安全,但它们的计算
    的头像 发表于 10-28 10:09 584次阅读
    <b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>芯片,热度大增

    科技荣获2025半导体市场创新表现奖

    8月26日,第22届深圳国际电子展(elexcon2025)现场正式揭晓聚焦行业技术突破与价值创造的“2025半导体市场创新表现奖” ,知科技凭借WTM系列算一体芯片的核心技术创新,成功斩获
    的头像 发表于 08-28 17:09 1784次阅读

    芯动科技与知科技达成深度合作

    随着3D堆叠方案凭借低功耗、高带宽特性,有望成为下一代移动端高端热门技术。芯动科技瞄准3DIC市场,与全球领先的算一体芯片企业知科技达成深度合作,正式量产面向Face2Face键合(F2F)系列高速接口IP解决方案。
    的头像 发表于 08-27 17:05 1502次阅读

    一文看懂“算一体”

    今天这篇文章,我们来聊一个最近几年很火的概念——算一体。为什么会提出“算一体”?算一体,英文叫ComputeInMemory,简称CIM。顾名思义,就是将存储和计算放在一起。大家
    的头像 发表于 08-18 12:15 1655次阅读
    一文看懂“<b class='flag-5'>存</b>算一体”

    Texas Instruments TMAG5213霍尔效应锁器数据手册

    Texas Instruments TMAG5213霍尔效应锁器是斩波稳定霍尔效应传感器,在整个温度范围具有出色的灵敏度稳定性。这些锁器具有30kHz磁采样频率、35μs上电时间以及多种灵敏度
    的头像 发表于 08-02 15:13 1208次阅读
    Texas Instruments TMAG5213霍尔效应锁<b class='flag-5'>存</b>器数据手册

    科技邀您相约第二十一届全国容错计算学术会议

    7月18日至20日,由中国计算机学会主办的第二十一届全国容错计算学术会议(CCF CFTC 2025)将在杭州举行。作为国内容错计算领域一年一度的盛会,此次会议汇聚了来自学术界和产业界的众多精英,知
    的头像 发表于 07-16 15:20 1184次阅读

    “算平衡”有多重要?

    。而决定这种配合效率的关键指标,正是我们今天要聊的“算比”。什么是算比?算比=计算能力(如每秒浮点运算次数)÷存储容量(如GB/TB),但更核心的是
    的头像 发表于 07-11 14:06 872次阅读
    “算<b class='flag-5'>存</b>平衡”有多重要?

    一文读懂Allegro先进磁性开关和锁

    Allegro 拥有丰富的霍尔效应和隧道磁阻(TMR)开关及锁器产品,可广泛应用于汽车、工业和消费电子等领域。本应用笔记旨在提供分步选型流程,协助设计师为具体应用场景选择适配的 Allegro
    的头像 发表于 06-12 17:26 2134次阅读
    一文读懂Allegro先进磁性开关和锁<b class='flag-5'>存</b>器

    得一微定义“AI力芯片”,让每比特数据创造更多智能

    在AI技术重塑全球产业格局的进程中,计算范式正经历从运算器为中心到存储器为中心的范式跃迁。这一变革重新定义了“先进力”的边界。 得一微电子首次创造性地提出“AI力芯片”的技术概念。未来 AI
    的头像 发表于 06-04 09:03 933次阅读

    第二届知科技杯华东高校计算创新应用大赛正式启动

    在数字化浪潮席卷各行业的当下,数据量呈爆炸式增长,算力需求也水涨船高。计算架构作为创新解决方案,备受产学研各界关注。为推动
    的头像 发表于 05-06 17:51 995次阅读

    科技入选杭州AI“18罗汉”企业

    ,聚焦人工智能领域的新生代,代表人工智能产业的未来,从而全面展现杭州AI生态。知科技凭借其在计算芯片领域的卓越表现入选杭州 AI“18 罗汉”,彰显在人工智能基础层的强劲实力与领
    的头像 发表于 04-28 11:50 1490次阅读

    科技产学研融合战略再启新篇

    科技产学研融合战略再启新篇。近日,清华大学-知科技“多模态智能感算融合系统”产学研深度融合专项启动会暨指导委员会第一次会议在清华大学顺利召开。
    的头像 发表于 04-24 09:11 1332次阅读