0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存内计算芯片,热度大增

颖脉Imgtec 2025-10-28 10:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:由半导体行业观察编译自semiengineering


研究人员专注于限制数据移动以减少边缘设备的功耗和延迟。在大众媒体中,“人工智能”通常意味着在昂贵且耗电的数据中心运行的大型语言模型。然而,对于许多应用程序来说,在本地硬件上运行的小型模型更为合适。自动驾驶汽车需要实时响应,避免数据传输延迟。医疗和工业应用通常依赖于无法与第三方共享的敏感数据。尽管边缘人工智能应用速度更快、更安全,但它们的计算资源却非常有限。它们无法拥有 TB 级的内存空间或几乎无限的计算能力。对于数据中心来说,这些限制可能有些抽象,但却对边缘人工智能施加了严格的限制。在2025年IEEE国际内存研讨会的一篇受邀论文及其后续预印本中,苏黎世联邦理工学院计算机科学教授Onur Mutlu及其同事指出,在典型的移动工作负载中,数据在内存中的移动占总能耗的62%,这一比例令人震惊。内存是硬件资源的最大消耗者,而且遥遥领先,但内存延迟往往是执行时间的最大贡献者。多年来,器件规模的扩大一直是降低功耗的关键,但现在却使问题更加严重。Mutlu 表示,规模庞大的 DRAM 稳定性较差,需要更频繁的刷新周期。大型内存阵列的访问难度也更大,因为带宽的增长速度不如内存条本身的增长速度快。内存和近内存计算提供了可能的解决方案。即使是商用的现成 DRAM,只要软件基础设施支持,也可以执行原始的数据复制、初始化和按位逻辑运算。


混合解决方案结合了RRAM和铁电体

然而,DRAM刷新功率的问题仍然存在。在神经网络模型中,训练和推理任务都会重复使用存储的权重矩阵。然而,两者的要求却截然不同。正如 CEA-Leti 的 Michele Martemucci 及其同事所解释的那样,训练任务涉及对权重矩阵进行多次小幅更新,使其逐渐收敛到稳定值。这些任务需要具有高写入耐久性和存储精确值能力的内存。相比之下,推理任务使用稳定不变的权重矩阵,但可能会将其多次应用于输入数据。推理任务受益于具有高读取耐久性的非易失性存储器。在这两种情况下,近内存计算都需要与标准 CMOS 逻辑工艺兼容的设备。RRAM 是一种简单的器件,依靠氧化层中形成的导电细丝来实现极高的读取耐久性。通过精心设计的编程方案,它们可以存储模拟值,从而减小存储器阵列的大小。Martemucci 表示,RRAM 技术已经足够成熟,可以在边缘推理场景中进行商业部署。遗憾的是,RRAM 的写入耐久性相对较低。随着时间的推移,编程脉冲会模糊存储值之间的电阻差异。设计人员通常使用传统硬件训练模型,然后将预先计算的权重加载到 RRAM 阵列中。然而,在许多应用中,边缘设备需要具备“学习”能力。它要么需要根据用户的特定需求进行训练,要么需要修改模型以反映实际流程的变化。与此同时,铁电电容器支持非常快速的开关和极高的写入耐久性。它们可以轻松承受训练任务中遇到的频繁写入操作。然而,虽然存储的值是非易失性的,但读取操作却具有破坏性。Martemucci 表示,这些设备不适合长期存储权重矩阵,也不适合需要频繁读取操作的推理任务。将铁电晶体管集成到CMOS工艺中非常复杂,需要高温工艺和额外的掩模层。铁电电容器和隧道结则简单得多,这使得多个研究小组能够将RRAM和铁电结构结合起来。例如,在今年的VLSI技术研讨会上,SK海力士的研究人员展示了一种兼具电阻和铁电开关功能的混合铁电隧道结(FTJ)。在传统的FTJ中,顶部和底部电极之间的隧道势垒取决于铁电极性。SK海力士的器件将铁电铪锆氧化物(HZO)层夹在两个电极之间,钽层用作氧空位储存器。钽层附近的导电细丝在器件顶部提供欧姆导电,从而降低了铁电隧道势垒的有效厚度。这些器件实现了精确的模拟乘法累加运算,效率高达每瓦224.4万亿次运算(TOPS/W)。在另一种混合方法中,Martemucci 团队将掺杂硅的 HfO2电容器与钛氧清除层结合到标准 CMOS BEOL 工艺中。这些器件最初表现为铁电电容器,其中一些器件接收一次性“唤醒”脉冲以稳定铁电响应。同时,电容器阵列的另一部分经过一次性“成型”工艺,形成由氧空位构成的导电细丝。钛层充当氧空位储存器,防止细丝溶解。由此产生的忆阻器器件可以在高阻和低阻状态之间切换。图 1:金属-铁电-金属叠层既可以用作 FeCAP,也可以用作忆阻器铁电电容器充当二进制元件,存储用于训练计算的高精度权重。忆阻器存储的模拟权重精度足以应对推理任务。在训练过程中,忆阻器阵列每完成100个输入步骤后更新一次,而铁电阵列则持续更新。训练此结构进行标准数字识别任务所需的写入操作总数比忆阻器耐久性小17倍,比铁电电容器耐久性小75倍,而能耗比持续更新忆阻器阵列所需能耗低38倍。


人工智能不仅仅是神经网络内存计算不仅可以提高传统神经网络计算的能效,还能促进其他建模方法的发展。例如,许多计算难度高的问题可以建模为伊辛玻璃,即一组连接的节点共同演化到最低能量状态。[ ⁠ 4] 现实世界中,这类问题可能涉及数千甚至数百万个连接。解决伊辛玻璃问题是量子计算最引人入胜的潜在应用之一。更传统的方法是,在去年的IEEE电子设备会议上,德克萨斯大学研究员Tanvir Haider Pantha和他的同事们提出构建一个三维结构,将FeFET融入CMOS逻辑工艺的BEOL(后道工艺)。每个节点由四个交叉耦合的FeFET组成,可以存储一个有符号的模拟值,该值映射到待解决问题的伊辛耦合矩阵。每个节点的输出是其相邻节点的输入,从而在整个网络中建立振荡,最终达到稳定的最小能量配置。图 2:四个交叉耦合双栅 FeFET 构成相变纳米振荡器。提出的伊辛玻璃模型每个节点使用其中一种结构


内存计算需要新框架传统的 CPUGPU 是通用设备。只需更改软件即可应用于许多不同的问题。近内存和内存加速器目前与其预期任务密不可分。伊辛玻璃求解器、点云网络和图像识别网络将以不同的方式处理数据,需要不同的硬件设计。据 Mutlu 称,内存计算的下一步将需要能够重新映射内存访问以满足特定问题要求的软件框架。反过来,这些框架将需要能够独立于外部内存控制器进行自我管理的内存硬件。

原文链接https://semiengineering.com/why-in-memory-computation-is-so-important-for-edge-ai/

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54704

    浏览量

    471366
  • 人工智能
    +关注

    关注

    1821

    文章

    50547

    浏览量

    267925
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ISSCC 2026重磅:清华+华为+字节联合发布计算芯片,重塑推荐系统能效边界

    Recommendation System Acceleration》(HYDAR:面向高效推荐系统加速的混合计算框架),首次提出基于 28nm 工艺的混合
    的头像 发表于 02-28 09:15 7852次阅读
    ISSCC 2026重磅:清华+华为+字节联合发布<b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b><b class='flag-5'>芯片</b>,重塑推荐系统能效边界

    安克与知科技联合打造Thus算一体AI音频芯片

    AI音频芯片,并邀请知科技创始人兼CEO王绍迪上台,分享双方联合研发Thus算一体AI音频芯片的合作历程与产业思考。ANKER Thus
    的头像 发表于 05-27 10:03 213次阅读

    安克创新发布Thus™芯片算一体架构重塑AI音频新生态

    2026年4月22日,安克创新在深圳举办技术沟通会,正式推出全球首款基于NOR Flash技术的神经网络算一体(CIM)AI音频芯片Thus™。这款芯片通过颠覆性架构设计,将AI峰值算力提升至传统蓝牙耳机
    的头像 发表于 04-23 09:59 4891次阅读

    每片低至0.016美元!清华FLEXI芯片柔性+计算双突破

    电子发烧友网综合报道,在人工智能加速从“云端”向“边缘”迁移的浪潮中,硬件形态正经历深刻变革。传统刚性硅基芯片虽性能强大,却难以适配人体曲面、动态形变等真实场景。与此同时,柔性电子技术虽在传感器
    的头像 发表于 02-12 09:16 1.3w次阅读
    每片低至0.016美元!清华FLEXI<b class='flag-5'>芯片</b>柔性+<b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>双突破

    超低功耗智能语音芯片-AT690系列芯片

    智芯科自主研发的首款支持语音和视频的多模态计算AI芯片AT690成功点亮,并成功跑通端侧语音和图像模型。
    的头像 发表于 12-30 15:35 583次阅读

    科技王绍迪:AI可穿戴需求爆发,算一体成主流AI芯片架构

    集中在AI驱动的细分场景需求释放,知科技聚焦的算一体芯片具备高技术壁垒,同时在AI发展需求下具备天然的架构优势和发展前景。
    的头像 发表于 12-23 09:34 1.1w次阅读
    知<b class='flag-5'>存</b>科技王绍迪:AI可穿戴需求爆发,<b class='flag-5'>存</b>算一体成主流AI<b class='flag-5'>芯片</b>架构

    针对CW32芯片内部flash能用户数据吗?

    针对CW32芯片,内部flash能用户数据吗?就是如果不想加外部的flash,内部多余的flash能给外部使用吗?有相关的示例么?写入也需要按页擦之后再写入吗?
    发表于 12-09 08:13

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    的同时,能够利用更小、更快的数字格式,提升模型的整体性能。 1.3Transformer 模型中的矩阵乘法计算 2、计算AI芯片
    发表于 09-12 17:30

    科技荣获2025半导体市场创新表现奖

    8月26日,第22届深圳国际电子展(elexcon2025)现场正式揭晓聚焦行业技术突破与价值创造的“2025半导体市场创新表现奖” ,知科技凭借WTM系列算一体芯片的核心技术创新,成功斩获
    的头像 发表于 08-28 17:09 1920次阅读

    芯动科技与知科技达成深度合作

    随着3D堆叠方案凭借低功耗、高带宽特性,有望成为下一代移动端高端热门技术。芯动科技瞄准3DIC市场,与全球领先的算一体芯片企业知科技达成深度合作,正式量产面向Face2Face键合(F2F)系列高速接口IP解决方案。
    的头像 发表于 08-27 17:05 1625次阅读

    一文看懂“算一体”

    今天这篇文章,我们来聊一个最近几年很火的概念——算一体。为什么会提出“算一体”?算一体,英文叫ComputeInMemory,简称CIM。顾名思义,就是将存储和计算放在一起。大家
    的头像 发表于 08-18 12:15 1770次阅读
    一文看懂“<b class='flag-5'>存</b>算一体”

    科技邀您相约第二十一届全国容错计算学术会议

    7月18日至20日,由中国计算机学会主办的第二十一届全国容错计算学术会议(CCF CFTC 2025)将在杭州举行。作为国内容错计算领域一年一度的盛会,此次会议汇聚了来自学术界和产业界的众多精英,知
    的头像 发表于 07-16 15:20 1276次阅读

    缓解高性能算一体芯片IR-drop问题的软硬件协同设计

    在高性能计算与AI芯片领域,基于SRAM的算一体(Processing-In-Memory, PIM)架构因兼具计算密度、能效和精度优势成为主流方案。随着
    的头像 发表于 07-11 15:11 1749次阅读
    缓解高性能<b class='flag-5'>存</b>算一体<b class='flag-5'>芯片</b>IR-drop问题的软硬件协同设计

    “算平衡”有多重要?

    。而决定这种配合效率的关键指标,正是我们今天要聊的“算比”。什么是算比?算比=计算能力(如每秒浮点运算次数)÷存储容量(如GB/TB),但更核心的是
    的头像 发表于 07-11 14:06 950次阅读
    “算<b class='flag-5'>存</b>平衡”有多重要?

    得一微定义“AI芯片”,让每比特数据创造更多智能

    在AI技术重塑全球产业格局的进程中,计算范式正经历从运算器为中心到存储器为中心的范式跃迁。这一变革重新定义了“先进力”的边界。 得一微电子首次创造性地提出“AI芯片”的技术概念。
    的头像 发表于 06-04 09:03 973次阅读