0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用基于SRAM的测试芯片实现加速AI推理

石玉兰 来源:小点zze 作者:小点zze 2022-07-21 15:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

瑞萨电子开发了一种新的内存处理器 (PIM) 技术,用于在低功耗边缘设备中加速 AI 推理。用于基于 SRAM 技术的测试芯片实现了 8.8 TOPS/W 的运行卷积神经网络 (CNN) 工作负载,这是最常用于图像识别的算法类型。

瑞萨电子现有一代 AI 推理加速器基于其动态可重构处理器 (DRP) 架构,达到 1 TOPS/W 量级,足以在终端节点实现实时图像识别。该公司表示,新的 PIM 技术在 TOPS/W 方面几乎提高了一个数量级,并且可能成为在端点实施增量学习的基础。

内存处理器是一种越来越流行的人工智能推理工作负载技术,其中涉及将大量输入数据与权重因子相乘。在 PIM 设备中,当读取数据时,在存储器本身中执行乘法累加 (MAC) 操作。

在瑞萨电子设备中,存储权重的存储单元可以通过控制单元的输出开关与输入数据相乘,从而控制输出电流。测量位线中的电流然后有效地将所有输出加在一起。以这种方式在内存中执行 MAC 操作,通过避免不必要的数据传输,消除了内存和处理器之间的瓶颈。

三元SRAM

在接受 EETimes 的独家采访时,瑞萨电子高级首席工程师 Koichi Nose 解释了用于提高精度和降低功耗的新技术。

“传统的内存处理器技术无法为大规模计算提供足够的精度,”Nose 说,并强调了传统上需要解决的变通办法,以规避由工艺变化引起的低可靠性。“二进制数据也不足以表达一些复杂的神经网络……它会导致准确性下降。”

新的 PIM 技术是三元的,这意味着每个单元都具有三种状态:-1、0 或 1。Nose 解释说,这允许表示比二进制单元更复杂的数据。

如果三进制存储单元保持+1或-1,则电流可以流入位线,但如果存储单元存储0,则没有电流流动,这有助于保持低功耗。

“此外,重量数据可以很容易地扩展到任意位数,”Nose 说。“神经网络中的权重数据是多位信息,一个零或一个大的正负值。在二进制单元中表达多位符号信息很困难。所提出的存储器电路可以通过利用三元单元和简单的数字计算块的组合来轻松表达任意符号位操作......因为这可以支持每个用户所需的不同计算精度,用户可以优化精度和精度之间的平衡能量消耗。”

能量消耗

Nose 表示,传统的 PIM 拓扑使用 ADC 将位线电流转换为输出数据值,但尽管 ADC 很有效,但它们耗电大且占用宝贵的芯片面积。

瑞萨电子的 PIM 技术使用标准 SRAM 宏中的 1 位读出放大器作为比较器,与可灵活控制电流的复制单元(相当于存储单元的当前生成部分)结合使用。将复制单元电流与三元单元电流进行比较有效地检测三元单元的电流输出。

零检测器还有助于降低功耗。如果 MAC 运算结果等于 0,则停止比较器的操作以节省能量。

“在 [典型] 神经网络电路中,几乎所有节点都分配为零;只有少量的神经元被激活,大约 1%。所以几乎所有的计算结果都归零,”Nose 说。“激活零检测器电路会关闭比较器并有助于降低功耗。通过将比较器 AD 转换器技术和零检测器技术相结合,可以将功耗降低一个数量级。”

工艺变化

在 SRAM 阵列中,制造工艺的变化经常导致故障。由于这些工艺变化,当将数据写入具有显着不同电气特性的单个单元时,就会出现错误。

“为了避免这个问题,我们使用了神经网络的相同特征——几乎所有节点都分配为零,”他说。“我们可以通过改组数据来避免计算错误,以便将零存储在 [不利] 受影响的单元格中。”

在三进制存储单元中,如果存储零,则位线中没有电流流动,因此求和结果不依赖于单元电流。

如何识别受到不利影响的细胞?

“我们正在开发其他一些错误单元检测方法,但在这个芯片中,我们使用了一种简单的方法,”他说。“我们测量神经网络的输出并检查结果是否正确,以识别[不存储]正确输出值的错误单元。”

测试芯片

Renesas 的 3×3 mm 测试芯片基于 12nm 工艺技术构建,由四个集群组成,每个集群可以同时运行不同的 AI 工艺。在每个集群中,神经网络权重数据存储在 PIM 块中,MAC 运算结果存储在标准 SRAM 块中。

测试芯片包含 4 Mb 的 PIM 计算内存和 1.5 MB 的 SRAM,足以在不使用外部存储器的情况下评估紧凑型 CNN。该芯片实现了8.8 TOPS/W的功率效率。

原型 AI 模块中的测试芯片的简单演示还结合了小型电池、微控制器、相机和其他外围设备,表明只需 5 mW 即可实现用于实时人员检测的推理。

审核编辑 黄昊宇
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54632

    浏览量

    470953
  • sram
    +关注

    关注

    6

    文章

    843

    浏览量

    117777
  • AI
    AI
    +关注

    关注

    91

    文章

    41976

    浏览量

    303077
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    直播预告|玄铁 x Canonical:从本地推理AI 工厂,基于 RISC-V 的 AI 基础设施创新路径探讨

    AI 算力需求从云端蔓延至终端,RISC-V 如何以一以贯之的开放架构,打通从“本地推理”到“AI 工厂”的全场景链路,实现智算时代下的算力破局。 核 心 看 点 硬核算力基座|玄铁
    发表于 05-15 12:15

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    电子发烧友网综合报道,在人工智能迅猛发展的当下,AI推理芯片需求正呈爆发式增长。   AI推理,即支撑如ChatGPT这类
    的头像 发表于 02-03 17:15 3423次阅读

    使用NORDIC AI的好处

    ; 自定义 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的专用 AI 加速器,对 TensorFlow Lite 模型可实现最高约 15×
    发表于 01-31 23:16

    欧洲之光!5nm,3200 TFLOPS AI推理芯片即将量产

    数据中心AI推理处理器的按时上市。通过此次合作,GUC展示了其在复杂芯片组架构设计以及利用2.5D先进封装技术实现HBM3
    的头像 发表于 11-29 13:52 6353次阅读
    欧洲之光!5nm,3200 TFLOPS <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b>即将量产

    算力密度翻倍!江原D20加速卡发布,一卡双芯重构AI推理标杆

    的关键技术瓶颈。   在此背景下,江原科技推出采用自研AI芯片AI加速卡江原D10,并在今年5月实现量产交付。在大算力
    的头像 发表于 11-14 08:21 1.1w次阅读
    算力密度翻倍!江原D20<b class='flag-5'>加速</b>卡发布,一卡双芯重构<b class='flag-5'>AI</b><b class='flag-5'>推理</b>标杆

    如何利用Verilog HDL在FPGA上实现SRAM的读写测试

    本篇将详细介绍如何利用Verilog HDL在FPGA上实现SRAM的读写测试SRAM是一种非易失性存储器,具有高速读取和写入的特点。在FPGA中
    的头像 发表于 10-22 17:21 4642次阅读
    如何利用Verilog HDL在FPGA上<b class='flag-5'>实现</b><b class='flag-5'>SRAM</b>的读写<b class='flag-5'>测试</b>

    新思科技测试IO方案加速HPC和AI芯片量产

    实现更高性能目标,AI与HPC芯片设计正加速向芯粒架构演进。但是传统单片机SOC已经很难在尺寸上继续扩张,异构集成已成为推动半导体创新的核心动力。然而,它也增加了
    的头像 发表于 10-15 11:33 951次阅读
    新思科技<b class='flag-5'>测试</b>IO方案<b class='flag-5'>加速</b>HPC和<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>量产

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI芯片实现 1、技术需
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    灵感的过程中发挥关键作用。五、AI实现诺贝尔奖级别的科学发现 这想法这能够大胆的。 1、AI科学家的构建 全自主科学实验室需要哪些部分: ①自动实验设备 ②流程管理系统 ③数据处理和
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    、Transformer 模型的后继者 二、创新方法实现深度学习AI芯片 1、基于开源RISC-V的AI
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    ②Transformer引擎③NVLink Switch系统④机密计算⑤HBM FPGA: 架构的主要特点:可重构逻辑和路由,可以快速实现各种不同形式的神经网络加速。 ASIC: 介绍了几种ASIC AI
    发表于 09-12 16:07

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循
    的头像 发表于 08-15 09:45 1471次阅读

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

    缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,实现高吞吐、低时延的推理体验,降低每Token
    发表于 08-13 09:45 5793次阅读

    AI推理芯片赛道猛将,200亿市值AI芯片企业赴港IPO

    设计及商业化。公司推出了面向企业级、消费级、行业级三大类应用场景的行业领先的NPU驱动AI推理芯片相关产品及服务,成功打造了从AI推理基础设
    的头像 发表于 08-04 09:22 5024次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b>赛道猛将,200亿市值<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>企业赴港IPO

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29