0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

有效解决内存墙问题 存算一体正处在快速发展阶段

Carol Li 来源:电子发烧友网 作者:李弯弯 2021-10-26 07:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)随着技术的发展,现在计算的任务越来越复杂,需要的数据也越来越多,而在冯诺依曼架构中,数据需要在存储、内存、缓存、计算单元中不断搬运,造成大部分时间、带宽、缓存、功耗都消耗在数据搬运上,而不是计算上,因此内存墙都成了一个越来越严重的问题。

这种问题在人工智能计算中尤为明显,知存科技创始人兼CEO王绍迪近日在某论坛分享到:“这种数据搬运消耗的功耗超过95%以上,带宽也会达到80%以上,比如片上缓存,1MB的SRAM和8KB的SRAM在数据搬运上消耗的功耗相差10倍。”因此业界都在思考减少内存墙问题。

存算一体有效解决内存墙问题

存算一体主要有近存计算和存内计算。近存计算可以理解为通过先进封装拉近存储、内存和计算单元的距离,比如SRAM,在冯诺依曼架构中,很多时候SRAM用作缓存,多核共同使用,这样缓存到每个核都有一定距离,数据搬运、访问时间、功耗都会增加,王绍迪介绍:“近缓存计算把SRAM与计算单元合在一起,这个SRAM只供本地计算单元使用,数据访问时间和带宽都有很大提升。”

存内计算比近存计算更高效,同时也更难以实现,存内计算一般是使用存储的参数去完成计算,比如SRAM存内计算,Flash存内计算、以及RRAM存内计算。存内计算实际上是一个计算的模块,而不再是存储的模块,实践的方式是用存储的参数去完成运算,从存储器中读出的数据是运算的结果,而不是存储的数据。

在冯诺依曼架构中,不管是做加法运算还是乘法运算,都需要把数据从存储架构中读出来,包括缓存、内存、以及片外的存储,最终将数据读到计算单元中完成运算。从缓存中读取数据,要消耗运算几倍、几十倍、甚至几百倍的功耗,从内存读取数据,搬运功耗是运算的近千倍,从外部的存储读取,达到上万倍。

因此在数据量很大的计算中,冯诺依曼架构的效率就会非常低,而存内计算,存储器中存储了参数,被处理的数据作为输入信号,被处理的信号流过存储器中所有的参数,从存储器中输出的数据就是运算的结果。王绍迪表示,“存内计算的优势在于,能够将存储器中众多的存储单元转化为运算单元,这样能计算的并行度就会大幅提高,从原来几十、几百个并行,到存内计算几百万、几千万、甚至几亿个乘加法的并行度,运算效率很高。”

除了可以大规模并行运算,还可以很大程度节省数据带宽。简单来说,一个传统的存储器,多行多列,一次至多激活一行,读取出一行的数据,而要把多行数据读取出来,需要进行多个存储器周期,分别激活每一行,读出每一行的数据。而存内计算可以同时把输入数据给多行,同时多行的输入数据与每一行的参数做乘法运算,在列的方向直接把运算的结果读取出来,它是同时多行多列并行激活的方法。


现在的存内计算可以做到千行千列同时开启,使用效率比传统存储器提高近千倍,王绍迪谈到:“整体来看,包括输入输出,存内计算运算效率一般会有几十倍的提升,而且提升倍数还一直在增加,存内计算的发展速度很快,最近处于早期的快速发展阶段,每年都有数倍性能的提升。”

知存科技WTM2101智能解决方案

知存科技目前在存内计算领域较为领先,公司成立于2017年底,目前已经推出两款存算一体芯片,其中WTM1001已经批量量产,WTM2101处于小批量阶段,知存科技目前已经完成五轮融资。


WTM2101是一款尺寸很小的SOC芯片,包括一个1.8MB存内计算的Flash,该存储模块除了用于存内计算,也可以用于普通的存储。王绍迪介绍:“这款芯片的封装很小,可以用在可穿戴设备中,目前计算的功耗非常低,比如如果做连续100个词到300个词的识别,功耗可以控制在1mA以内,其中100个词可以功耗可以到60微安。该芯片在运行语音识别、语音增强、物体识别、智能健康,以及其他的一些AI算法上,可以把算力和效率提升20倍到50倍。”

另外WTM2101首次用了独有的专利HPU,它是一个混合计算单元,实际上是把数字计算和模拟计算结合在一起,因为模拟计算有精度上限,为了提高精度,加了一个稀疏的计算单元,可以把存内计算的精度进一步提高,最高提高4比特。


存内计算未来的发展趋势

随着存内计算的发展,未来的应用场景也会越来越广,当前存内计算主要应用在端侧,一是受精度的限制,8比特,二是受容量,在几兆的级别,三是算力,基本在0.1T到1T的范围。

不过未来一两年将会发展到边侧,精度会提高到12比特,容量会达到16兆到64兆,算力也可以提升到最大32T,这样可以覆盖很多边缘侧的应用需求。未来还会向云端发展,存内计算精度会达到到16比特,容量会超过1000M,算力会达到256T到1024T。

存内计算在云侧、边侧、端侧,存内计算的优势各不相同,在端侧,存内计算在功耗的限制下可以提供大的算力,在边缘侧,在功耗、体积限制下也有很强的算力,在云端,可以提供更低成本的解决方案。

存内计算现在处于一个很快的发展阶段,未来几年,每年都会有很快的迭代速度。早期,产业界对存内计算的关注不多,投入也很少,最近存内计算逐渐得到越来越多的关注,王绍迪认为,未来五年存内计算都会在处在非常快速的发展阶段,在各种各样的场景中,进行规模化的落地应用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4696

    浏览量

    89572
  • 内存
    +关注

    关注

    9

    文章

    3173

    浏览量

    76116
  • AI
    AI
    +关注

    关注

    89

    文章

    38120

    浏览量

    296665
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261549
  • 知存科技
    +关注

    关注

    0

    文章

    69

    浏览量

    5029
  • 存算一体
    +关注

    关注

    1

    文章

    114

    浏览量

    4969
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    载誉而归 | 苹芯科技斩获AABI火炬技术转移奖,一体技术探索跨境创新合作

    (PimchipTechnology)凭借在一体芯片领域的技术突破与跨境技术转化成果,成功斩获2025年AABI火炬技术转移奖。这荣誉不仅是对苹芯团队技术实力的高度认可,也将进
    的头像 发表于 11-04 10:03 481次阅读
    载誉而归 | 苹芯科技斩获AABI火炬技术转移奖,<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>技术探索跨境创新合作

    一体AI芯片公司九天睿芯完成超亿元B轮融资

    全球领先的一体AI芯片公司九天睿芯(英文:Reexen Technology)近日宣布,公司已完成B轮融资,规模超亿元人民币。
    的头像 发表于 10-10 11:41 707次阅读

    后摩尔定律时代,3D-CIM+RISC-V打造国产一体新范式

    力、能效与带宽瓶颈成为行业前行的关键阻碍,而美西方的技术禁运更让中国芯片产业面临严峻挑战。   在这大背景下,一体成为国产
    发表于 09-17 09:31 5325次阅读
    后摩尔定律时代,3D-CIM+RISC-V打造国产<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>新范式

    科技荣获2025半导体市场创新表现奖

    8月26日,第22届深圳国际电子展(elexcon2025)现场正式揭晓聚焦行业技术突破与价值创造的“2025半导体市场创新表现奖” ,知科技凭借WTM系列一体芯片的核心技术创新
    的头像 发表于 08-28 17:09 1266次阅读

    在TR组件优化与一体架构中构建技术话语权

    电磁兼容性、热管理在内的12项专业能力评估。\"这种评估体系,正是行业对技术人才的分级认证标准。 1.2 异构计算架构下的能力矩阵 一体架构的普及正在重构工程师的知识体系: 近内存
    发表于 08-26 10:40

    文看懂“一体

    今天这篇文章,我们来聊个最近几年很火的概念——一体。为什么会提出“
    的头像 发表于 08-18 12:15 934次阅读
    <b class='flag-5'>一</b>文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>”

    一体技术加持!后摩智能 160TOPS 端边大模型AI芯片正式发布

    ,同步推出力擎™系列M.2卡、力谋®系列加速卡及计算盒子等硬件组合,形成覆盖移动终端与边缘场景的完整产品矩阵。这系列动作标志着后摩智能在一体技术领域的突破性进展,更预示着端边智能
    的头像 发表于 07-30 07:57 7624次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>技术加持!后摩智能 160TOPS 端边大模型AI芯片正式发布

    缓解高性能一体芯片IR-drop问题的软硬件协同设计

    在高性能计算与AI芯片领域,基于SRAM的一体(Processing-In-Memory, PIM)架构因兼具计算密度、能效和精度优势成为主流方案。随着
    的头像 发表于 07-11 15:11 890次阅读
    缓解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>芯片IR-drop问题的软硬件协同设计

    国际首创新突破!中国团队以一体排序架构攻克智能硬件加速难题

    2025 年 6 月 25 日,北京大学团队在智能计算硬件方面取得领先突破,国际上首次实现了基于一体技术的高效排序硬件架构 (A fast and reconfigurable
    的头像 发表于 07-02 16:50 549次阅读
    国际首创新突破!中国团队以<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>排序架构攻克智能硬件加速难题

    苹芯科技 N300 一体 NPU,开启端侧 AI 新征程

    随着端侧人工智能技术的爆发式增长,智能设备对本地力与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存”问题成为制约端侧AI性能突破的关键掣肘。在这背景下,
    的头像 发表于 05-06 17:01 862次阅读
    苹芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b> NPU,开启端侧 AI 新征程

    济南市中区一体化智中心上线DeepSeek

    济南市中未来产业发展有限公司(简称“市中产发”)联合华为、北京昇腾和清昴智能基于市中区一体化智中心(国家大学科技园节点)昇腾
    的头像 发表于 02-19 10:38 1166次阅读

    梯度科技推出DeepSeek智一体

    近日,梯度科技搭载DeepSeek大模型的智一体机正式发布。该产品基于“国产服务器+国产GPU+自主算法”核心架构,搭载梯度科技人工智能应用开发平台,形成了软硬一体解决方案。
    的头像 发表于 02-17 09:53 1311次阅读

    澎峰科技发布DeepSeek智一体

    人工智能普惠化迎来里程碑式突破!澎峰科技发布业内“首款”万元级别DeepSeek智一体机,本地运行671B满血模型。
    的头像 发表于 02-15 16:29 1847次阅读

    大模型遭遇,探索超级应用的发展路径

    的评论透露出 GPT-5 难产的隐忧,直言有限的力约束让 OpenAI 面临迭代优先级的艰难抉择,在通往 AGI 的道路上路高歌猛进的领头羊似乎撞上了“”。 除此之外,能耗、
    的头像 发表于 02-10 17:24 1477次阅读
    大模型遭遇<b class='flag-5'>算</b>力<b class='flag-5'>墙</b>,探索超级应用的<b class='flag-5'>发展</b>路径

    一体行业2024年回顾与2025年展望

    2024年,大模型技术的迅猛发展成为人工智能领域的核心驱动力,其对硬件力和存储效率的极致需求,促使一体技术在全球范围内迎来前所未有的关
    的头像 发表于 01-23 11:24 1683次阅读