0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国产存算一体超速前进 存算一体架构有机会解决很多AI面临的问题

亿铸科技 来源:雷锋网(亿铸科技) 作者:雷锋网(亿铸科技 2022-11-25 15:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

仅仅在五、六年前,人工智能还只存在于人们的想象。雷峰网雷峰网

短短几年间AI快速扩张,AI算力和运算数据量每年都在以指数级增加,对算力的需求空前,但摩尔定律却已接近极限。

在能耗墙和存储墙的阻挡下,半导体愈来愈蹒跚的算力提升已经追不上狂奔的AI。

存算一体架构有机会让AI面临的问题迎刃而解。时代的浪潮下,一批探索存算一体的企业相继成立。

在这个领域中,国内外研究几乎站在同一起跑线上。

其中亿铸科技是将新型存储器ReRAM用于存算一体赛道的“先行者”。成立仅仅两年,亿铸科技就已能够设计出能效比超过主流计算卡十倍的基于ReRAM的存算一体AI大算力芯片。

在即将到来的存算一体爆发期,国产厂商们将要迎来的,是一场与国外巨头们堂堂正正的对决。

名为GPU的马,拉不动AI的车

自1956年约翰。麦卡锡在达特茅斯会议上提出人工智能的概念,AI已经发展了70年。

70年间,AI曾经爆发过三次浪潮。

在前两次浪潮中,AI由于种种原因,最终未能普及。

直到第三次浪潮中,深度学习技术的兴起,解决了AI普适性与可维护性的问题,这一赛道才真正迎来曙光,造就了现代意义上的基于深度学习的“人工智能”。

随着深度学习的广泛应用,对算力的需求日益增加,这让能够提供大规模算力的GPU在AI领域变得越来越重要。

然而GPU毕竟不是专为人工智能而生,随着人工智能发展走入深水区,GPU的问题逐渐浮现,尤其是AI发展中的“存储墙”、“能耗墙”问题,GPU无法突破。

无论是CPU还是GPU,采用的都是存算分离的冯诺依曼架构。

在冯诺依曼架构下,80%-90%的功耗发生在数据传输上,99%的时间消耗在存储器读写过程中,导致了“存储墙”和“功耗墙”问题。

冯诺依曼架构的芯片在工作时,计算单元要先从内存中读取数据,计算完成后再存回内存,才能最终输出。

但在过去几十年中,存储器与处理器的发展严重失衡,自上世纪八十年代以来,存储器读取速率的提升远远跟不上处理器性能的增长。

这导致了计算畸形的漏斗结构:无论处理器所在的漏斗“入口”一端处理了多少数据,也只能通过存储器狭窄的“出口”输出,严重影响了数据处理的效率。

曾在AI芯片公司Wave Computing工作过的熊大鹏博士对此深有感悟。

2014年左右,熊大鹏正在从事GPGPU领域的研究,在工作中他深感能耗墙与功耗墙的限制下,人工智能难以持续发展。

熊大鹏认为,打破内存与计算隔阂的存算一体架构是人工智能未来的一个可能解。

不同于冯诺依曼架构,存储单元与计算单元一体的结构让数据不必在两者之间反复“搬运”,从而让“能耗墙”与“功耗墙”问题迎刃而解。

谈起对存算一体技术的初印象,熊大鹏说到:“2017年我第一次接触到存算一体技术,当时就震惊于怎么会有这么好的东西能够恰好解决AI芯片面临的问题。”

在初识存算一体后,熊大鹏兴趣盎然,立刻开始了着手从产业界到学界学习和调研,对存算一体建立了系统的认识。

当时,把存算一体运用到AI中还只是一种理论,熊大鹏还没有找到将他在存算一体领域的雄心落实的机会。

熊大鹏得以实现抱负的契机是与ReRAM的偶遇,这也是他在2020年创立存算一体AI芯片公司亿铸科技的关键。

存算一体的「天时」、「地利」与「人和」

2018年,熊大鹏在工作中接触到了ReRAM的领军企业Crossbar。当时正在苦苦寻找存算一体技术在AI芯片领域落地方案的他,刚一接触ReRAM,就近乎直觉地认为ReRAM有解决存算一体落地问题的能力。

存算一体的存储介质选择一般有三种方案:Flash等传统存储介质;相对成熟的易失性存储器SRAM;以及ReRAM等新型存储器。

熊大鹏说,不同的存储介质有不同的特点,也有各自最适配的应用领域,而在他看好的AI大算力芯片场景下,ReRAM则是最合适的选择。

在他看来,NAND Flash读写延时较大,性能相对落后,并且工艺节点在40nm左右,难以随先进工艺继续迭代,无法满足AI大算力芯片的计算需求。

SRAM存储器在大算力场景下则存在单位密度受限、漏电流和工程落地难度和成本较高等问题。

而ReRAM虽然在应用于模拟存算一体时也存在着精度和数模转换等难题,但在熊大鹏看来,亿铸科技选择的基于ReRAM的全数字化存算一体技术,能较好解决精度和数模转换等难题,无疑更适合应用在AI大算力芯片的场景中。

ReRAM是一种新型非易失存储器,其基本存储单元被称为忆阻器,是一种可编程电阻,其特点是在断电之后电阻值依然能够长期保持。

忆阻器可编程的性质让其非常适合在ReRAM存储单元上加上计算功能,而断电后保持数据不丢失的特性也让它能够成为可靠的存储器,这都让ReRAM与存算一体架构的要求不谋而合。

在与一家全球ReRAM新型存储技术领军企业中的老朋友们,还有斯坦福大学、德克萨斯大学奥斯汀分校、上海交通大学、复旦大学、中国科学技术大学等高校的知名科学家们经过几个月的讨论后,熊大鹏对使用ReRAM存算一体技术解决AI大算力芯片问题有了初步想法,随即开始组建团队。

用ReRAM和全数字化存算一体技术做AI芯片是一条全新的道路,前人留下的脚印甚少,过河没有石头可摸。

一开始熊大鹏也考虑过从技术更成熟的SRAM开始,再过渡到ReRAM。

最终是团队的支持给了熊大鹏信心。团队组建的过程中,熊大鹏找到了过去在Wave Computing共事过的Debu博士。

Debu博士是IEEE Fellow、曾就职于斯坦福大学,当时在Cadence担任首席科学家兼AI部门CTO,也在研究基于SRAM的存算一体IP Core,并且已经成家。如果接受熊大鹏的邀约,在家庭和事业两方面都面临着困难。

但Debu在了解到熊大鹏决定入局基于ReRAM的全数字化存算一体芯片后,顿觉这是一项面向未来的大事业,解决了他在Cadence研究过的基于SRAM 存算一体未能解决的技术瓶颈,克服种种困难最终还是决定加入到亿铸科技创业的行列中。

Debu不远千里来投,让熊大鹏感受到了有识之士对这个赛道的信心,而许多之前曾与熊大鹏有过深入交流的包括工艺器件、电路设计、架构方案和软件生态等各方专家学者的加入,则给了熊大鹏技术攻关的底气。

“不论是ReRAM还是MRAM都是比较前沿的领域,单凭企业自身很难成功,离不开新型存储器领域领先的合作伙伴企业和一流研究团队的支持。”熊大鹏说。

有了这些的支持,熊大鹏终于下定决心,决定直接从ReRAM开始。

“我们的创业团队是‘三老’团队,”熊大鹏略带调侃地说,“老同事,老同学,老朋友。”

原本就对AI芯片十分熟悉的熊大鹏和对基于SRAM存算一体拥有开发经验的Debu让亿铸科技开局已占地利,而众多老友的加入让亿铸科技又添人和。而在熊大鹏看来,存算一体的天时也正在当下。

决战近在咫尺,中国芯这次正面「亮剑」

对于国产存算一体芯片的企业们来说,前路依然漫漫,但代表着决战的鼓声已经悄然迫近。

创业者的身份外,熊大鹏还是一名在芯片领域纵横多年的投资人。

作为投资人,熊大鹏见证了许多新兴技术的成长。过往的经验告诉他,属于存算一体的时代距离现在并不遥远。

在熊大鹏看来,存算一体产业从已经实现了从端侧小算力到云端大算力的全场景覆盖,整个产业链的配套正在成熟。

同时,潜在客户对存算一体的认知也越来越清晰,从“没听说”到“有了解”再到如今已经对产品“有期待”。

在国家对能耗越来越严格的管控趋势下,数据中心对高能效比的大算力产品的需求也在高涨。而存算一体芯片超高能效的特性正好可以满足市场需求。

种种因素相叠加,熊大鹏做出判断:“2024年到2025年,存算一体的产品会全面开花。”

距离存算一体的全面爆发,还有三年时间。对于国产存算一体厂商来讲,这正是属于他们的“天时”。

亿铸科技仅正式运营两月后,就获得了由联想之星、中科创星和汇芯投资联合领投的过亿元天使轮融资。在推动ReRAM落地的关键技术上,亿铸科技也已经取得了突破。

如果用模拟或混合方式构建芯片,忆阻器在受到工艺和环境的影响时,会出现精度漂移和数模/模数转换能耗问题。这也是ReRAM落地存算一体的关键阻碍。

为了突破这一难关,亿铸科技选择攻关全数字化存算一体技术。

基于全数字化方式构造芯片,无需模数和数模信号转换器,不会受到信噪比的影响,精度可以达到32bit甚至更高,既不会产生精度损失,也不会面临模拟计算带来的诸如IR-DROP等问题。

基于全数字化方式,亿铸科技将开发业界首颗基于ReRAM的全数字化存算一体AI大算力芯片,采用chiplet技术,单模组将突破1000TOPS算力,超出GPU 250TOPS算力的四倍多。

熊大鹏表示,亿铸科技的产品落地正在快速推进,第一代芯片将于2023年落地,并在同年投片第二代芯片。

虽然一切顺利,但无论对亿铸科技还是对存算一体芯片来说,这都远远不是终点。

熊大鹏认为,在技术上实现存算一体和在商业上取得成功是两种概念。在他看来,存算一体芯片要想大规模被应用,首先要建立起自己的生态。

熊大鹏告诉我们,在大算力应用场景下,存算一体的竞争力在于构建生态系统。

仅仅“参与”到现有的生态中,这远远不够,只有跳出传统架构的局限,一开始就以存算一体作为思路构建整体系统才能真正发挥存算一体的竞争力。

亿铸科技的目标除了将存算一体架构在AI大算力领域商用落地之外,还期望和其他存算一体赛道上的伙伴们共建生态。

而在美国对我国半导体领域持续打压的背景下,存算一体芯片还承载着着冲破藩篱的使命。

前段时间,美国出台了对我国的先进制程和高性能计算设计工具EDA等的出口限制政策,这无疑将对我国AI研究的未来带来更大挑战。

熊大鹏认为,在先进工艺短期内无法实现全国产化的大前提下,国内半导体必须具备在性能表现相同的条件下发展与先进制程解耦的技术。

存算一体就是一种突破先进制程对性能限制的有效路径:亿铸科技基于成熟的28nm CMOS工艺和国内既有产业配套设计的存算一体AI大算力芯片已经可以实现7nm CMOS先进制程AI芯片10倍以上能效比和性能。

并且,在存算一体赛道上,国产芯片厂商们并非单方面的追赶。

在熊大鹏看来,与传统赛道相比,在存算一体芯片领域,国外“巨头们”并没有在这条新开辟的道路上领先太多。

“总的来说,国内外在存算一体领域差距不大,而且在某些方面,我们做的更快更好。国内做存算一体的基本都是初创公司,初创公司可以大干快上地投入,无惧国外巨头们的竞争,而这些巨头们却未必有拥抱革命性技术来革自己命的决心,效率也不一定比我们高。”熊大鹏总结道。

对于这场即将降临的决战的最终结果,熊大鹏显得信心十足:“到了存算一体全面开花的那天,我们一定能够战胜他们。”

存算一体赛道上,第一批国产挑战者已经起跑,相信在存算一体未来几年内将到来的“未来之战”中,国产芯片公司一定能够跑出存算领域的“领航者”。

作者 | 姚勇喆

编辑 | 包永刚

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • reram
    +关注

    关注

    1

    文章

    54

    浏览量

    25945
  • AI芯片
    +关注

    关注

    17

    文章

    2164

    浏览量

    36869
  • AI算力
    +关注

    关注

    1

    文章

    169

    浏览量

    10033
  • 存算一体
    +关注

    关注

    1

    文章

    121

    浏览量

    5211
  • 亿铸科技
    +关注

    关注

    0

    文章

    32

    浏览量

    1826

原文标题:亿新闻 | 仅需28nm工艺,提升AI芯片十倍能效,国产存算一体「超速前进」

文章出处:【微信号:亿铸科技,微信公众号:亿铸科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    安克创新发布Thus™芯片:一体架构重塑AI音频新生态

    2026年4月22日,安克创新在深圳举办技术沟通会,正式推出全球首款基于NOR Flash技术的神经网络一体(CIM)AI音频芯片Thus™。这款芯片通过颠覆性
    的头像 发表于 04-23 09:59 428次阅读

    中科曙光scaleX40超节点革新AI协同

    在当前力时代,以Token(词元)为代表的力需求已成为行业核心刚需,而稳定、高效的力运转,离不开底层力的可靠支撑。立足这行业发展逻
    的头像 发表于 03-28 15:46 1656次阅读

    AI一体,这家ReRAM新型存储受关注

    及相关芯片产品的研发,涵盖AI一体(Computing in Memory, CIM)IP及大模型加速方案、高性
    的头像 发表于 12-25 09:43 2367次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>,这家ReRAM新型存储受关注

    科技王绍迪:AI可穿戴需求爆发,一体成主流AI芯片架构

    集中在AI驱动的细分场景需求释放,知科技聚焦的一体芯片具备高技术壁垒,同时在AI发展需求下
    的头像 发表于 12-23 09:34 1.1w次阅读
    知<b class='flag-5'>存</b>科技王绍迪:<b class='flag-5'>AI</b>可穿戴需求爆发,<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>成主流<b class='flag-5'>AI</b>芯片<b class='flag-5'>架构</b>

    载誉而归 | 苹芯科技斩获AABI火炬技术转移奖,一体技术探索跨境创新合作

    (PimchipTechnology)凭借在一体芯片领域的技术突破与跨境技术转化成果,成功斩获2025年AABI火炬技术转移奖。这荣誉不仅是对苹芯团队技术实力的高度认可,也将进
    的头像 发表于 11-04 10:03 911次阅读
    载誉而归 | 苹芯科技斩获AABI火炬技术转移奖,<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>技术探索跨境创新合作

    一体AI芯片公司九天睿芯完成超亿元B轮融资

    全球领先的一体AI芯片公司九天睿芯(英文:Reexen Technology)近日宣布,公司已完成B轮融资,规模超亿元人民币。
    的头像 发表于 10-10 11:41 1470次阅读

    后摩尔定律时代,3D-CIM+RISC-V打造国产一体新范式

    力、能效与带宽瓶颈成为行业前行的关键阻碍,而美西方的技术禁运更让中国芯片产业面临严峻挑战。   在这大背景下,
    发表于 09-17 09:31 6198次阅读
    后摩尔定律时代,3D-CIM+RISC-V打造<b class='flag-5'>国产</b><b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>新范式

    科技荣获2025半导体市场创新表现奖

    8月26日,第22届深圳国际电子展(elexcon2025)现场正式揭晓聚焦行业技术突破与价值创造的“2025半导体市场创新表现奖” ,知科技凭借WTM系列一体芯片的核心技术创新
    的头像 发表于 08-28 17:09 1789次阅读

    在TR组件优化与一体架构中构建技术话语权

    电磁兼容性、热管理在内的12项专业能力评估。\"这种评估体系,正是行业对技术人才的分级认证标准。 1.2 异构计算架构下的能力矩阵 一体架构
    发表于 08-26 10:40

    文看懂“一体

    今天这篇文章,我们来聊个最近几年很火的概念——一体。为什么会提出“
    的头像 发表于 08-18 12:15 1658次阅读
    <b class='flag-5'>一</b>文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>”

    一体技术加持!后摩智能 160TOPS 端边大模型AI芯片正式发布

    ,同步推出力擎™系列M.2卡、力谋®系列加速卡及计算盒子等硬件组合,形成覆盖移动终端与边缘场景的完整产品矩阵。这系列动作标志着后摩智能在一体技术领域的突破性进展,更预示着端边智能
    的头像 发表于 07-30 07:57 8856次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>技术加持!后摩智能 160TOPS 端边大模型<b class='flag-5'>AI</b>芯片正式发布

    2025端侧AI芯片爆发:一体、非Transformer架构谁主浮沉?边缘计算如何选型?

    各位技术大牛好!最近WAIC 2025上端侧AI芯片密集发布,彻底打破传统力困局。各位大佬在实际项目中都是如何选型的呢?
    发表于 07-28 14:40

    缓解高性能一体芯片IR-drop问题的软硬件协同设计

    在高性能计算与AI芯片领域,基于SRAM的一体(Processing-In-Memory, PIM)架构因兼具计算密度、能效和精度优势成
    的头像 发表于 07-11 15:11 1602次阅读
    缓解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>芯片IR-drop问题的软硬件协同设计

    国际首创新突破!中国团队以一体排序架构攻克智能硬件加速难题

    2025 年 6 月 25 日,北京大学团队在智能计算硬件方面取得领先突破,国际上首次实现了基于一体技术的高效排序硬件架构 (A fast and reconfigurable
    的头像 发表于 07-02 16:50 981次阅读
    国际首创新突破!中国团队以<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>排序<b class='flag-5'>架构</b>攻克智能硬件加速难题

    苹芯科技 N300 一体 NPU,开启端侧 AI 新征程

    随着端侧人工智能技术的爆发式增长,智能设备对本地力与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存墙”问题成为制约端侧AI性能突破的关键掣肘。在这背景下,
    的头像 发表于 05-06 17:01 1323次阅读
    苹芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b> NPU,开启端侧 <b class='flag-5'>AI</b> 新征程