0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI时代的存储墙,哪种存算方案才能打破?

E4Life 来源:电子发烧友网 作者:周凯扬 2024-04-21 01:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)回顾计算行业几十年的历史,芯片算力提升在几年前,还在遵循摩尔定律。可随着如今摩尔定律显著放缓,算力发展已经陷入瓶颈。而且祸不单行,陷入同样困境的还有存储。从新标准推进的角度来看,存储市场依然在朝着更高性能的方向发展。但以这些通用标准推出的产品,终究还是会被用到冯诺依曼架构的计算体系中去。或许单个产品的性能有所增加,可面对AI计算的海量数据,这点提升还是有些不够看。

以LLM这个热门AI应用而言,其数据量已经在以2年750倍的速度爆发式增长,相较之下硬件算力正在以2年3倍的速度增长。但与存储不同,硬件算力是可以靠堆规模来实现持续提升的,可存储带宽和互联带宽却没法拥有同样的拓展性,只有存储容量能够勉强跟上。所以市场上多数都在追求某种形式的存算一体方案,但实现的形式和技术路线不尽相同。

近存方案,更大的SRAM和HBM

对于我们说的存储墙而言,其实在SRAM上并不那么明显,这种最接近处理单元的存储,常被用作高速缓存,不仅读写速度极快,能效比更是远超DRAM。但SRAM相对其他存储而言,存储密度最低,成本却不低。所以尽管现如今虽然更大的SRAM设计越来越普遍,但容量离DRAM还差得很远。

但这并不代表这样的设计没有人尝试,对于愿意花大成本的厂商而言,还是很高效的一条技术路线。以特斯拉为例,其Tesla Dojo超算系统的自研芯片D1就采用了超大SRAM的技术路线。Dojo在其网格设计中采用了超快且平均分布的SRAM。
D1芯片 / 特斯拉

单个D1核心拥有1.25MB的SRAM,加载速度达到400GB/s,存储速度达到270GB/s。单个D1芯片的SRAM缓存达到440MB。简单来说,Dojo可以用远超L2缓存级别的SRAM容量,实现L1缓存级别的带宽和延迟。

当然了,这样的设计注定代表了投入大量的成本。在特斯拉2023财年Q4的财报会议上,马斯克强调他们做了英伟达和Dojo的两手准备。Dojo作为长远计划,因为最终的回报可能会值回现在的投入,但他也强调这确实不是什么高收益的项目。

所以对于已有的计算架构来说,走近存路线,提高DRAM的性能是最为适合的,比如HBM。HBM作为主流的近存高带宽方案,已经被广泛应用在新一代的AI芯片、GPU上。以HBM3e为例,1.2TB/s的超大带宽足以满足现如今绝大多数AI芯片的数据传输。未来的HBM4更是承诺1.5TB/s到2TB/s的带宽,

HBM的方案象征了目前DRAM堆叠的集大成技术,但目前还是存在不少问题,比如更高的成本以及对产能的要求。在现如今的AI需求驱动下,新发布的芯片很难再采用HBM设计的同时,保证大批量量产,无论是HBM产能还是CoWoS产能都处于满载的阶段,而且与制造厂商强绑定。可恰恰存储带宽决定了AI应用的速度,所以在HBM方案量产困难成本高昂的前提下,即便是英特尔AMD这样的厂商也经不起这样挥霍,不少其他厂商更是选择了看下存内计算。

存内计算与处理,需要解决算力与存储双瓶颈

为了解决AI计算中数据存取的效率问题,把数据处理和筛选的工作放在存储端,就能极大地降低数据移动的能耗。以三星PIM技术为例,其将关键的算法内核放在内存中的PCU模块中执行,相比已有的HBM方案,PIM-HBM可以将能耗降低70%以上。而且不仅是HBM,PIM也可以集成到LPDDR、GDDR等存储方案中。

不过存内处理的方案只解决了功耗和效率的问题,并没有对计算性能和存储性能带来任何大幅提升。至于将主要计算工作交给存内的计算单元,就是存内计算的目标了,比如不少厂商尝试的模拟存内计算(AIMC)。但这类方案实现大规模并行化运算的同时,还是需要昂贵的数模转换器,以及逃不开的错误检测。至于数字存内计算方案,一定程度上规避了模拟存内计算的缺陷,但还是牺牲了一些面积效率。对于一些大模型AI应用而言,单芯片的存储容量扩展性堪忧。

所以数模混合成了新的研究方向,比如中科院微电子研究所就在今年的ISSCC大会上发表了数模混合存算一体芯片的论文,其采用模拟方案来进行阵列内位乘法计算,利用数字方案来进行阵列外多位移位累加计算,从而达到整体的高能量效率和面积效率,INT8精度下的计算峰值能效可达111.17TFLOPS/W.
speedAI240 / Untether AI

除此之外,还有存间计算的厂商,将计算单元放在不同的SRAM之间。以存间计算初创公司Untether AI为例,他们以打造存内推理加速器AI为主,通过将计算单元放在两个存储单元之间,其IC可以提供更高能效比的推理性能。比如他们在打造的第二代IC,speedAI240,集成了1400个定制RISC-V核心,可以提供至高2PetaFlops的推理性能,能耗比最高可达30 TFLOPS/W。

除了各种存算一体架构的算力瓶颈外,存储本身也需要做出突破。以三星的PIM为例,其虽然在DRAM上引入了PIM计算单元,但并未对DRAM本身的带宽的性能带来提升,这就造成了在存算一体的架构中,依然存在计算单元与存储器性能不平衡的问题,各种其他类型的存储器,包括MRAM、PCM、RRAM,除了量产问题外,写入速度和功耗的问题也还未实现突破。

西安紫光国芯为此提出了一种3D异质集成DRAM架构,逻辑晶圆通过3D混合键合工艺堆叠至SeDRAM晶圆上,进一步提升了访存带宽,降低了单位比特能耗,还能实现超大容量。从去年紫光国芯在VLSI 2023发布的论文来看,其SeDRAM已经发展至新一代多层阵列架构。结合低温混合键合技术和mini-TSV堆叠技术,可以实现135Gbps/Gbit的带宽和0.66pJ/bit的能效。

写在最后

其实无论是哪一种突破存储墙瓶颈的方式,最终都很难逃脱复杂工艺带来的挑战。行业迟迟不愿普及相关的存算技术,还是在制造工艺上没有达到适合普及的标准,无论是良率、成本还是所需的设计、制造流水线变化。已经占据主导地位的计算芯片厂商,也不会选择非得和存储绑在一条船上,但行业必然会朝这个方向发展。

此外,不少存内计算的堆叠方案中,还没有选择将主计算资源的CPU或GPU与存储垂直堆叠,而是把部分计算负载交给与存储结合的计算单元。这样一来既提高了AI计算的效率,又不会因为结构变化而出现不兼容的情况。从行业发展的角度来看,近存计算和存内处理最有可能先普及开来。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4892

    浏览量

    90290
  • sram
    +关注

    关注

    6

    文章

    833

    浏览量

    117727
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302616
  • HBM
    HBM
    +关注

    关注

    2

    文章

    434

    浏览量

    15884
  • 存算一体
    +关注

    关注

    1

    文章

    121

    浏览量

    5217
  • 存内计算
    +关注

    关注

    0

    文章

    35

    浏览量

    1675
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    OpenClaw引爆AI力!长江存储eSSD三箭齐发,有何杀手锏?

    SIA数据显示,从2024年到2029年,eSSD需求的复合增长率达到34.9%。长江存储固态硬盘事业部负责人谭弘就AI时代力瓶颈和长江存储
    的头像 发表于 03-31 09:36 1.5w次阅读
    OpenClaw引爆<b class='flag-5'>AI</b><b class='flag-5'>存</b>力!长江<b class='flag-5'>存储</b>eSSD三箭齐发,有何杀手锏?

    中科曙光scaleX40超节点革新AI协同

    在当前时代,以Token(词元)为代表的力需求已成为行业核心刚需,而稳定、高效的力运转,离不开底层力的可靠支撑。立足这一行业发展逻
    的头像 发表于 03-28 15:46 1670次阅读

    ReRAM:AI时代的潜力存储技术

    ,逐渐成为存储领域和人工智能(AI)领域的焦点。   ReRAM是一种非易失性存储器,由富士通率先研制成功。它基于忆阻器原理,采用金属 - 介质层 - 金属(MIM)的三层结构,通过电阻状态的变化来
    的头像 发表于 02-25 09:04 4767次阅读

    如何突破AI存储?深度解析ONFI 6.0高速接口与Chiplet解耦架构

    1. 行业核心痛点:AI存储”危机在大模型训练与推理场景中,力演进速度远超存储带宽,计算与存储
    发表于 01-29 17:32

    国产高性能ONFI IP解决方案全解析

    PHY IP 方案展现了行业领先的性能,专为满足一体及大容量存储需求而优化:• 高速率传输:全面支持先进规范,传输速率可达 3600/4800 Mbps。• 卓越信号完整性:支持
    发表于 01-13 16:15

    2025年曙光存储以先进力构建开放的力底座并加速AI进化

    数据存储作为AI基础设施的重要组成,战略价值日益凸显。2025年,曙光存储以先进力构建开放的力底座、加速
    的头像 发表于 01-07 09:39 644次阅读

    AI一体,这家ReRAM新型存储受关注

    及相关芯片产品的研发,涵盖AI一体(Computing in Memory, CIM)IP及大模型加速方案、高性
    的头像 发表于 12-25 09:43 2377次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>存</b><b class='flag-5'>算</b>一体,这家ReRAM新型<b class='flag-5'>存储</b>受关注

    mSSD存储介质生态创新,探索AI终端存储新路径

    的产业链伙伴,共探AI时代存储介质生态创新。AI发展驱动终端计算架构革新,力持续突破的同时,存储
    的头像 发表于 12-15 21:32 744次阅读
    mSSD<b class='flag-5'>存储</b>介质生态创新,探索<b class='flag-5'>AI</b>终端<b class='flag-5'>存储</b>新路径

    曙光存储推出面向金融的可信AI存储

    近日,曙光存储推出面向金融的可信AI存储,助力金融行业高效、安全、稳定地使用关键业务敏感数据。该方案基于全球领先的集中式全闪存储FlashN
    的头像 发表于 10-23 09:24 782次阅读

    江波龙携AI存储创新亮相中国移动合作伙伴大会,合创AI+时代

    经济发展新机遇。作为中国移动合作伙伴,江波龙在本届大会集中展示面向AI、云计算及数据中心的企业级存储方案,与产业链伙伴合创AI+时代
    的头像 发表于 10-10 17:38 1413次阅读
    江波龙携<b class='flag-5'>AI</b><b class='flag-5'>存储</b>创新亮相中国移动合作伙伴大会,合创<b class='flag-5'>AI</b>+<b class='flag-5'>时代</b>

    一文看懂“一体”

    今天这篇文章,我们来聊一个最近几年很火的概念——一体。为什么会提出“一体”?一体,英
    的头像 发表于 08-18 12:15 1662次阅读
    一文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b>一体”

    2025端侧AI芯片爆发:一体、非Transformer架构谁主浮沉?边缘计算如何选型?

    各位技术大牛好!最近WAIC 2025上端侧AI芯片密集发布,彻底打破传统力困局。各位大佬在实际项目中都是如何选型的呢?
    发表于 07-28 14:40

    平衡”有多重要?

    。而决定这种配合效率的关键指标,正是我们今天要聊的“比”。什么是比?比=计算能力(如
    的头像 发表于 07-11 14:06 877次阅读
    “<b class='flag-5'>算</b><b class='flag-5'>存</b>平衡”有多重要?

    力积存储港股IPO,蓄力研发AI方案

    电子发烧友网综合报道,5月28日,浙江力积存储科技股份有限公司(以下简称"力积存储")向港交所提交上市申请书,独家保荐人为中信证券(香港)有限公司。   力积存储是中国领先的内存芯片设计公司及
    的头像 发表于 06-06 00:57 8376次阅读
    力积<b class='flag-5'>存储</b>港股IPO,蓄力研发<b class='flag-5'>AI</b><b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>方案</b>

    苹芯科技 N300 一体 NPU,开启端侧 AI 新征程

    随着端侧人工智能技术的爆发式增长,智能设备对本地力与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存”问题成为制约端侧AI性能突破的关键掣肘。在这一背景下,
    的头像 发表于 05-06 17:01 1336次阅读
    苹芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b>一体 NPU,开启端侧 <b class='flag-5'>AI</b> 新征程