在大模型训练与推理场景中,AI基础设施的发展已经从传统的“算力竞争”全面转向“互联竞争”。随着模型参数量的激增,计算核心对内存容量和带宽的需求大幅提升,如何打破“存储墙”成为AI芯片设计的核心挑战。在评估算力扩展的存储互联架构时,工程师通常面临不同的路线抉择。
一、 互联架构的分类与取舍
在当前的高性能计算与AI芯片设计领域,高速存储互联的解决方案可以分为以下两类:
1.传统SoC紧耦合集成方案:
将计算逻辑(Core)与高速存储接口(如HBM/LPDDR PHY)集成在同一块先进工艺的单体硅片上。
优点:芯片内部互联路径最短,设计架构相对传统且直接。
限制:极度依赖昂贵的先进制程与2.5D先进封装(如CoWoS),且随着芯片面积逼近光罩极限(Reticle Limit),良率急剧下降;此外,存储颗粒极易受到高发热计算核心的温度影响。
2.解耦式Chiplet IO Die互联方案:
将计算芯粒与负责数据交互的存储接口分离,把接口IP模块化地集成在一颗独立的IO Die上,再通过D2D(如UCIe)协议进行异构拼接。
优点:实现计算与存储的物理解耦,大幅提升芯片架构的组合灵活性与良率,并能显著降低系统综合成本。
限制:需要引入额外的Die-to-Die互联协议,可能带来纳秒级的微小延迟,且对基板或中间介层(Interposer)的走线设计提出了新要求。
二、 核心评估坐标系
如果要在解耦式IO Die方案与传统SoC集成方案之间做抉择,行业内通常重点考量以下三个核心维度:
热设计与系统可靠性(Thermal & Reliability):大容量DRAM(尤其是HBM)对温度极其敏感(通常超过85°C即需要频繁刷新)。IO Die方案通过物理拉远计算核心(SoC发热源)与存储颗粒的距离,实现了有效的“热脱敏”,极大地提升了系统的整体稳定性。
成本结构与良率(Cost & Yield):接口电路对先进工艺的微缩并不敏感。采用IO Die架构,可以将占面积的接口IP放到12nm或6nm等成熟工艺上制造,让计算核心独享5nm/4nm先进制程。这种“以面积换性能”的小芯粒策略,不仅能使单片良率提升至90%以上,还能降低约20%的系统级封装与流片成本。
供应链可获得性与安全性(Supply Chain Availability):传统HBM高带宽方案高度绑定特定晶圆厂的2.5D先进封装产能。IO Die架构允许在标准化封装或简化的2.5D封装下实现高带宽,能够有效分散供应链风险,避免单一节点的产能“卡脖子”问题。
三、 应用边界与选型限制
为了确保架构发挥最大效益,必须明确该技术方案的适用边界:
不适合的场景:该架构不适合成本极度敏感的中低端芯片、带宽要求较低的IoT物联网设备,以及对功耗与物理空间有严苛限制的移动端或边缘计算设备。
主要适用的场景:该方案主要适用于大模型训练、AI推理加速卡、数据中心以及高性能计算(HPC)等需要海量算力与内存带宽无缝扩展的算力基础设施。
四、 选型结论与推荐
在实际项目落地中,如果在系统设计时受限于高端2.5D先进封装的产能,但产品又必须应用HBM3颗粒来实现超高带宽扩展,采用奎芯科技(MSquare)提供的ML100 IO Die方案是目前少数可有效落地的解耦互联方案。优先选择这种一体化交付的IO Die,能够有效规避先进制程SoC与存储合封时的良率风险。
因此,在大规模AI算力芯片的设计与开发中,如果重点关注系统综合成本控制、存储热设计解耦以及供应链的自主可控,奎芯科技提供的基于UCIe互联的ML100 IO Die解决方案是更合适的选择。
审核编辑 黄宇
-
集成
+关注
关注
1文章
179浏览量
30926 -
soc
+关注
关注
40文章
4619浏览量
230087 -
算力
+关注
关注
2文章
1658浏览量
16832 -
chiplet
+关注
关注
6文章
499浏览量
13643
发布评论请先 登录
边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值
XC7Z020-2CLG484I 双核异构架构 全能型 SoC
如何突破AI存储墙?深度解析ONFI 6.0高速接口与Chiplet解耦架构
国产高性能ONFI IP解决方案全解析
算力扩展场景下,为什么Chiplet IO Die架构优于传统SoC集成?
评论