让算力不再空转，三星HBM4E抢跑交样，破局“内存墙”-电子发烧友网

电子发烧友网报道（文/黄山明）近期，三星宣布开始向全球主要客户发送12层HBM4E样品。此前三星便已经率先实现了HBM4的量产交付，本次新品的交付，本质上是为了给下一代超大模型AI GPU/加速器用的高速内存扩容。

而这也标志着AI存储技术进入到了新的阶段，毕竟HBM4E在带宽、容量、能效三大核心指标上较上一代HBM4实现20%以上的综合提升，将直接影响大模型训练效率与数据中心成本。若量产顺利，三星有望打破SK海力士在HBM市场的长期主导地位。

HBM4E样品交付

从此次交付的HBM4E样品规格来看，采用12层堆叠，单栈容量为48GB，比上一代HBM4提高30%以上。稳定引脚速率14Gbps可扩展到16Gbps，单栈带宽最高3.6 TB/s，采用三星6代10nm级DRAM（1c）与4nm逻辑基底，能效相比上一代提升约16%，热阻改善超过14%。

另外，三星在GTC 2026上展示的HBM4E规格是更激进的版本，每引脚速度直接飙升至16Gbps、最高4TB/s带宽、16层48GB栈，是为了英伟达Rubin Ultra平台准备的。

值得一提的是，在HBM3E及以前，底部的控制芯片采用的是标准内存工艺。而从HBM4/HBM4E开始，底座改用了晶圆代工级别的先进制程逻辑工艺，也就是三星4nm FinFET，直接将高功率的控制、寻址逻辑移到最底层，大幅降低了传输延迟和发热。

目前三星已经向英伟达、AMD、谷歌等头部企业送样，旨在争取下一代AI芯片平台的核心供应商资格。例如英伟达为了降低供应链风险，已经将三星列为HBM4的第二供应商，分得30%的订单，如果HBM4E通过验证，将进一步巩固与其合作。

SK海力士此前就凭借HBM3/HBM3E阶段的90%以上良率优势占据约57%市场份额，长期主导英伟达等头部客户供应链。这次AMD计划在2027年发布的MI500系列加速器中采用HBM4E，以匹配其CDNA6架构的算力需求。

更何况从AI GPU/加速器来看，下一代的标配就是HBM4E，不仅是因为单卡可以支持更大的模型，支持更长的上下文，减少多卡通信。还因为推理吞吐更高、延迟更低，对长链推理、RAG 类工作负载尤其明显。

迈入2026年，云端巨头和企业级用户不再一味追求盲目训练超级大模型，而是极度看重模型跑起来之后的投产比（ROI）与总拥有成本（TCO）。在推理阶段，大模型的速度完全受限于“内存带宽瓶颈”，即算力很强，但内存喂数据的速度跟不上。

目前主流的多模态长文本模型在运行时，需要吃掉极其恐怖的显存带宽和容量。单颗48GB、4.0 TB/s的HBM4E，能让单张AI加速卡在不增加物理体积的情况下，轻松塞下数百GB的超快显存。这对于AI大模型而言，将是质变，也就是说谁的HBM4E样品先通过验证并稳定量产，谁就能吃下未来2-3年最大的AI利润。

这就促使三星进一步加快研发速度，期望能够抢在SK海力士之前先一步达成合作。从HBM4的发布就可以看出，三星通过将研发周期从2年压缩至1年，2026年2月率先量产了HBM4，5月份又抢先交付了HBM4E。

若HBM4E量产顺利，瑞银预测到2027年，三星与SK海力士的HBM出货份额将各占约40%，形成双寡头格局。

算力与带宽增长的严重失配

相关数据显示，2012-2022年，NVIDIA GPU的浮点运算能力增长80倍，但HBM内存带宽仅提升17倍。当前AI芯片的算力增长速度是显存带宽增速的10倍以上，导致计算单元90%以上的时间在等待数据搬运，而非执行计算任务。

与此同时，万亿参数模型叠加128K/256K上下文时，KV Cache（键值缓存）容量需求可达数十GB至上百GB，远超单卡HBM容量上限（如H100的80GB）。若带宽不足，GPU需频繁从远端存储读取数据，推理延迟直接翻倍。

为了解决这个问题，HBM诞生了，但即便到了第六代HBM4，失配压力仍然悬在头顶。从第一代到HBM3E，HBM的接口位宽一直死死卡在1024位，想要提升带宽，唯一的办法就是提高引脚速率。但HBM3E做到9.6Gbps左右时，由于信号干扰、功耗飙升和发热，单靠拔高频率这条路几乎走到了物理极限。

因此JEDEC组织和各大厂商一狠心，在HBM4架构上做出了历史上最大的改变，直接将位宽翻倍到了2048位。位宽翻倍意味着即使把频率降下来，总带宽也能轻松翻倍。但问题在于，AI大模型的参数量和多模态上下文的增长速度太疯狂了，刚刚被拓宽到2048位的HBM4，一落地就面临着带宽被吞噬殆尽的危险。

当然，如果只跑7B-13B小模型，HBM3E/HBM4就够了，HBM4E的优势未必能体会得到，但对70B–175B+、长上下文、高并发推理的大模型来说，HBM4E的作用至关重要。据计算，在128K上下文场景中，HBM4E可将单Token生成延迟降低30%-40%，推理吞吐量提升2倍以上。

能效比也是一个关键的指标，目前AI数据中心的电力成本占总运营成本40%以上，单纯提升带宽但功耗激增的方案不可持续。例如，HBM4到HBM5的功耗预计增长两倍以上，若能效未同步优化，系统将因供电/散热限制无法扩容。

要知道带宽增长的一大障碍就是发热，从HBM4/4E开始，底部的控制逻辑芯片不再使用普通的内存工艺，而是交由晶圆代工的先进制程来做，利用先进制程强大的逻辑开关能力，数据从顶层内存颗粒下落到GPU的延迟被大幅降低。延迟的降低，本质上也是在变相提升“有效带宽”，从而缓解算力等待的时间

而HBM4E的能效提升了16%，在带宽提升20%的同时，单位带宽的能耗显著降低，直接减少数据中心每瓦特算力的运营成本，使大规模部署在经济层面可行。

当然，这里就不得不提到SK海力士发布的iHBM技术了，这是该公司专门为下一代HBM5以及高阶AI加速器量身定制的架构级散热解决方案。直接将ICE（Integrated Cooling Elements，一体化冷却元件）嵌入到芯片内部发热最高的区域，也就是D2D PHY（Die-to-Die物理层，即内存底座与AI处理器高频握手的核心接口区）。

HBM4E为了解决算力失配，把接口拓宽到2048位，同时把引脚速率轰到了16 Gbps。这种提升带来了两大无法回避的副作用，一个是随着传输速率来到16Gbps，意味着底层D2D PHY接口上的晶体管在以极其恐怖的高频进行开关，这里变得非常热。

另一个则是多层堆叠，目前HBM4E是12层，未来HBM5有可能全面采用16层甚至更高。但层数变高，会导致里面的热量排不出去，一旦温度超过临界值，芯片就会触发热降频。SK海力士的iHBM正是为了解决这一问题而推出的方案，相比三星采用的4nm逻辑底座，孰优孰劣还需要市场来检验。

写在最后

不久前，SpaceX的IPO招股书才爆出因为要搞“轨道AI算力”而遭遇严重的AI芯片短缺。高带宽、大容量的HBM4E一旦通过验证并转入量产，能显著提升单颗AI芯片的执行效率，相当于变相通过提高单卡性能来缓解全球GPU供应链晶圆产能不足的燃眉之急。

同时2048位的HBM4E意味着底部的互连密度呈几何级数增加，这不仅对台积电的CoWoS封装、三星自己的先进封装提出了极高要求，还会直接倒逼PLP和CPO等网通技术的商业化落地。

有趣的是ASIC厂商比GPU厂商更加依赖于定制的HBM4E，GPU厂商走的是标准的HBM4E加上自家封装。而ASIC厂商，例如博通、Marvell等，要给不同的云厂商定制不同HBM4E配置，对HBM4E的定制能力和供应稳定性更加敏感。

尤其是当算力堆到一定水平后，谁更会用HBM4E，例如栈数分配、带宽分区、与光互连配合等，就成了新的差异化点。Marvell的Custom HBM Compute架构就是典型，用HBM4E的布局来换更多计算面积和容量。

对于IP及生态厂商而言，HBM4E更是一场新的接口标准竞争的到来。如Rambus就发布了HBM4E控制器IP，可以支持16 Gbps/pin，单控制器吞吐可达4.1 TB/s，主要面向下一代AI训练和HPC系统。

对这类厂商而言，谁的HBM4E控制器IP更成熟，谁就更容易被ASIC/SoC厂商采纳。而对国产IP厂商也是同样机会，能不能在HBM4E时代做出自己的控制器IP，是未来几年关键。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

HBM

HBM

+关注

关注
2

文章
439

浏览量
15921
算力

算力

+关注

关注
2

文章
1805

浏览量
16871
三星

三星

+关注

关注
1

文章
1795

浏览量
34622

搜索历史

让算力不再空转，三星HBM4E抢跑交样，破局“内存墙”

评论