电子发烧友网报道(文/黄山明)近期,三星宣布开始向全球主要客户发送12层HBM4E样品。此前三星便已经率先实现了HBM4的量产交付,本次新品的交付,本质上是为了给下一代超大模型AI GPU/加速器用的高速内存扩容。
而这也标志着AI存储技术进入到了新的阶段,毕竟HBM4E在带宽、容量、能效三大核心指标上较上一代HBM4实现20%以上的综合提升,将直接影响大模型训练效率与数据中心成本。若量产顺利,三星有望打破SK海力士在HBM市场的长期主导地位。
HBM4E样品交付
从此次交付的HBM4E样品规格来看,采用12层堆叠,单栈容量为48GB,比上一代HBM4提高30%以上。稳定引脚速率14Gbps可扩展到16Gbps,单栈带宽最高3.6 TB/s,采用三星6代10nm级DRAM(1c)与4nm逻辑基底,能效相比上一代提升约16%,热阻改善超过14%。
另外,三星在GTC 2026上展示的HBM4E规格是更激进的版本,每引脚速度直接飙升至16Gbps、最高4TB/s带宽、16层48GB栈,是为了英伟达Rubin Ultra平台准备的。
值得一提的是,在HBM3E及以前,底部的控制芯片采用的是标准内存工艺。而从HBM4/HBM4E开始,底座改用了晶圆代工级别的先进制程逻辑工艺,也就是三星4nm FinFET,直接将高功率的控制、寻址逻辑移到最底层,大幅降低了传输延迟和发热。
目前三星已经向英伟达、AMD、谷歌等头部企业送样,旨在争取下一代AI芯片平台的核心供应商资格。例如英伟达为了降低供应链风险,已经将三星列为HBM4的第二供应商,分得30%的订单,如果HBM4E通过验证,将进一步巩固与其合作。
SK海力士此前就凭借HBM3/HBM3E阶段的90%以上良率优势占据约57%市场份额,长期主导英伟达等头部客户供应链。这次AMD计划在2027年发布的MI500系列加速器中采用HBM4E,以匹配其CDNA6架构的算力需求。
更何况从AI GPU/加速器来看,下一代的标配就是HBM4E,不仅是因为单卡可以支持更大的模型,支持更长的上下文,减少多卡通信。还因为推理吞吐更高、延迟更低,对长链推理、RAG 类工作负载尤其明显。
迈入2026年,云端巨头和企业级用户不再一味追求盲目训练超级大模型,而是极度看重模型跑起来之后的投产比(ROI)与总拥有成本(TCO)。在推理阶段,大模型的速度完全受限于“内存带宽瓶颈”,即算力很强,但内存喂数据的速度跟不上。
目前主流的多模态长文本模型在运行时,需要吃掉极其恐怖的显存带宽和容量。单颗48GB、4.0 TB/s的HBM4E,能让单张AI加速卡在不增加物理体积的情况下,轻松塞下数百GB的超快显存。这对于AI大模型而言,将是质变,也就是说谁的HBM4E样品先通过验证并稳定量产,谁就能吃下未来2-3年最大的AI利润。
这就促使三星进一步加快研发速度,期望能够抢在SK海力士之前先一步达成合作。从HBM4的发布就可以看出,三星通过将研发周期从2年压缩至1年,2026年2月率先量产了HBM4,5月份又抢先交付了HBM4E。
若HBM4E量产顺利,瑞银预测到2027年,三星与SK海力士的HBM出货份额将各占约40%,形成双寡头格局。
算力与带宽增长的严重失配
相关数据显示,2012-2022年,NVIDIA GPU的浮点运算能力增长80倍,但HBM内存带宽仅提升17倍。当前AI芯片的算力增长速度是显存带宽增速的10倍以上,导致计算单元90%以上的时间在等待数据搬运,而非执行计算任务。
与此同时,万亿参数模型叠加128K/256K上下文时,KV Cache(键值缓存)容量需求可达数十GB至上百GB,远超单卡HBM容量上限(如H100的80GB)。若带宽不足,GPU需频繁从远端存储读取数据,推理延迟直接翻倍。
为了解决这个问题,HBM诞生了,但即便到了第六代HBM4,失配压力仍然悬在头顶。从第一代到HBM3E,HBM的接口位宽一直死死卡在1024位,想要提升带宽,唯一的办法就是提高引脚速率。但HBM3E做到9.6Gbps左右时,由于信号干扰、功耗飙升和发热,单靠拔高频率这条路几乎走到了物理极限。
因此JEDEC组织和各大厂商一狠心,在HBM4架构上做出了历史上最大的改变,直接将位宽翻倍到了2048位。位宽翻倍意味着即使把频率降下来,总带宽也能轻松翻倍。但问题在于,AI大模型的参数量和多模态上下文的增长速度太疯狂了,刚刚被拓宽到2048位的HBM4,一落地就面临着带宽被吞噬殆尽的危险。
当然,如果只跑7B-13B小模型,HBM3E/HBM4就够了,HBM4E的优势未必能体会得到,但对70B–175B+、长上下文、高并发推理的大模型来说,HBM4E的作用至关重要。据计算,在128K上下文场景中,HBM4E可将单Token生成延迟降低30%-40%,推理吞吐量提升2倍以上。
能效比也是一个关键的指标,目前AI数据中心的电力成本占总运营成本40%以上,单纯提升带宽但功耗激增的方案不可持续。例如,HBM4到HBM5的功耗预计增长两倍以上,若能效未同步优化,系统将因供电/散热限制无法扩容。
要知道带宽增长的一大障碍就是发热,从HBM4/4E开始,底部的控制逻辑芯片不再使用普通的内存工艺,而是交由晶圆代工的先进制程来做,利用先进制程强大的逻辑开关能力,数据从顶层内存颗粒下落到GPU的延迟被大幅降低。延迟的降低,本质上也是在变相提升“有效带宽”,从而缓解算力等待的时间
而HBM4E的能效提升了16%,在带宽提升20%的同时,单位带宽的能耗显著降低,直接减少数据中心每瓦特算力的运营成本,使大规模部署在经济层面可行。
当然,这里就不得不提到SK海力士发布的iHBM技术了,这是该公司专门为下一代HBM5以及高阶AI加速器量身定制的架构级散热解决方案。直接将ICE(Integrated Cooling Elements,一体化冷却元件)嵌入到芯片内部发热最高的区域,也就是D2D PHY(Die-to-Die物理层,即内存底座与AI处理器高频握手的核心接口区)。
HBM4E为了解决算力失配,把接口拓宽到2048位,同时把引脚速率轰到了16 Gbps。这种提升带来了两大无法回避的副作用,一个是随着传输速率来到16Gbps,意味着底层D2D PHY接口上的晶体管在以极其恐怖的高频进行开关,这里变得非常热。
另一个则是多层堆叠,目前HBM4E是12层,未来HBM5有可能全面采用16层甚至更高。但层数变高,会导致里面的热量排不出去,一旦温度超过临界值,芯片就会触发热降频。SK海力士的iHBM正是为了解决这一问题而推出的方案,相比三星采用的4nm逻辑底座,孰优孰劣还需要市场来检验。
写在最后
不久前,SpaceX的IPO招股书才爆出因为要搞“轨道AI算力”而遭遇严重的AI芯片短缺。高带宽、大容量的HBM4E一旦通过验证并转入量产,能显著提升单颗AI芯片的执行效率,相当于变相通过提高单卡性能来缓解全球GPU供应链晶圆产能不足的燃眉之急。
同时2048位的HBM4E意味着底部的互连密度呈几何级数增加,这不仅对台积电的CoWoS封装、三星自己的先进封装提出了极高要求,还会直接倒逼PLP和CPO等网通技术的商业化落地。
有趣的是ASIC厂商比GPU厂商更加依赖于定制的HBM4E,GPU厂商走的是标准的HBM4E加上自家封装。而ASIC厂商,例如博通、Marvell等,要给不同的云厂商定制不同HBM4E配置,对HBM4E的定制能力和供应稳定性更加敏感。
尤其是当算力堆到一定水平后,谁更会用HBM4E,例如栈数分配、带宽分区、与光互连配合等,就成了新的差异化点。Marvell的Custom HBM Compute架构就是典型,用HBM4E的布局来换更多计算面积和容量。
对于IP及生态厂商而言,HBM4E更是一场新的接口标准竞争的到来。如Rambus就发布了HBM4E控制器IP,可以支持16 Gbps/pin,单控制器吞吐可达4.1 TB/s,主要面向下一代AI训练和HPC系统。
对这类厂商而言,谁的HBM4E控制器IP更成熟,谁就更容易被ASIC/SoC厂商采纳。而对国产IP厂商也是同样机会,能不能在HBM4E时代做出自己的控制器IP,是未来几年关键。
而这也标志着AI存储技术进入到了新的阶段,毕竟HBM4E在带宽、容量、能效三大核心指标上较上一代HBM4实现20%以上的综合提升,将直接影响大模型训练效率与数据中心成本。若量产顺利,三星有望打破SK海力士在HBM市场的长期主导地位。
HBM4E样品交付
从此次交付的HBM4E样品规格来看,采用12层堆叠,单栈容量为48GB,比上一代HBM4提高30%以上。稳定引脚速率14Gbps可扩展到16Gbps,单栈带宽最高3.6 TB/s,采用三星6代10nm级DRAM(1c)与4nm逻辑基底,能效相比上一代提升约16%,热阻改善超过14%。
另外,三星在GTC 2026上展示的HBM4E规格是更激进的版本,每引脚速度直接飙升至16Gbps、最高4TB/s带宽、16层48GB栈,是为了英伟达Rubin Ultra平台准备的。
值得一提的是,在HBM3E及以前,底部的控制芯片采用的是标准内存工艺。而从HBM4/HBM4E开始,底座改用了晶圆代工级别的先进制程逻辑工艺,也就是三星4nm FinFET,直接将高功率的控制、寻址逻辑移到最底层,大幅降低了传输延迟和发热。
目前三星已经向英伟达、AMD、谷歌等头部企业送样,旨在争取下一代AI芯片平台的核心供应商资格。例如英伟达为了降低供应链风险,已经将三星列为HBM4的第二供应商,分得30%的订单,如果HBM4E通过验证,将进一步巩固与其合作。
SK海力士此前就凭借HBM3/HBM3E阶段的90%以上良率优势占据约57%市场份额,长期主导英伟达等头部客户供应链。这次AMD计划在2027年发布的MI500系列加速器中采用HBM4E,以匹配其CDNA6架构的算力需求。
更何况从AI GPU/加速器来看,下一代的标配就是HBM4E,不仅是因为单卡可以支持更大的模型,支持更长的上下文,减少多卡通信。还因为推理吞吐更高、延迟更低,对长链推理、RAG 类工作负载尤其明显。
迈入2026年,云端巨头和企业级用户不再一味追求盲目训练超级大模型,而是极度看重模型跑起来之后的投产比(ROI)与总拥有成本(TCO)。在推理阶段,大模型的速度完全受限于“内存带宽瓶颈”,即算力很强,但内存喂数据的速度跟不上。
目前主流的多模态长文本模型在运行时,需要吃掉极其恐怖的显存带宽和容量。单颗48GB、4.0 TB/s的HBM4E,能让单张AI加速卡在不增加物理体积的情况下,轻松塞下数百GB的超快显存。这对于AI大模型而言,将是质变,也就是说谁的HBM4E样品先通过验证并稳定量产,谁就能吃下未来2-3年最大的AI利润。
这就促使三星进一步加快研发速度,期望能够抢在SK海力士之前先一步达成合作。从HBM4的发布就可以看出,三星通过将研发周期从2年压缩至1年,2026年2月率先量产了HBM4,5月份又抢先交付了HBM4E。
若HBM4E量产顺利,瑞银预测到2027年,三星与SK海力士的HBM出货份额将各占约40%,形成双寡头格局。
算力与带宽增长的严重失配
相关数据显示,2012-2022年,NVIDIA GPU的浮点运算能力增长80倍,但HBM内存带宽仅提升17倍。当前AI芯片的算力增长速度是显存带宽增速的10倍以上,导致计算单元90%以上的时间在等待数据搬运,而非执行计算任务。
与此同时,万亿参数模型叠加128K/256K上下文时,KV Cache(键值缓存)容量需求可达数十GB至上百GB,远超单卡HBM容量上限(如H100的80GB)。若带宽不足,GPU需频繁从远端存储读取数据,推理延迟直接翻倍。
为了解决这个问题,HBM诞生了,但即便到了第六代HBM4,失配压力仍然悬在头顶。从第一代到HBM3E,HBM的接口位宽一直死死卡在1024位,想要提升带宽,唯一的办法就是提高引脚速率。但HBM3E做到9.6Gbps左右时,由于信号干扰、功耗飙升和发热,单靠拔高频率这条路几乎走到了物理极限。
因此JEDEC组织和各大厂商一狠心,在HBM4架构上做出了历史上最大的改变,直接将位宽翻倍到了2048位。位宽翻倍意味着即使把频率降下来,总带宽也能轻松翻倍。但问题在于,AI大模型的参数量和多模态上下文的增长速度太疯狂了,刚刚被拓宽到2048位的HBM4,一落地就面临着带宽被吞噬殆尽的危险。
当然,如果只跑7B-13B小模型,HBM3E/HBM4就够了,HBM4E的优势未必能体会得到,但对70B–175B+、长上下文、高并发推理的大模型来说,HBM4E的作用至关重要。据计算,在128K上下文场景中,HBM4E可将单Token生成延迟降低30%-40%,推理吞吐量提升2倍以上。
能效比也是一个关键的指标,目前AI数据中心的电力成本占总运营成本40%以上,单纯提升带宽但功耗激增的方案不可持续。例如,HBM4到HBM5的功耗预计增长两倍以上,若能效未同步优化,系统将因供电/散热限制无法扩容。
要知道带宽增长的一大障碍就是发热,从HBM4/4E开始,底部的控制逻辑芯片不再使用普通的内存工艺,而是交由晶圆代工的先进制程来做,利用先进制程强大的逻辑开关能力,数据从顶层内存颗粒下落到GPU的延迟被大幅降低。延迟的降低,本质上也是在变相提升“有效带宽”,从而缓解算力等待的时间
而HBM4E的能效提升了16%,在带宽提升20%的同时,单位带宽的能耗显著降低,直接减少数据中心每瓦特算力的运营成本,使大规模部署在经济层面可行。
当然,这里就不得不提到SK海力士发布的iHBM技术了,这是该公司专门为下一代HBM5以及高阶AI加速器量身定制的架构级散热解决方案。直接将ICE(Integrated Cooling Elements,一体化冷却元件)嵌入到芯片内部发热最高的区域,也就是D2D PHY(Die-to-Die物理层,即内存底座与AI处理器高频握手的核心接口区)。
HBM4E为了解决算力失配,把接口拓宽到2048位,同时把引脚速率轰到了16 Gbps。这种提升带来了两大无法回避的副作用,一个是随着传输速率来到16Gbps,意味着底层D2D PHY接口上的晶体管在以极其恐怖的高频进行开关,这里变得非常热。
另一个则是多层堆叠,目前HBM4E是12层,未来HBM5有可能全面采用16层甚至更高。但层数变高,会导致里面的热量排不出去,一旦温度超过临界值,芯片就会触发热降频。SK海力士的iHBM正是为了解决这一问题而推出的方案,相比三星采用的4nm逻辑底座,孰优孰劣还需要市场来检验。
写在最后
不久前,SpaceX的IPO招股书才爆出因为要搞“轨道AI算力”而遭遇严重的AI芯片短缺。高带宽、大容量的HBM4E一旦通过验证并转入量产,能显著提升单颗AI芯片的执行效率,相当于变相通过提高单卡性能来缓解全球GPU供应链晶圆产能不足的燃眉之急。
同时2048位的HBM4E意味着底部的互连密度呈几何级数增加,这不仅对台积电的CoWoS封装、三星自己的先进封装提出了极高要求,还会直接倒逼PLP和CPO等网通技术的商业化落地。
有趣的是ASIC厂商比GPU厂商更加依赖于定制的HBM4E,GPU厂商走的是标准的HBM4E加上自家封装。而ASIC厂商,例如博通、Marvell等,要给不同的云厂商定制不同HBM4E配置,对HBM4E的定制能力和供应稳定性更加敏感。
尤其是当算力堆到一定水平后,谁更会用HBM4E,例如栈数分配、带宽分区、与光互连配合等,就成了新的差异化点。Marvell的Custom HBM Compute架构就是典型,用HBM4E的布局来换更多计算面积和容量。
对于IP及生态厂商而言,HBM4E更是一场新的接口标准竞争的到来。如Rambus就发布了HBM4E控制器IP,可以支持16 Gbps/pin,单控制器吞吐可达4.1 TB/s,主要面向下一代AI训练和HPC系统。
对这类厂商而言,谁的HBM4E控制器IP更成熟,谁就更容易被ASIC/SoC厂商采纳。而对国产IP厂商也是同样机会,能不能在HBM4E时代做出自己的控制器IP,是未来几年关键。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
HBM
+关注
关注
2文章
439浏览量
15921 -
算力
+关注
关注
2文章
1805浏览量
16871 -
三星
+关注
关注
1文章
1795浏览量
34622
发布评论请先 登录
相关推荐
热点推荐
三星电子交付业界首批HBM4E样品
三星电子近日宣布,已向客户交付了行业内首批HBM4E内存工程样品。据官方披露,该款新一代高带宽内存在带宽性能上相比当前的HBM4提升了20%
AI加速器需求倒逼HBM4量产加速,三家国际存储巨头亮出进度表
HBM3E中仅承担信号转接,但HBM4开始部分计算任务下沉至base die,以解决内存墙问题,"Base Die将成为HBM下一代竞争的决
三星HBM移动端封装方案 手机平板将搭载服务器级高带宽内存
在人工智能浪潮席卷半导体产业的背景下,韩国三星电子正凭借一项目前尚处于研发阶段的独创封装技术,尝试将此前长期局限于服务器市场和高端AI芯片领域的高带宽内存(HBM),首次引入智能手机和平板电脑等移动
SK海力士HBM混合键合良率提升,ASML被传研发W2W键合设备
内存传输到处理器的速度。为了打破这堵无形的墙,高带宽内存(HBM)应运而生,成为连接算力与数据的
消息称英伟达HBM4订单两家七三分,独缺这一家
的相关产品。 三星电子HBM4 采用1c DRAM 和 4nm 制程工艺,其数据处理速度超过了JEDEC 标准的8Gbps,最高可达11.7Gbps,比上一代 HBM3E(9.6Gbp
HBM3E反常涨价20%,AI算力竞赛重塑存储芯片市场格局
电子发烧友网报道(文/吴子鹏)在半导体存储行业的常规逻辑中,新一代产品面世前夕,前代产品降价清库存是常规定律,但如今HBM(高带宽内存)将打破这一行业共识。据韩媒最新报道,三星电子和SK海力士已上调
应对端侧AI算力、内存、功耗“三堵墙”困境,安谋科技Arm China “周易”X3给出技术锦囊
AI大模型正加速从云端向边缘与端侧渗透,然而,算力、内存、功耗等却成了制约其规模化落地的“高墙”。专为AI计算而生的神经网络处理器(NPU),成为破
传三星 HBM4 通过英伟达认证,量产在即
电子发烧友网综合报道,据报道,有业内人士透露,三星在上个月向英伟达提供了HBM4样品,目前已经通过了初步的质量测试,将于本月底进入预生产阶段。如果能通过英伟达最后的验证步骤,最早可能在11月或12月
燧原科技加速国产智算破局
智算破局”主题论坛。论坛上,燧原科技创始人、董事长、CEO赵立东,燧原科技创始人兼COO张亚林就产业发展趋势与最新产品情况进行了分享和发布。
突破堆叠瓶颈:三星电子拟于16层HBM导入混合键合技术
成为了全球存储芯片巨头们角逐的焦点。三星电子作为行业的领军企业,一直致力于推动 HBM 技术的革新。近日有消息传出,三星电子准备从 16 层 HBM 开始引入混合键合技术,这一举措无疑
英伟达认证推迟,但三星HBM3E有了新进展
电子发烧友网综合报道,据韩媒报道,三星电子近期已完成与博通就12层HBM3E产品的质量测试,正就量产供应展开磋商。当前协商的供应量按容量计算约为10亿Gb级别左右,量产时间预计最早从今年下半年延续至
三星Q2净利润暴跌56%:代工遇冷,HBM业务受挫
净利润下滑。 在全球智能手机市场,三星是手机市场的领导品牌,也是存储芯片大厂。但是在AI服务器的HBM市场,三星落后于韩国SK海力士和美光科技。 Futurum统计,全球对HBM的需求
让算力不再空转,三星HBM4E抢跑交样,破局“内存墙”
评论