0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

内存要取代GPU?HBM之父警告:以英伟达GPU为核心的架构要被颠覆

Hobby观察 来源:电子发烧友网 作者:梁浩斌 2026-04-03 09:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/梁浩斌)“主板插显卡上”,是PC DIY玩家对高性能显卡体积越来越大的调侃,随着显卡功率越来越高,硕大的散热模组让显卡投影面积甚至已经大于ITX规格的主板,在PC里显卡取代了主板和CPU成为了主角。

而最近“HBM之父”金正浩教授也语出惊人,提出未来内存将成为主角:“GPU和CPU将会被集成到内存(HBM和HBF)里,沦为内存中的一个组件”。

倒反天罡,在内存里装GPU?

目前AI计算的架构以GPU为主导,核心计算单元是配备HBM的GPU,比如英伟达的Blackwell架构GPU,配备HBM3e内存,通过NVLink、NVSwitch等实现GPU间高速通信,形成比如NVL72等的机架级计算系统。

不过英伟达在Vera Rubin平台中,也展现出强烈的异构计算趋势,AI计算不再单纯依赖GPU,而是通过多芯片协同工作实现更高效的计算。Vera Rubin平台中,除了Rubin GPU之外,还有Vera CPU、Groq 3 LPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU等多种处理单元协同工作。

但异构计算或许也不是未来?金正浩预言,AI时代的最终赢家不是GPU,而是内存,目前以英伟达GPU为中心的AI计算架构,将会完全转向以内存为中心的架构。

“现在GPU或CPU是计算的中心。但今后,拥有庞大容量的HBM和HBF将成为中心,反而是GPU被装进其中的‘内存中心计算(Memory-Centric Computing)’时代将会到来。GPU和CPU沦为零部件的那个时刻,要想引领这一范式,HBF必须成为其基础。”他解释称,当前AI面临的幻觉问题,本质上是硬件瓶颈造成的。

当前业界正在从生成式AI转向代理式AI(Agentic AI),这个过程中内存瓶颈正在成为最大的难题。海量上下文需要同样大规模的内存,要真正实现快速、准确处理代理式AI的超长上下文数据,内存带宽和容量都需要比现在增加1000倍以上。同时,金正浩认为大模型的幻觉本质上也是内存问题,因为内存不足,只能根据已知内容回答,才会产生幻觉。

HBM在最近几年AI芯片热潮中已经成为了焦点,这是为了解决内存带宽瓶颈而诞生的一种DRAM技术,核心原理是将多个DRAM芯片进行垂直堆叠,通过TSV技术进行互连,带宽可以是传统内存的数十倍。

而HBF就较为陌生了,金正浩认为,仅靠HBM难以满足代理式AI的需求,HBM是为了快速回答而堆放在书桌旁的浅薄参考书,即短期记忆。而下一代的替代方案则是HBF高带宽闪存,HBF是用NAND闪存代替DRAM进行堆叠,大幅提升容量的巨大书架,即长期记忆。
wKgZPGnPHiKAN9fYAAHlyT9EmYE957.jpg
GPU-HBM-HBF架构 图源:KAIST Terra Lab

具体来说,HBF核心思路是用HBM的封装技术来对NAND FLASH进行改造,包括3D堆叠、TSV、高并行接口等。根据目前业界多家厂商给出的技术指标,HBF的带宽可高达1.6TB/s,是传统PCIe4.0 SSD的200倍以上,基本达到了HBM3的带宽水平,但低于HBM4。

在容量上,HBF单堆栈能达到512GB,8 堆栈可至4TB,可支撑万亿参数模型本地加载,相比不HBM有显著的优势。当然,缺点是写入和耐久性都不如HBM,因此HBF主要适用于读取密集型AI推理任务;另外延迟也相比HBM更高,HBF的延迟约5μs,而HBM仅为100ns。

所以综合来看,HBF的定位可以看做是解决HBM容量不足和SSD速度太慢的存储产品,适用于储存模型权重、长文本、特征库等“温/冷数据”,而HBM则专注于频繁读写的“热数据”。

金正浩是是韩国科学技术院(KAIST)电气及电子工程系教授,同时是TERALAB负责人,被业界广泛誉为“HBM之父”。研究领域专注于专注于信号完整性、电源完整性、电磁兼容、3D/2.5D集成电路封装、TSV、硅中介层等先进封装技术,以及AI半导体内存架构。

其负责的TERALAB在HBM设计技术领域全球领先超过20年,自2010年起直接参与HBM的商业化设计,与三星电子、SK海力士、Google、NVIDIA、Apple、Tesla等全球巨头有深度合作。他主导了HBM从概念到实际产品的关键技术突破,包括TSV、互连优化、信号/电源设计等。

SK海力士、闪迪推动HBF标准化,2026推首批样品

得益于AI算力需求的爆发增长,HBF的产业化进程非常快,从学术提出到标准化启动,仅用了不到两年时间。在2025年6月,KAIST TERALab在HBM路线图Ver 1.7研讨会上首次系统介绍HBF架构,提出“HBM-HBF-存储网络”分层设计。

2025年底至2026年初,金教授多次在媒体和研讨会上发布HBF路线图和工作负载分析,强调HBF可将AI推理性能/瓦特提升至纯HBM配置的2.69倍,并在Llama 3.1 405B等模型上仅损失2.2%性能。

在2025年8月,闪迪和SK海力士签署谅解备忘录,正式启动HBF规格制定、技术要求定义和生态构建。闪迪也明确目标,在2026下半年交付首批HBF内存样品,2027年初首批搭载HBF的AI推理设备进入采样阶段。

今年2月25日,双方在美国加州米尔皮塔斯的闪迪总部联合举办“HBF规格标准化联盟启动会”。宣布在Open Compute Project (OCP) 框架下成立专用工作组,推动HBF全球开放标准化,这是HBF从双边合作转向行业生态的关键一步。

三星尽管未有直接参与标准化联盟,但已经独立切入HBF的赛道中,据披露,三星在去年10月开始启动概念设计与早期研发,积累多项HBF相关专利。凭借NAND市场份额领先和代工/逻辑工艺优势,三星正探索独特架构路径,其目标是2027年实现商用产品的推出。

根据金教授预测,HBF将在2027年开始小规模商用部署,导入到谷歌、英伟达、AMD等AI芯片中;2030年HBF将大规模普及,预计到2038年HBF市场可能超越HBM,成为AI存储的主力。

小结:

HBF的产业化,不仅是填补了HBM和NAND FLASH之间的存储空缺,更是标志着AI算力硬件从算力芯片为中心,从GPU到异构架构之后,逐步向内存为中心加速转型,重塑AI服务器架构。不过,GPU是不是真的会沦为内存的“配件”,还不太好说,但至少在未来AI Agent的时代,存储芯片的地位将更加重要。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5258

    浏览量

    136039
  • 内存
    +关注

    关注

    9

    文章

    3230

    浏览量

    76496
  • HBM
    HBM
    +关注

    关注

    2

    文章

    432

    浏览量

    15880
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    HBM之父”金正浩:内存取代GPU

    行业芯事行业资讯
    电子发烧友网官方
    发布于 :2026年04月01日 16:22:38

    GPU不是AI的唯一解:英伟用Groq LPU证明,推理赛道需要“另一条腿”

      电子发烧友网报道(文/莫婷婷)过去十年,人工智能的爆发式增长与GPU需求紧密相连。凭借其卓越的并行计算能力,GPU成为AI算力的绝对代名词。   然而,英伟给出
    的头像 发表于 03-24 11:27 5984次阅读
    <b class='flag-5'>GPU</b>不是AI的唯一解:<b class='flag-5'>英伟</b><b class='flag-5'>达</b>用Groq LPU证明,推理赛道需要“另一条腿”

    面向下一代GPU VPD架构的供电系统超低压大电流测试方案 —— 费思N系列电子负载技术解析与应用实践

    LPD(横向供电)架构电流路径长、寄生参数大、动态响应慢等原因,已无法满足下一代GPU的供电需求。 今年CES上,英伟NVIDIA确定Rubin会用 VPD(垂直供电) 方案。根据
    的头像 发表于 03-13 17:26 831次阅读
    面向下一代<b class='flag-5'>GPU</b> VPD<b class='flag-5'>架构</b>的供电系统超低压大电流测试方案 —— 费思N系列电子负载技术解析与应用实践

    每块GPU对应16TB SSD,英伟KV缓存虹吸高性能TLC SSD

    作者:黄晶晶   不久前,英伟宣布其Vera Rubin平台将采用搭载BlueField-4芯片的ICMS架构,通过卸载KV Cache突破内存瓶颈、提升AI推理性能。该
    的头像 发表于 02-10 11:12 1.4w次阅读

    如何看懂GPU架构?一分钟带你了解GPU参数指标

    GPU架构参数如CUDA核心数、显存带宽、TensorTFLOPS、互联方式等,并非“冰冷的数字”,而是直接关系设备能否满足需求、如何发挥最大价值、是否避免资源浪费等问题的核心要素。本
    的头像 发表于 10-09 09:28 1495次阅读
    如何看懂<b class='flag-5'>GPU</b><b class='flag-5'>架构</b>?一分钟带你了解<b class='flag-5'>GPU</b>参数指标

    英伟自研HBM基础裸片

    "后的下一代AI GPU "Feynman"。   有分析指出,英伟此举或是将部分GPU功能集成到基础裸片中,旨在提高HBM
    的头像 发表于 08-21 08:16 3000次阅读

    性能优于HBM,超高带宽内存 (X-HBM) 架构来了!

    和单芯片高达512 Gbit的容量,带宽提升16倍,密度提升10倍,显著突破了传统HBM的局限性。     关键特性和优势包括,可扩展性,使GPU内存之间的数据传输更快,从而实现更高效的AI扩展;高性能,解锁未开发的
    的头像 发表于 08-16 07:51 5114次阅读
    性能优于<b class='flag-5'>HBM</b>,超高带宽<b class='flag-5'>内存</b> (X-<b class='flag-5'>HBM</b>) <b class='flag-5'>架构</b>来了!

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    别让 GPU 故障拖后腿,捷智算GPU维修室来救场!

    GPU也常面临各类故障挑战,令使用者头疼不已。常见GPU故障大盘点一、内存故障引发性能“滑坡”英伟
    的头像 发表于 07-17 18:56 1294次阅读
    别让 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>维修室来救场!

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了芯片架构的基础知识,但该部分知识比较晦涩难懂,或许是由于我一直从事的事芯片
    发表于 06-18 19:31

    GPU架构深度解析

    、游戏娱乐等领域。本文将深入探讨GPU架构的演变历程、核心组件以及其在不同应用场景中的优势。1、GPU架构的演变早期的
    的头像 发表于 05-30 10:36 2008次阅读
    <b class='flag-5'>GPU</b><b class='flag-5'>架构</b>深度解析

    英伟拟再推中国特供GPU,今年6月量产!

    电子发烧友网综合报道 近年来,美国政府对华半导体出口管制政策不断收紧,英伟等半导体企业面临严峻挑战。保持在中国市场的竞争力,英伟推出了
    发表于 05-27 00:03 4891次阅读

    iTOP-3588S开发板四核心架构GPU内置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    ,8GB内存,32GBEMMC。 四核心架构GPU内置GPU可以完全兼容0penGLES1.1、2.0和3.2。 内置NPU RK3588S
    发表于 05-15 10:36

    GPU 维修干货 | 英伟 GPU H100 常见故障有哪些?

    上涨,英伟H100GPU凭借其强大的算力,成为AI训练、高性能计算领域的核心硬件。然而,随着使用场景的复杂化,H100服务器故障率也逐渐攀升,轻则影响业务进度,重
    的头像 发表于 05-05 09:03 3334次阅读
    <b class='flag-5'>GPU</b> 维修干货 | <b class='flag-5'>英伟</b><b class='flag-5'>达</b> <b class='flag-5'>GPU</b> H100 常见故障有哪些?