电子发烧友网报道(文 / 吴子鹏)作为全球集成电路设计领域的顶级盛会,ISSCC 自 1953 年创办以来,一直是世界最前沿固态电路技术的首发阵地,被誉为 “芯片设计国际奥林匹克会议”。ISSCC 2026 上,清华大学、华为与字节跳动联合团队在会上发布论文《HYDAR: A Hybrid In-Memory Computing Framework for Efficient Recommendation System Acceleration》(HYDAR:面向高效推荐系统加速的混合存内计算框架),首次提出基于 28nm 工艺的混合存内计算(Compute-in-Memory, CiM)芯片,为 AI 推荐系统(RecSys)的能效瓶颈带来革命性突破。
这款芯片的核心突破在于,通过创新架构设计,将推荐系统核心运算的效率和能效提升 1–2 个数量级(QPS 提升 66 倍,QPS/W 提升 181 倍),为打破困扰行业多年的 “存储墙” 提供了全新路径。
然而,SVS 运算长期面临 “高耗低效” 的行业痛点。据联合团队论文披露,传统基于 CPU 或 GPU 的架构中,数据需要在处理器和内存之间频繁搬运,SVS 占据了推荐系统绝大部分的计算时间与功耗。核心症结在于外部存储器访问(EMA)的高昂开销:采用混合键合技术的 DRAM 加速器成本居高不下,难以大规模普及;基于 NAND TCAM 的加速器则存在读取延迟高、数据与距离表示精度有限等问题,无法满足实时推荐需求。
SVS 的现有困境,为新型计算架构的诞生留下了空间。
不过,在此之前将 CiR 应用于 SVS 仍面临多重挑战:随着向量库规模扩大,能耗与延迟会急剧增加,同时会降低处理单元(PE)利用率与吞吐量,还可能导致检索精度下降。如何解决这些矛盾,成为全球芯片设计领域的研究热点。
针对上述痛点,清华、华为、字节跳动联合团队提出的 HYDAR 框架,通过 “硬件架构 + 数据流调度 + 检索策略” 三维协同优化,成功实现了 CiR 技术在推荐系统加速器中的高效应用。基于该框架,团队采用 28nm 工艺流片实现了一款 CiR 原型芯片,包含 36M RRAM 单元,分为 16 个并行 PE,每个 PE 包含一个 288×4096 阵列。
根据论文,HYDAR 芯片集成三大核心技术以应对实际应用挑战:
动态延迟模数转换器(DL-ADC):实现非 Top-K 计算的早期终止。在向量检索过程中,芯片能提前将计算出的距离与阈值比较,直接跳过不可能成为最优结果的向量,大幅降低不必要的计算延迟与功耗。
基于预测的预取调度流水线(PPSP)数据流:针对推荐系统中常见的非规则、动态变化的工作负载,该技术能智能预测数据访问模式、优化调度,显著提升系统吞吐量。
由粗到精(Coarse-to-Fine)检索架构:该设计在保证系统召回精度的前提下,实现检索任务的高效分层处理,使得系统能够轻松扩展至百万甚至更大规模的向量库,满足商业级推荐系统需求。
据联合团队在 ISSCC 2026 上披露的实测数据,这款基于 HYDAR 框架的 28nm CiR 芯片表现亮眼:单芯片可实现 390K QPS 的吞吐率与 1574K QPS/W 的能效比,其构建的多芯片系统可支撑百万级实时端到端推荐系统。在实际推荐系统任务中,当芯片扩展至 576M 规模的多芯片系统时,QPS 较传统方案提升 66 倍,QPS/W 提升 181 倍,而检索准确率与 CPU 方案相当,实现 “高效、节能、精准” 三重目标。
HYDAR 芯片的成功验证,不仅为推荐系统这一特定场景带来革命性的能效提升,其混合模数存内计算的设计思路更具普适意义。随着大模型向端侧部署、边缘计算需求爆发,对高能效、低延迟 AI 计算硬件的需求日益迫切。HYDAR 芯片能够以极低功耗,支撑电商、内容平台等所需的百万级实时端到端推荐系统,有望将相关数据中心的算力成本降低一个数量级。
对于产业而言,HYDAR 框架的成功,为存内计算技术在特定应用领域的深化应用指明方向。未来发展趋势可能包括:
·技术路径分化与融合:存内计算领域存在基于 SRAM 的极速能效路径与基于新兴存储(RRAM)的大容量端侧路径。HYDAR 代表了后者,未来两条路径可能在不同应用场景中各自发展,也可能出现融合架构。
·从存内计算到存内智能:随着技术成熟,计算可能不再是 “存内计算”,而是 “存内智能”—— 存储器不仅是计算单元,更是智能决策单元。HYDAR 中的预测调度、自适应阈值等技术,已经展现出这种 “存内智能” 的雏形。
·生态系统构建:技术突破需要配套的软件栈、开发工具和标准支持。未来可能出现针对存内计算架构优化的编程模型、算法库和开发框架,降低开发者使用门槛。
·新材料新器件探索:RRAM 作为新型存储器件,其非线性等特性曾是应用障碍,HYDAR 通过补偿算法等克服了这些挑战。未来可能出现更适合存内计算的新材料新器件,进一步提升性能。
多位行业专家分析认为,随着存内计算技术不断成熟,其有望成为下一代 AI 硬件的核心架构之一。
这款芯片的核心突破在于,通过创新架构设计,将推荐系统核心运算的效率和能效提升 1–2 个数量级(QPS 提升 66 倍,QPS/W 提升 181 倍),为打破困扰行业多年的 “存储墙” 提供了全新路径。
痛点攻坚:推荐系统硬件困局亟待破局
在数字经济时代,推荐系统已成为连接用户与内容、产品的核心枢纽。无论是短视频分发、电商推荐还是智能搜索,背后都依赖海量用户行为数据的实时分析与精准匹配,而这一过程的核心运算单元是相似向量检索(SVS)—— 通过计算查询向量与大规模向量库之间的距离,检索出 Top-K 最邻近向量,进而实现个性化推荐。然而,SVS 运算长期面临 “高耗低效” 的行业痛点。据联合团队论文披露,传统基于 CPU 或 GPU 的架构中,数据需要在处理器和内存之间频繁搬运,SVS 占据了推荐系统绝大部分的计算时间与功耗。核心症结在于外部存储器访问(EMA)的高昂开销:采用混合键合技术的 DRAM 加速器成本居高不下,难以大规模普及;基于 NAND TCAM 的加速器则存在读取延迟高、数据与距离表示精度有限等问题,无法满足实时推荐需求。
SVS 的现有困境,为新型计算架构的诞生留下了空间。
HYDAR 框架:三大创新协同破局
HYDAR 芯片的创新之处,在于采用基于电阻式随机存储器(RRAM)的混合模数存内计算架构。与传统计算架构 “数据存储与计算分离” 不同,基于 RRAM 的存内计算(Compute-in-RRAM, CiR)将计算单元与存储单元深度融合,能最大限度减少数据移动,具备存储密度高、并行度极大的优势,被公认为深度学习加速极具前景的技术路线。不过,在此之前将 CiR 应用于 SVS 仍面临多重挑战:随着向量库规模扩大,能耗与延迟会急剧增加,同时会降低处理单元(PE)利用率与吞吐量,还可能导致检索精度下降。如何解决这些矛盾,成为全球芯片设计领域的研究热点。
针对上述痛点,清华、华为、字节跳动联合团队提出的 HYDAR 框架,通过 “硬件架构 + 数据流调度 + 检索策略” 三维协同优化,成功实现了 CiR 技术在推荐系统加速器中的高效应用。基于该框架,团队采用 28nm 工艺流片实现了一款 CiR 原型芯片,包含 36M RRAM 单元,分为 16 个并行 PE,每个 PE 包含一个 288×4096 阵列。
根据论文,HYDAR 芯片集成三大核心技术以应对实际应用挑战:
动态延迟模数转换器(DL-ADC):实现非 Top-K 计算的早期终止。在向量检索过程中,芯片能提前将计算出的距离与阈值比较,直接跳过不可能成为最优结果的向量,大幅降低不必要的计算延迟与功耗。
基于预测的预取调度流水线(PPSP)数据流:针对推荐系统中常见的非规则、动态变化的工作负载,该技术能智能预测数据访问模式、优化调度,显著提升系统吞吐量。
由粗到精(Coarse-to-Fine)检索架构:该设计在保证系统召回精度的前提下,实现检索任务的高效分层处理,使得系统能够轻松扩展至百万甚至更大规模的向量库,满足商业级推荐系统需求。
据联合团队在 ISSCC 2026 上披露的实测数据,这款基于 HYDAR 框架的 28nm CiR 芯片表现亮眼:单芯片可实现 390K QPS 的吞吐率与 1574K QPS/W 的能效比,其构建的多芯片系统可支撑百万级实时端到端推荐系统。在实际推荐系统任务中,当芯片扩展至 576M 规模的多芯片系统时,QPS 较传统方案提升 66 倍,QPS/W 提升 181 倍,而检索准确率与 CPU 方案相当,实现 “高效、节能、精准” 三重目标。
HYDAR 芯片的成功验证,不仅为推荐系统这一特定场景带来革命性的能效提升,其混合模数存内计算的设计思路更具普适意义。随着大模型向端侧部署、边缘计算需求爆发,对高能效、低延迟 AI 计算硬件的需求日益迫切。HYDAR 芯片能够以极低功耗,支撑电商、内容平台等所需的百万级实时端到端推荐系统,有望将相关数据中心的算力成本降低一个数量级。
未来展望:从存内计算到存内智能
此次清华、华为、字节跳动的联合突破,不仅为推荐系统硬件加速提供全新路径,更对我国集成电路产业与 AI 生态发展具有深远意义。从技术层面看,该成果填补了存内计算技术在推荐系统专用加速器领域的空白,验证了 28nm 工艺下 CiR 技术的商业化可行性 ——28nm 工艺兼具性能与成本优势,相较于先进制程更易实现规模化量产,为后续技术落地奠定基础。对于产业而言,HYDAR 框架的成功,为存内计算技术在特定应用领域的深化应用指明方向。未来发展趋势可能包括:
·技术路径分化与融合:存内计算领域存在基于 SRAM 的极速能效路径与基于新兴存储(RRAM)的大容量端侧路径。HYDAR 代表了后者,未来两条路径可能在不同应用场景中各自发展,也可能出现融合架构。
·从存内计算到存内智能:随着技术成熟,计算可能不再是 “存内计算”,而是 “存内智能”—— 存储器不仅是计算单元,更是智能决策单元。HYDAR 中的预测调度、自适应阈值等技术,已经展现出这种 “存内智能” 的雏形。
·生态系统构建:技术突破需要配套的软件栈、开发工具和标准支持。未来可能出现针对存内计算架构优化的编程模型、算法库和开发框架,降低开发者使用门槛。
·新材料新器件探索:RRAM 作为新型存储器件,其非线性等特性曾是应用障碍,HYDAR 通过补偿算法等克服了这些挑战。未来可能出现更适合存内计算的新材料新器件,进一步提升性能。
多位行业专家分析认为,随着存内计算技术不断成熟,其有望成为下一代 AI 硬件的核心架构之一。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
华为
+关注
关注
218文章
36037浏览量
262165 -
字节
+关注
关注
0文章
44浏览量
14380 -
存内计算
+关注
关注
0文章
35浏览量
1662
发布评论请先 登录
相关推荐
热点推荐
汇川技术携手中国联通联合发布Universe生态开放平台
在2026年世界移动通信大会(MWC 2026)期间,汇川技术与中国联通联合发布“Universe生态开放平台”,标志着双方战略合作进入全新阶段。
华为和中国移动联合发布2025年度高阶示范区AI+网络实践成果
3月2日,在MWC26 巴塞罗那期间的移动AI产业峰会上,华为与中国移动联合发布了2025年度高阶示范区AI+网络的卓越实践成果。2025年,华为与中国移动联合创新,全球首个规模部署了
华为在MWC 2026联合发布高品质万兆AI园区建网技术白皮书
MWC 2026 巴塞罗那期间,在WLAN全球产业论坛2026上,华为携手全球多家产业组织发布《高品质万兆AI园区建网技术白皮书》(以下简称《白皮书》)。
沐曦股份联合清华大学发布磁性材料AI原子基座模型
2月27日,沐曦股份联合清华大学等多家研究机构联合发布了磁性材料AI原子基座模型。该模型是首个覆盖宽温压域的磁性材料AI原子模型,经权威专家鉴定,整体技术水平达到国际领先。
赋能AI硬件“从芯片到系统”全栈设计, 芯和半导体在DesignCon 2026上重磅发布“多智能体平台XAI”
2026年2月25日,在全球电子设计盛会 DesignCon 2026 上,芯和半导体正式发布两大全新产品——多智能体平台 XAI 与 低频电磁仿真平台 Janus,并同步升级其“从芯片
每片低至0.016美元!清华FLEXI芯片柔性+存内计算双突破
与显示领域取得进展,却长期缺乏“主动智能”能力——即本地化、低功耗、高可靠的AI计算单元。 薄膜晶体管(TFT)技术的成熟带来了更多可能性,就在1月清华大学信息国家研究中心/集成电路学院任天令教授团队于2026年初
时识科技联合创新成果SpikeRAM芯片入选ISSCC 2026
近日,香港科技大学(广州)程伯俊教授团队联合时识科技(SynSense)、华北光电技术研究所完成的突破性研究SpikeRAM芯片,成功入选集成电路设计领域“奥林匹克”ISSCC 2026
华为亮相2025世界计算大会并联合发布重要报告
21日上午举行。活动现场,长沙市数据局、中国信息通信研究院云计算与大数据研究所、华为云三方联合发布《长沙市智慧视觉体系和视频产业体系建设情况发展报告》(以下简称“《报告》”),系统梳理
华为联合发布工业与AI融合应用指南
11月20日,华为、中国信通院、清华大学人工智能研究院、罗兰贝格管理咨询公司联合编写的《工业与AI融合应用指南》(以下简称《指南》)全文发布,提出“新六化”工业发展趋势和“三层五阶八步
华为联合发布重症全救治链物联网系统解决方案
华西-梅奥国际重症医学大会2025在四川成都召开。在AI与智慧重症分会场,四川大学华西医院&华西天府医院联合华为、四川智康科技有限责任公司重磅发布“重症全救治链物联网
智光储能与海辰储能联合发布第三代级联型高压大容量储能系统
近日,在第五届全国新型储能技术及工程应用大会现场,广州智光储能科技有限公司(简称 “智光储能”)与海辰储能联合发布基于∞Cell 587Ah
科士达400kW重卡充电桩,重塑重卡补能新“桩”态
在政策与市场的多重驱动下,新能源重卡行业迎来爆发式增长。然而,充电效率低、补能设施不足、兼容性差等问题仍是制约行业发展的关键因素。科士达,深植电力电子技术基因,重磅推出400kW高防护直流一体式充电
WIZnet高性能以太网单片机W55MH32重磅发布!
WIZnet高性能以太网单片机W55MH32重磅发布!本文详细解析了W55MH32芯片的高性能网络处理能力与硬件资源,以及两款开发板(L/Q-EVB)。芯片凭借TOE引擎、丰富外设及加
第二届知存科技杯华东高校存内计算创新应用大赛正式启动
在数字化浪潮席卷各行业的当下,数据量呈爆炸式增长,算力需求也水涨船高。存内计算架构作为创新解决方案,备受产学研各界关注。为推动存内
上汽集团与华为联合发布新品牌“SAIC尚界”
4月16日,在鸿蒙智行新品发布会上,上汽集团与华为联合发布了全新品牌“SAIC尚界”。上汽集团总裁贾健旭与华为常务董事、终端BG董事长余承东携手登台,揭晓这一最新战略合作成果,标志着双
ISSCC 2026重磅:清华+华为+字节联合发布存内计算芯片,重塑推荐系统能效边界
评论