0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

每块GPU对应16TB SSD,英伟达KV缓存虹吸高性能TLC SSD

晶芯观察 来源:未知 作者:黄晶晶 2026-02-10 11:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:黄晶晶

不久前,英伟达宣布其Vera Rubin平台将采用搭载BlueField-4芯片的ICMS架构,通过卸载KV Cache突破内存瓶颈、提升AI推理性能。该架构单台服务器每个GPU需额外配置16TB TLC SSD,花旗预计2026年、2027年将分别带来占全球NAND需求总量2.8%、9.3%的新增需求。

三星电子在 2025Q4 财报电话会议上透露,除了计划在本季度启动 HBM4 内存量产交付之外,三星存储器业务计划全方面积极应对AI相关需求,重点提升面向 AI KV(键值)存储需求的高性能 TLC SSD的销售。

KV缓存对SSD存储的需求

花旗最新报告指出,大规模AI推理面临显著的内存瓶颈。Transformer模型的核心内存优化机制——KV Cache,通过存储已计算的键值对来避免重复运算,并根据性能与容量需求分层存储:活跃KV缓存存放于GPU HBM(G1),过渡/溢出KV缓存置于系统DRAM(G2),热KV缓存则分配至本地SSD(G3)。

为针对性优化这一架构,英伟达推出了推理上下文内存存储(ICMS)方案。该方案并非替代现有存储层级,而是在本地SSD(G3)与企业共享存储(G4)之间新增一个G3.5层级的专用KV Cache。这一层级能够高效地将G4中的冷KV上下文数据转换为G2中的暖KV缓存,并与HBM协同工作,从而显著提升数据传输效率与整体AI推理性能。

在硬件实现上,Vera Rubin平台采用16TB TLC SSD作为ICMS存储介质,结合KV缓存管理器与拓扑感知调度机制,目标实现三大性能突破:每秒处理令牌数最高提升5倍、能效比最高提升5倍以及更低的延迟。具体配置方面,每台服务器搭载72块GPU,每块GPU对应16TB ICMS专用NAND容量,使得单台服务器的总NAND需求达到1152TB。

与传统训练场景不同,推理过程依赖于大量的上下文数据存储与快速调用能力。这一技术路径的转变,为NAND闪存开辟了全新的应用场景,有望成为继数据中心智能手机之后的重要需求增长点。

包括闪迪、美光、三星等存储厂商都瞄准了KV缓存所需SSD这一增量市场。

闪迪

面对推理场景下高并发、低延迟的严苛IO需求通用存储方案往往力不从心。SANDISK DC SN861NVMe SSD正是针对此类计算密集型工作负载进行的专项优化。SN861容量高达16TB,其基础是PCle Gen5接口,提供了翻倍的理论带宽。

SanDisk DC SN861 NVMe SSD,凭借其卓越的性能和可靠性,获得NVIDIA GB200 NVL72系统认证,为AI模型的训练和推理提供强有力的支持。

美光科技

美光 9550 NVMe固态硬盘专为处理对速度、扩展性和能效有极高要求的关键工作负载而设计,例如人工智能(AI)、高性能数据库、缓存、在线事务处理(OLTP)以及高频交易等场景。美光 9550 固态硬盘能够支持上述及更多类型的工作负载,可灵活部署于云、数据中心、原始设备制造商(OEM)及系统集成商的设计方案中。其可用存储容量最高可达 30.72TB,有助于确保实现最优的存储密度。

9550 PCIe 5.0 E1.S 形态数据中心固态硬盘已纳入英伟达针对 GB200 NVL72 系统及衍生型号的推荐供应商名录(RVL)。GB200 NVL72 系统搭载英伟达 GB200 格蕾丝・布莱克韦尔超级芯片,打造出机架级、高能效的 AI 基础设施。该系统对 PCIe 5.0 存储的兼容适配,让美光 9550 固态硬盘成为优化 AI 工作负载性能与功耗效率的理想选择,可支撑大规模 AI 模型训练、万亿参数大模型实时推理,以及高性能计算(HPC)等核心场景。

三星电子

如前所述,三星电子在 2025Q4 财报电话会议上透露,计划重点提升面向 AI KV(键值)存储需求的高性能 TLC SSD的销售。

韩媒消息称,三星电子已正式重启其平泽P4工厂的NAND闪存生产线投资,开始搬入生产设备。此前,该投资因市场低迷而推迟。作为2026年大规模投资计划的一部分,三星计划追加约10万亿韩元资本支出,重点提升DRAM、NAND闪存及晶圆代工产能。平泽基地扩产后,预计每月将增加NAND芯片产能6万片,DRAM产能3万片,晶圆代工产能2万片。

绿算技术

近日,本土高性能存储厂商绿算技术(ForinnBase)宣布,其旗舰产品GP7000系列全闪存储平台已通过英伟达适配,成为全球首批、也是唯一支持G3级KV Cache分层存储的国产化解决方案,为下一代AI工厂建设提供了关键的基础设施支撑。

绿算技术GP7000系列采用以太网闪存簇(EBOF)设计,单系统配备24个PCIe 5.0 NVMe U.2盘位,通过双主控板实现冗余。其核心指标精准匹配G3层需求。

单机提供6480万IOPS、288GB/s带宽与20μs级延迟,性能较传统存储服务器提升17倍。整机功耗<900W,每GB/s带宽功耗仅3.1W,满足AI工厂的5倍能效目标。原生支持BlueField-3/4 DPU与Spectrum-X交换机,通过NVMe-oF/RoCEv2/GDS协议实现GPU直连。

绿算技术产品总监孔维海透露:“GP7000采用DPU+ASIC+FPGA多元异构计算架构,将KV Cache的索引管理、数据压缩和网络协议栈完全硬件卸载,消除了CPU瓶颈。”其分布式KV Cache管理器可与英伟达Dynamo开源项目无缝衔接,实现跨机架的缓存一致性。

GP7000已完成广泛生态适配。硬件上支持英伟达DGX H100/H200/GB300、AMD Instinct MI300、华为昇腾910B/C、沐曦曦云C系列等。软件适配英伟达Dynamo/vLLM/TensorRT-LLM、华为UCM、Kubernetes CSI等。国产数据库支持OceanBase、TiDB、GaussDB等。

在大模型推理场景中,GP7000可通过命名空间隔离与智能冷热分层技术,为每个推理实例分配独立的KV Cache分区,并将高频数据预加载至G2层,实现成本与效率的最优平衡。

GP7000已于2025年Q3量产,并获得了某头部云厂商数千节点订单。公司正在研发基于PCIe 6.0的下一代GP8000,目标是将G3级带宽提升至1TB/s。

市场前景

花旗通过场景分析测算后认为,ICMS架构的规模化落地将为全球NAND市场带来显著且确定的需求增量。报告预计,2026年Vera Rubin服务器出货量将达到3万台,对应ICMS架构的NAND需求将达3460万TB,这一需求规模占当年全球NAND 总需求的2.8%;随着AI 推理需求的进一步释放,2027年Vera Rubin 服务器出货量有望增至10万台,届时ICMS带来的 NAN需求将飙升至1152万TB,占全球NAND总需求的比例将提升至9.3%。

报告同时指出,当前全球NAND市场本就处于供应紧张的状态,近年来AI产业的爆发式发展已推动数据存储需求持续攀升,NAND作为核心存储介质的供需平衡已较为脆弱。而英伟达 ICMS架构带来的新增需求具有刚性强、规模大的特点,将直接打破现有供需格局,导致全球NAND供应短缺的局面进一步加剧。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    美光业界领先的245TB 6600 ION数据中心SSD凭超越机械硬盘的突破性能效,重新定义机架级存储密度

    2026 年 5 月 6 日,爱达荷州博伊西市 — 美光科技股份有限公司(纳斯达克股票代码:MU)近日宣布,正式出货  245TB 容量的美光 6600 ION SSD 。作为业界容量领先的商用
    的头像 发表于 05-07 09:43 1435次阅读
    美光业界领先的245<b class='flag-5'>TB</b> 6600 ION数据中心<b class='flag-5'>SSD</b>凭超越机械硬盘的突破<b class='flag-5'>性能</b>效,重新定义机架级存储密度

    AI存储走向超高IOPS,英韧科技率先卡位数据中心AI SSD

    AI 技术正从云端向端侧全面渗透,大模型训练、推理及数据分层管理等场景的需求持续爆发,对SSD性能提出新的要求。AI应用多涉及海量小数据高频随机读写,尤其是KV 缓存、特征检索、大模型
    的头像 发表于 04-28 18:13 6944次阅读
    AI存储走向超高IOPS,英韧科技率先卡位数据中心AI <b class='flag-5'>SSD</b>

    SSD固态硬盘品牌推荐:从FTL到掉电保护,读懂高可靠存储的技术逻辑

    SSD固态硬盘正在逐步取代机械硬盘成为各类系统的核心存储方案。本文从技术原理出发,解析SSD如何通过FTL闪存转换层、磨损均衡、垃圾回收等机制实现高性能与高可靠,并结合工业级应用场景,探讨高可靠
    的头像 发表于 04-09 17:06 440次阅读

    工业级SATA 2.5” ArmourDrive™ PX系列SSD深度解析

    高性能存储产品。下面我们就来详细了解一下这款SSD。 文件下载: GLS89SQ1T923-I-CD401.pdf 产品概述 GLS89SQ系列SSD将240GB、480GB、960GB、1.92
    的头像 发表于 03-30 14:20 208次阅读

    DRAM缓存真有那么重要吗?天硕工业级SSD固态硬盘实测告诉你答案!

    在国产固态硬盘推荐榜中,推荐五花八门,很多用户疑惑DRAM 缓存 SSD 值得买吗?不同方案的国产 SSD 性能对比差距到底有多大?价格差距不小,
    的头像 发表于 01-19 16:49 524次阅读

    高性能16位低功耗模数转换器:TLC4545

      在电子设计领域,模数转换器(ADC)是连接模拟世界和数字世界的关键桥梁。今天,我们要深入探讨德州仪器(TI)的两款高性能16位低功耗模数转换器——TLC4541和TLC4545,它
    的头像 发表于 12-07 09:31 2642次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>16</b>位低功耗模数转换器:<b class='flag-5'>TLC</b>4545

    PCIe 5.0 8TB SSD挺进消费级市场

    电子发烧友网综合报道,随着AI应用的广泛落地,用户对存储速率和容量的需求与日俱增。近期高端消费级SSD市场不断出现PCIe 5.0 8TB SSD产品。   三星于2025年推出PCIe 5.0旗舰
    的头像 发表于 11-22 08:05 5430次阅读

    SSD为何需要DRAM缓存?天硕工业级SSD带来深度解析!

    在当今数字化转型的浪潮中,工业存储设备的选择直接关系到整个系统的稳定性和效率。天硕工业级SSD固态硬盘凭借其卓越的DRAM缓存技术,在众多应用场景中展现出独特优势。本文将采用问答形式,深入探讨这一关
    的头像 发表于 10-20 17:59 1142次阅读
    <b class='flag-5'>SSD</b>为何需要DRAM<b class='flag-5'>缓存</b>?天硕工业级<b class='flag-5'>SSD</b>带来深度解析!

    为什么推荐 SSD 而不是 HDD 的电脑?

    。​ 机械硬盘(HDD):依靠旋转的磁盘和移动的磁头读写数据,类似“小型CD播放机”。盘片转速和磁头移动速度直接限制性能,且怕震动、噪音明显。 ​ 这种原理差异是“SSD全面优于HDD”的核心:机械结构的物理限制,让HDD在速度、稳定性等方面难以突破;而
    的头像 发表于 09-25 16:19 1936次阅读
    为什么推荐 <b class='flag-5'>SSD</b> 而不是 HDD 的电脑?

    英伟自研HBM基础裸片

    "后的下一代AI GPU "Feynman"。   有分析指出,英伟此举或是将部分GPU功能集成到基础裸片中,旨在提高HBM和GPU的整体
    的头像 发表于 08-21 08:16 3114次阅读

    没有掉电保护的SSD为什么不适合工业级场景?

    在电力、工业自动化、轨道交通等领域,数据安全容不得半点马虎。然而很多人并不知道,普通SSD在突发断电时面临着巨大的风险:DRAM缓存中的数据可能还未写入NAND闪存,就因掉电而彻底丢失。那么,没有
    的头像 发表于 07-16 10:54 834次阅读
    没有掉电保护的<b class='flag-5'>SSD</b>为什么不适合工业级场景?

    工业级SSD为什么需要掉电保护?天硕工业级SSD固态硬盘告诉你答案

    问题专门设计了硬件级PLP(Power Loss Protection)掉电保护技术。 PLP掉电保护通过在SSD内部加入钽电容阵列,在主机断电瞬间提供短时间电力,保证数据从缓存区及时写入闪存,避免数据丢失。与普通消费级SSD
    的头像 发表于 07-09 17:05 1091次阅读

    SSD电源管理系统设计解决方案

    高性能计算的发展,也推动着存储技术的演进,这些年固态硬盘(SSD)市场的火热,就是一个例证。
    的头像 发表于 07-07 14:16 2209次阅读
    <b class='flag-5'>SSD</b>电源管理系统设计解决方案

    企业级SSD的核心技术与市场趋势

    。   企业级SSD的核心部件示意图   主控芯片(控制大脑) 控制数据读写,直接决定SSD性能、可靠性固件(操作系统) 确保SSD高效稳定运行 NAND Flash、DRAM(存
    的头像 发表于 07-06 05:34 7837次阅读
    企业级<b class='flag-5'>SSD</b>的核心技术与市场趋势

    高性能缓存设计:如何解决缓存伪共享问题

    缓存行,引发无效化风暴,使看似无关的变量操作拖慢整体效率。本文从缓存结构原理出发,通过实验代码复现伪共享问题(耗时从3709ms优化至473ms),解析其底层机制;同时深入剖析高性能缓存
    的头像 发表于 07-01 15:01 952次阅读
    <b class='flag-5'>高性能</b><b class='flag-5'>缓存</b>设计:如何解决<b class='flag-5'>缓存</b>伪共享问题