存储芯片闪崩！谷歌发布新算法，AI内存占用只需原来1/6？-电子发烧友网

电子发烧友网报道（文/梁浩斌）又一“Deepseek时刻”来了？谷歌在3月24日发布了一项名为TurboQuant的先进向量量化压缩算法，旨在解决大语言模型和向量搜索引擎中的内存瓶颈问题，令KV Cache内存占用降低至原来的1/6且几乎无精度损失。

随后在当地时间3月25日，美光科技开盘最高跌幅超6%，收盘跌3.4%，四天累计跌幅超过13%；闪迪当天收跌3.5%；3月26日三星电子跌近5%，SK海力士跌超6%。

而这一轮存储股价下跌，谷歌近期推出的TurboQuant可能就是主因。

TurboQuant如何降低AI对内存的需求？

根据Google Research在官网发布的技术资料，TurboQuant是通过解决高维向量处理中的内存瓶颈，在不损失精度的前提下，提升大语言模型和向量搜索引擎的效率，让大型AI系统运行得更快、更省钱。

在计算力领域中，“量化”通常是指数据从高精度转换为低精度的过程，其核心目的在于通过牺牲极微小的数值精度，换取显著的存储空间节省与计算效率提升。低精度意味着对内存占用空间更小，以节省GPU以及AI芯片上DRAM（主要是HBM）用量。

举个例子，比如一张照片中可能有数百万种颜色，如果要完整记录下来，每一种颜色都需要用不同的数字来记录下来，那么这就会产生大量数据，非常占内存。那么经过量化后，可以指定这张照片只能使用16种颜色，此前的数百万种颜色各自取这16种颜色中最接近的一种来进行存储，尽管丢失了颜色精度，但图片依然保留了大致的画面信息，同时图片体积也大幅缩小。

而在大语言模型中，在对话过程中，模型推理产生的对话记忆则存储在KV Cache中。虽然 KV Cache 极大地加快了生成速度，但它带来了严重的内存挑战，KV Cache的大小随着对话长度线性增长，对话越长，占用的显存就越多。

这也是很多模型有所谓的“上下文限制”的原因，限制的背后是显存不够用了。因此一般也会用到量化的方式对KV Cache进行压缩，比如从FP16（16位浮点数）的精度压缩到INT4（4位整数）。

那么TurboQuant，实际上就是针对这里的KV Cache进行了极致压缩。传统的量化技术虽然能减少数据大小，但往往需要为每个小数据块计算并存储额外的“量化常数”（如缩放因子），这会产生额外的内存开销，抵消了量化带来的好处。就好比你创造了一种暗号，那么为了读懂这个暗号，还需要一个对照表来进行解密，同时就需要额外的存储空间去收纳这个对照表。

TurboQuant解决的其中一个问题就是“对照表”带来的额外内存开销。TurboQuant利用PolarQuant技术，改变了传统的笛卡尔坐标（X, Y, Z）视角，将向量转换为极坐标（半径和角度）。由于角度分布在数学上是可预测且集中的，更适合数据压缩，模型不再需要存储昂贵的数据归一化参数，从而消除了内存开销。

另外一项核心的技术是QJL（Quantized Johnson-Lindenstrauss），这是一种基于Johnson-Lindenstrauss 变换的压缩方式。将向量压缩到仅用符号位（+1 或 -1）的1-bit表示，同时保留向量间的距离关系。通过一个专门的估计器来准确计算注意力分数，并用极少的 1-bit残差压缩消除隐藏误差，实现零内存开销的压缩。

最终，评估结果显示，通过TurboQuant可以将LLM的 KV cache 压缩到3-bit，内存占用至少减少6倍，而模型准确性零损失。

在4-bit模式下，在英伟达H100 GPU上，注意力logit 计算速度可比32-bit未量化版本快8倍，整体推理速度也比原始模型更快。

在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval等长文本基准测试中，表现接近无损。在相同的内存占用下，向量搜索的召回率（recall）也优于传统方法如 PQ、KIVI 等。

值得一提的是，Google Research表示，它可以直接应用到现有的开源模型中，不需要重新训练或微调。这项技术也非常适用于边缘AI设备，包括智能手机等DRAM有限的设备中高效运行LLM；同时能够大幅提升LLM的长上下文能力，让LLM拥有更长久的记忆。

总体来说，TurboQuant有望推动LLM在更多智能硬件上的部署和应用，助力AI硬件的创新。

又一个“deepseek时刻”？

对于内存开销需求的大幅降低，很容易让人将TurboQuant与2025年初Deepseek R1的发布联想起来。因为Deepseek R1的目标同样是在更少的硬件资源下保证LLM的高性能，通过引入MLA架构和优化训练策略等创新降低了算力硬件上的需求；TurboQuant则同样是通过极致的压缩算法来减少缓存，降低了对内存的需求。

但另一方面，从deepseek R1推出一年后的今天来看，实际上这种提高硬件利用效率的技术，并不意味着算力硬件就不再重要。反而这些技术是更多推动了应用层面的落地，硬件利用率高意味着LLM的训练和推理成本降低，能够吸引更多应用端的开发和商业落地。

实际上，存储需求确实仍在不断高涨，产能扩张也在持续加速。韩国金融监督院近日披露，三星和SK海力士两大存储巨头在中国投资总额超过1.5万亿韩元，同比大幅增长。

2025年，三星电子在西安工厂投资4654亿韩元用于扩产，这一数字相比2024年大幅增长67.5%。西安工厂是三星电子在海外的唯一NAND Flash生产基地，产量约占三星总产量的40%左右。

据了解，自2020年开始到2023年，三星电子都没有对西安工厂进行任何大规模投资，但从2024年恢复了投资计划，开始升级产线扩大产能。三星电子目前计划将其西安NAND芯片厂的制造工艺从128层（第六代）升级为236层（第八代）。

有韩国官员称，为了防止国家核心技术的泄露，海外工厂与韩国工厂在技术发展上会保持大约两代产品的差距。“由于三星计划在今年在韩国生产第4代（10代）NAND产品，因此中国工厂向第8代技术升级的进程很可能会加快。”

而SK海力士2025年在无锡DRAM工厂和大连NAND Flash工厂共投入了超过1万亿韩元，其中无锡的DRAM工厂上的投资达到了5810亿韩元，比2024年的2873亿韩元增加了102%；而在大连的NAND闪存工厂上的投资则为4406亿韩元，同比增长了52%。这是自2022年SK海力士收购英特尔在大连的NAND闪存工厂以来，该公司首次在中国工厂上进行规模达万亿韩元的投资。

类似地，SK海力士也将其位于无锡的工厂中DRAM的生产工艺从10纳米级的第三代（1z）工艺升级到了第四代（1a）工艺，未来可以大规模生产DDR5内存芯片。

因此，从存储厂商的扩产动作来看，存储需求并不会因为LLM算法和架构的迭代而有所降低，反之，算法和架构层面的创新，将帮助LLM的使用成本降低，从而加速在更多领域中的应用落地。

小结：

过去存储和算力是端侧AI硬件落地的最大门槛之一，在先进制程进入2nm时代后，内存成为了端侧AI的显著障碍，因此能降低内存需求的TurboQuant对于端侧AI硬件的意义更为重大。历史表明，算法效率提升往往能够降低应用门槛，刺激需求增长而非抑制硬件需求，未来存储产业在AI效率革命与应用爆发的双轮驱动下，也将继续狂飙。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6257

浏览量
111942
AI

AI

+关注

关注
91

文章
40940

浏览量
302517
存储芯片

存储芯片

+关注

关注
11

文章
1055

浏览量
44863

搜索历史

存储芯片闪崩！谷歌发布新算法，AI内存占用只需原来1/6？

评论