电子发烧友网报道(文/梁浩斌)又一“Deepseek时刻”来了?谷歌在3月24日发布了一项名为TurboQuant的先进向量量化压缩算法,旨在解决大语言模型和向量搜索引擎中的内存瓶颈问题,令KV Cache内存占用降低至原来的1/6且几乎无精度损失。
随后在当地时间3月25日,美光科技开盘最高跌幅超6%,收盘跌3.4%,四天累计跌幅超过13%;闪迪当天收跌3.5%;3月26日三星电子跌近5%,SK海力士跌超6%。
而这一轮存储股价下跌,谷歌近期推出的TurboQuant可能就是主因。
TurboQuant如何降低AI对内存的需求?
根据Google Research在官网发布的技术资料,TurboQuant是通过解决高维向量处理中的内存瓶颈,在不损失精度的前提下,提升大语言模型和向量搜索引擎的效率,让大型AI系统运行得更快、更省钱。
在计算力领域中,“量化”通常是指数据从高精度转换为低精度的过程,其核心目的在于通过牺牲极微小的数值精度,换取显著的存储空间节省与计算效率提升。低精度意味着对内存占用空间更小,以节省GPU以及AI芯片上DRAM(主要是HBM)用量。
举个例子,比如一张照片中可能有数百万种颜色,如果要完整记录下来,每一种颜色都需要用不同的数字来记录下来,那么这就会产生大量数据,非常占内存。那么经过量化后,可以指定这张照片只能使用16种颜色,此前的数百万种颜色各自取这16种颜色中最接近的一种来进行存储,尽管丢失了颜色精度,但图片依然保留了大致的画面信息,同时图片体积也大幅缩小。
而在大语言模型中,在对话过程中,模型推理产生的对话记忆则存储在KV Cache中。虽然 KV Cache 极大地加快了生成速度,但它带来了严重的内存挑战,KV Cache的大小随着对话长度线性增长,对话越长,占用的显存就越多。
这也是很多模型有所谓的“上下文限制”的原因,限制的背后是显存不够用了。因此一般也会用到量化的方式对KV Cache进行压缩,比如从FP16(16位浮点数)的精度压缩到INT4(4位整数)。
那么TurboQuant,实际上就是针对这里的KV Cache进行了极致压缩。传统的量化技术虽然能减少数据大小,但往往需要为每个小数据块计算并存储额外的“量化常数”(如缩放因子),这会产生额外的内存开销,抵消了量化带来的好处。就好比你创造了一种暗号,那么为了读懂这个暗号,还需要一个对照表来进行解密,同时就需要额外的存储空间去收纳这个对照表。
TurboQuant解决的其中一个问题就是“对照表”带来的额外内存开销。TurboQuant利用PolarQuant技术,改变了传统的笛卡尔坐标(X, Y, Z)视角,将向量转换为极坐标(半径和角度)。由于角度分布在数学上是可预测且集中的,更适合数据压缩,模型不再需要存储昂贵的数据归一化参数,从而消除了内存开销。
另外一项核心的技术是QJL(Quantized Johnson-Lindenstrauss),这是一种基于Johnson-Lindenstrauss 变换的压缩方式。将向量压缩到仅用符号位(+1 或 -1)的1-bit表示,同时保留向量间的距离关系。通过一个专门的估计器来准确计算注意力分数,并用极少的 1-bit残差压缩消除隐藏误差,实现零内存开销的压缩。
最终,评估结果显示,通过TurboQuant可以将LLM的 KV cache 压缩到3-bit,内存占用至少减少6倍,而模型准确性零损失。
在4-bit模式下,在英伟达H100 GPU上,注意力logit 计算速度可比32-bit未量化版本快8倍,整体推理速度也比原始模型更快。
在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval等长文本基准测试中,表现接近无损。在相同的内存占用下,向量搜索的召回率(recall)也优于传统方法如 PQ、KIVI 等。
值得一提的是,Google Research表示,它可以直接应用到现有的开源模型中,不需要重新训练或微调。这项技术也非常适用于边缘AI设备,包括智能手机等DRAM有限的设备中高效运行LLM;同时能够大幅提升LLM的长上下文能力,让LLM拥有更长久的记忆。
总体来说,TurboQuant有望推动LLM在更多智能硬件上的部署和应用,助力AI硬件的创新。
又一个“deepseek时刻”?
对于内存开销需求的大幅降低,很容易让人将TurboQuant与2025年初Deepseek R1的发布联想起来。因为Deepseek R1的目标同样是在更少的硬件资源下保证LLM的高性能,通过引入MLA架构和优化训练策略等创新降低了算力硬件上的需求;TurboQuant则同样是通过极致的压缩算法来减少缓存,降低了对内存的需求。
但另一方面,从deepseek R1推出一年后的今天来看,实际上这种提高硬件利用效率的技术,并不意味着算力硬件就不再重要。反而这些技术是更多推动了应用层面的落地,硬件利用率高意味着LLM的训练和推理成本降低,能够吸引更多应用端的开发和商业落地。
实际上,存储需求确实仍在不断高涨,产能扩张也在持续加速。韩国金融监督院近日披露,三星和SK海力士两大存储巨头在中国投资总额超过1.5万亿韩元,同比大幅增长。
2025年,三星电子在西安工厂投资4654亿韩元用于扩产,这一数字相比2024年大幅增长67.5%。西安工厂是三星电子在海外的唯一NAND Flash生产基地,产量约占三星总产量的40%左右。
据了解,自2020年开始到2023年,三星电子都没有对西安工厂进行任何大规模投资,但从2024年恢复了投资计划,开始升级产线扩大产能。三星电子目前计划将其西安NAND芯片厂的制造工艺从128层(第六代)升级为236层(第八代)。
有韩国官员称,为了防止国家核心技术的泄露,海外工厂与韩国工厂在技术发展上会保持大约两代产品的差距。“由于三星计划在今年在韩国生产第4代(10代)NAND产品,因此中国工厂向第8代技术升级的进程很可能会加快。”
而SK海力士2025年在无锡DRAM工厂和大连NAND Flash工厂共投入了超过1万亿韩元,其中无锡的DRAM工厂上的投资达到了5810亿韩元,比2024年的2873亿韩元增加了102%;而在大连的NAND闪存工厂上的投资则为4406亿韩元,同比增长了52%。这是自2022年SK海力士收购英特尔在大连的NAND闪存工厂以来,该公司首次在中国工厂上进行规模达万亿韩元的投资。
类似地,SK海力士也将其位于无锡的工厂中DRAM的生产工艺从10纳米级的第三代(1z)工艺升级到了第四代(1a)工艺,未来可以大规模生产DDR5内存芯片。
因此,从存储厂商的扩产动作来看,存储需求并不会因为LLM算法和架构的迭代而有所降低,反之,算法和架构层面的创新,将帮助LLM的使用成本降低,从而加速在更多领域中的应用落地。
小结:
过去存储和算力是端侧AI硬件落地的最大门槛之一,在先进制程进入2nm时代后,内存成为了端侧AI的显著障碍,因此能降低内存需求的TurboQuant对于端侧AI硬件的意义更为重大。历史表明,算法效率提升往往能够降低应用门槛,刺激需求增长而非抑制硬件需求,未来存储产业在AI效率革命与应用爆发的双轮驱动下,也将继续狂飙。
随后在当地时间3月25日,美光科技开盘最高跌幅超6%,收盘跌3.4%,四天累计跌幅超过13%;闪迪当天收跌3.5%;3月26日三星电子跌近5%,SK海力士跌超6%。
而这一轮存储股价下跌,谷歌近期推出的TurboQuant可能就是主因。
TurboQuant如何降低AI对内存的需求?
根据Google Research在官网发布的技术资料,TurboQuant是通过解决高维向量处理中的内存瓶颈,在不损失精度的前提下,提升大语言模型和向量搜索引擎的效率,让大型AI系统运行得更快、更省钱。
在计算力领域中,“量化”通常是指数据从高精度转换为低精度的过程,其核心目的在于通过牺牲极微小的数值精度,换取显著的存储空间节省与计算效率提升。低精度意味着对内存占用空间更小,以节省GPU以及AI芯片上DRAM(主要是HBM)用量。
举个例子,比如一张照片中可能有数百万种颜色,如果要完整记录下来,每一种颜色都需要用不同的数字来记录下来,那么这就会产生大量数据,非常占内存。那么经过量化后,可以指定这张照片只能使用16种颜色,此前的数百万种颜色各自取这16种颜色中最接近的一种来进行存储,尽管丢失了颜色精度,但图片依然保留了大致的画面信息,同时图片体积也大幅缩小。
而在大语言模型中,在对话过程中,模型推理产生的对话记忆则存储在KV Cache中。虽然 KV Cache 极大地加快了生成速度,但它带来了严重的内存挑战,KV Cache的大小随着对话长度线性增长,对话越长,占用的显存就越多。
这也是很多模型有所谓的“上下文限制”的原因,限制的背后是显存不够用了。因此一般也会用到量化的方式对KV Cache进行压缩,比如从FP16(16位浮点数)的精度压缩到INT4(4位整数)。
那么TurboQuant,实际上就是针对这里的KV Cache进行了极致压缩。传统的量化技术虽然能减少数据大小,但往往需要为每个小数据块计算并存储额外的“量化常数”(如缩放因子),这会产生额外的内存开销,抵消了量化带来的好处。就好比你创造了一种暗号,那么为了读懂这个暗号,还需要一个对照表来进行解密,同时就需要额外的存储空间去收纳这个对照表。
TurboQuant解决的其中一个问题就是“对照表”带来的额外内存开销。TurboQuant利用PolarQuant技术,改变了传统的笛卡尔坐标(X, Y, Z)视角,将向量转换为极坐标(半径和角度)。由于角度分布在数学上是可预测且集中的,更适合数据压缩,模型不再需要存储昂贵的数据归一化参数,从而消除了内存开销。
另外一项核心的技术是QJL(Quantized Johnson-Lindenstrauss),这是一种基于Johnson-Lindenstrauss 变换的压缩方式。将向量压缩到仅用符号位(+1 或 -1)的1-bit表示,同时保留向量间的距离关系。通过一个专门的估计器来准确计算注意力分数,并用极少的 1-bit残差压缩消除隐藏误差,实现零内存开销的压缩。
最终,评估结果显示,通过TurboQuant可以将LLM的 KV cache 压缩到3-bit,内存占用至少减少6倍,而模型准确性零损失。
在4-bit模式下,在英伟达H100 GPU上,注意力logit 计算速度可比32-bit未量化版本快8倍,整体推理速度也比原始模型更快。
在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval等长文本基准测试中,表现接近无损。在相同的内存占用下,向量搜索的召回率(recall)也优于传统方法如 PQ、KIVI 等。
值得一提的是,Google Research表示,它可以直接应用到现有的开源模型中,不需要重新训练或微调。这项技术也非常适用于边缘AI设备,包括智能手机等DRAM有限的设备中高效运行LLM;同时能够大幅提升LLM的长上下文能力,让LLM拥有更长久的记忆。
总体来说,TurboQuant有望推动LLM在更多智能硬件上的部署和应用,助力AI硬件的创新。
又一个“deepseek时刻”?
对于内存开销需求的大幅降低,很容易让人将TurboQuant与2025年初Deepseek R1的发布联想起来。因为Deepseek R1的目标同样是在更少的硬件资源下保证LLM的高性能,通过引入MLA架构和优化训练策略等创新降低了算力硬件上的需求;TurboQuant则同样是通过极致的压缩算法来减少缓存,降低了对内存的需求。
但另一方面,从deepseek R1推出一年后的今天来看,实际上这种提高硬件利用效率的技术,并不意味着算力硬件就不再重要。反而这些技术是更多推动了应用层面的落地,硬件利用率高意味着LLM的训练和推理成本降低,能够吸引更多应用端的开发和商业落地。
实际上,存储需求确实仍在不断高涨,产能扩张也在持续加速。韩国金融监督院近日披露,三星和SK海力士两大存储巨头在中国投资总额超过1.5万亿韩元,同比大幅增长。
2025年,三星电子在西安工厂投资4654亿韩元用于扩产,这一数字相比2024年大幅增长67.5%。西安工厂是三星电子在海外的唯一NAND Flash生产基地,产量约占三星总产量的40%左右。
据了解,自2020年开始到2023年,三星电子都没有对西安工厂进行任何大规模投资,但从2024年恢复了投资计划,开始升级产线扩大产能。三星电子目前计划将其西安NAND芯片厂的制造工艺从128层(第六代)升级为236层(第八代)。
有韩国官员称,为了防止国家核心技术的泄露,海外工厂与韩国工厂在技术发展上会保持大约两代产品的差距。“由于三星计划在今年在韩国生产第4代(10代)NAND产品,因此中国工厂向第8代技术升级的进程很可能会加快。”
而SK海力士2025年在无锡DRAM工厂和大连NAND Flash工厂共投入了超过1万亿韩元,其中无锡的DRAM工厂上的投资达到了5810亿韩元,比2024年的2873亿韩元增加了102%;而在大连的NAND闪存工厂上的投资则为4406亿韩元,同比增长了52%。这是自2022年SK海力士收购英特尔在大连的NAND闪存工厂以来,该公司首次在中国工厂上进行规模达万亿韩元的投资。
类似地,SK海力士也将其位于无锡的工厂中DRAM的生产工艺从10纳米级的第三代(1z)工艺升级到了第四代(1a)工艺,未来可以大规模生产DDR5内存芯片。
因此,从存储厂商的扩产动作来看,存储需求并不会因为LLM算法和架构的迭代而有所降低,反之,算法和架构层面的创新,将帮助LLM的使用成本降低,从而加速在更多领域中的应用落地。
小结:
过去存储和算力是端侧AI硬件落地的最大门槛之一,在先进制程进入2nm时代后,内存成为了端侧AI的显著障碍,因此能降低内存需求的TurboQuant对于端侧AI硬件的意义更为重大。历史表明,算法效率提升往往能够降低应用门槛,刺激需求增长而非抑制硬件需求,未来存储产业在AI效率革命与应用爆发的双轮驱动下,也将继续狂飙。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
谷歌
+关注
关注
27文章
6257浏览量
111942 -
AI
+关注
关注
91文章
40940浏览量
302517 -
存储芯片
+关注
关注
11文章
1055浏览量
44863
发布评论请先 登录
相关推荐
热点推荐
汉思新材料:存储芯片“高烧、震动、掉速”?底部填充胶才是破局关键!
最近存储芯片火到出圈,不管是AI服务器的HBM高带宽内存、数据中心的企业级SSD,还是消费电子的高密度闪存,都在往更高容量、更快速度、更小体积冲刺。但行业里藏着一个扎心真相:存储芯片性
忆联自研芯片以压缩技术重塑KV Cache存储效率
2026年3月,谷歌研究院发布TurboQuant压缩算法技术,迅速在存储与AI基础设施领域引发热议。该
成都汇阳投资关于AI 算力引爆需求,存储芯片涨价周期来袭
AI 算力黑洞来袭 ,存储需求呈爆炸式增长 AI算力基础设施的爆发成为存储芯片需求的核心驱动力,单台 AI服务器 DRAM 用量是普通服务器
什么是DRAM存储芯片
在现代存储芯片领域中,主要有两大类型占据市场主导:DRAM(动态随机存取存储器)和NAND闪存。二者合计占据了全球存储芯片市场的95%以上份额,其他存储类型则多用于特定或辅助场景。
剖析存储芯片及技术在AI领域的应用
。在此背景下,深入理解驱动 AI 革命的存储技术变得至关重要。本文将系统梳理与 AI 紧密相关的核心存储芯片及技术,剖析它们如何在不同场景下支撑起智能计算的海量数据需求。
半导体存储芯片核心解析
CPU、内存和加速器,可能改变内存池化、共享的架构。
国产化:中国在存储芯片领域(尤其是DRAM和NAND)投入巨大,长江存储(NAND)和长鑫存
发表于 06-24 09:09
请问STM32N6 cubeAI部署时用的内存是在内部还是外部?
STM32N6用cube AI部署模型的时候,用n6-allmems-O3之后analyse得到了RAM和FLASH的内存占用,这里展示的
发表于 06-09 06:19
划片机在存储芯片制造中的应用
划片机(DicingSaw)在半导体制造中主要用于将晶圆切割成单个芯片(Die),这一过程在内存储存卡(如NAND闪存芯片、SSD、SD卡等)的生产中至关重要。以下是划片机在存储芯片制
请问STM32N6 cubeAI部署时用的内存是在内部还是外部?
STM32N6用cube AI部署模型的时候,用n6-allmems-O3之后analyse得到了RAM和FLASH的内存占用,这里展示的
发表于 06-03 12:13
请问STM32N6 cubeAI部署时用的内存是在内部还是外部?
STM32N6用cube AI部署模型的时候,用n6-allmems-O3之后analyse得到了RAM和FLASH的内存占用,这里展示的
发表于 04-28 08:25
存储芯片闪崩!谷歌发布新算法,AI内存占用只需原来1/6?
评论