0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存储芯片闪崩!谷歌发布新算法,AI内存占用只需原来1/6?

Hobby观察 来源:电子发烧友网 作者:梁浩斌 2026-03-27 13:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/梁浩斌)又一“Deepseek时刻”来了?谷歌在3月24日发布了一项名为TurboQuant的先进向量量化压缩算法,旨在解决大语言模型和向量搜索引擎中的内存瓶颈问题,令KV Cache内存占用降低至原来的1/6且几乎无精度损失。

随后在当地时间3月25日,美光科技开盘最高跌幅超6%,收盘跌3.4%,四天累计跌幅超过13%;闪迪当天收跌3.5%;3月26日三星电子跌近5%,SK海力士跌超6%。

而这一轮存储股价下跌,谷歌近期推出的TurboQuant可能就是主因。

TurboQuant如何降低AI对内存的需求?

根据Google Research在官网发布的技术资料,TurboQuant是通过解决高维向量处理中的内存瓶颈,在不损失精度的前提下,提升大语言模型和向量搜索引擎的效率,让大型AI系统运行得更快、更省钱。

在计算力领域中,“量化”通常是指数据从高精度转换为低精度的过程,其核心目的在于通过牺牲极微小的数值精度,换取显著的存储空间节省与计算效率提升。低精度意味着对内存占用空间更小,以节省GPU以及AI芯片上DRAM(主要是HBM)用量。

举个例子,比如一张照片中可能有数百万种颜色,如果要完整记录下来,每一种颜色都需要用不同的数字来记录下来,那么这就会产生大量数据,非常占内存。那么经过量化后,可以指定这张照片只能使用16种颜色,此前的数百万种颜色各自取这16种颜色中最接近的一种来进行存储,尽管丢失了颜色精度,但图片依然保留了大致的画面信息,同时图片体积也大幅缩小。

而在大语言模型中,在对话过程中,模型推理产生的对话记忆则存储在KV Cache中。虽然 KV Cache 极大地加快了生成速度,但它带来了严重的内存挑战,KV Cache的大小随着对话长度线性增长,对话越长,占用的显存就越多。

这也是很多模型有所谓的“上下文限制”的原因,限制的背后是显存不够用了。因此一般也会用到量化的方式对KV Cache进行压缩,比如从FP16(16位浮点数)的精度压缩到INT4(4位整数)。

那么TurboQuant,实际上就是针对这里的KV Cache进行了极致压缩。传统的量化技术虽然能减少数据大小,但往往需要为每个小数据块计算并存储额外的“量化常数”(如缩放因子),这会产生额外的内存开销,抵消了量化带来的好处。就好比你创造了一种暗号,那么为了读懂这个暗号,还需要一个对照表来进行解密,同时就需要额外的存储空间去收纳这个对照表。

TurboQuant解决的其中一个问题就是“对照表”带来的额外内存开销。TurboQuant利用PolarQuant技术,改变了传统的笛卡尔坐标(X, Y, Z)视角,将向量转换为极坐标(半径和角度)。由于角度分布在数学上是可预测且集中的,更适合数据压缩,模型不再需要存储昂贵的数据归一化参数,从而消除了内存开销。

另外一项核心的技术是QJL(Quantized Johnson-Lindenstrauss),这是一种基于Johnson-Lindenstrauss 变换的压缩方式。将向量压缩到仅用符号位(+1 或 -1)的1-bit表示,同时保留向量间的距离关系。通过一个专门的估计器来准确计算注意力分数,并用极少的 1-bit残差压缩消除隐藏误差,实现零内存开销的压缩。

最终,评估结果显示,通过TurboQuant可以将LLM的 KV cache 压缩到3-bit,内存占用至少减少6倍,而模型准确性零损失。

在4-bit模式下,在英伟达H100 GPU上,注意力logit 计算速度可比32-bit未量化版本快8倍,整体推理速度也比原始模型更快。

在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval等长文本基准测试中,表现接近无损。在相同的内存占用下,向量搜索的召回率(recall)也优于传统方法如 PQ、KIVI 等。

值得一提的是,Google Research表示,它可以直接应用到现有的开源模型中,不需要重新训练或微调。这项技术也非常适用于边缘AI设备,包括智能手机等DRAM有限的设备中高效运行LLM;同时能够大幅提升LLM的长上下文能力,让LLM拥有更长久的记忆。

总体来说,TurboQuant有望推动LLM在更多智能硬件上的部署和应用,助力AI硬件的创新。

又一个“deepseek时刻”?

对于内存开销需求的大幅降低,很容易让人将TurboQuant与2025年初Deepseek R1的发布联想起来。因为Deepseek R1的目标同样是在更少的硬件资源下保证LLM的高性能,通过引入MLA架构和优化训练策略等创新降低了算力硬件上的需求;TurboQuant则同样是通过极致的压缩算法来减少缓存,降低了对内存的需求。

但另一方面,从deepseek R1推出一年后的今天来看,实际上这种提高硬件利用效率的技术,并不意味着算力硬件就不再重要。反而这些技术是更多推动了应用层面的落地,硬件利用率高意味着LLM的训练和推理成本降低,能够吸引更多应用端的开发和商业落地。

实际上,存储需求确实仍在不断高涨,产能扩张也在持续加速。韩国金融监督院近日披露,三星和SK海力士两大存储巨头在中国投资总额超过1.5万亿韩元,同比大幅增长。

2025年,三星电子在西安工厂投资4654亿韩元用于扩产,这一数字相比2024年大幅增长67.5%。西安工厂是三星电子在海外的唯一NAND Flash生产基地,产量约占三星总产量的40%左右。

据了解,自2020年开始到2023年,三星电子都没有对西安工厂进行任何大规模投资,但从2024年恢复了投资计划,开始升级产线扩大产能。三星电子目前计划将其西安NAND芯片厂的制造工艺从128层(第六代)升级为236层(第八代)。

有韩国官员称,为了防止国家核心技术的泄露,海外工厂与韩国工厂在技术发展上会保持大约两代产品的差距。“由于三星计划在今年在韩国生产第4代(10代)NAND产品,因此中国工厂向第8代技术升级的进程很可能会加快。”

而SK海力士2025年在无锡DRAM工厂和大连NAND Flash工厂共投入了超过1万亿韩元,其中无锡的DRAM工厂上的投资达到了5810亿韩元,比2024年的2873亿韩元增加了102%;而在大连的NAND闪存工厂上的投资则为4406亿韩元,同比增长了52%。这是自2022年SK海力士收购英特尔在大连的NAND闪存工厂以来,该公司首次在中国工厂上进行规模达万亿韩元的投资。

类似地,SK海力士也将其位于无锡的工厂中DRAM的生产工艺从10纳米级的第三代(1z)工艺升级到了第四代(1a)工艺,未来可以大规模生产DDR5内存芯片。

因此,从存储厂商的扩产动作来看,存储需求并不会因为LLM算法和架构的迭代而有所降低,反之,算法和架构层面的创新,将帮助LLM的使用成本降低,从而加速在更多领域中的应用落地。

小结:

过去存储和算力是端侧AI硬件落地的最大门槛之一,在先进制程进入2nm时代后,内存成为了端侧AI的显著障碍,因此能降低内存需求的TurboQuant对于端侧AI硬件的意义更为重大。历史表明,算法效率提升往往能够降低应用门槛,刺激需求增长而非抑制硬件需求,未来存储产业在AI效率革命与应用爆发的双轮驱动下,也将继续狂飙。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6257

    浏览量

    111942
  • AI
    AI
    +关注

    关注

    91

    文章

    40940

    浏览量

    302517
  • 存储芯片
    +关注

    关注

    11

    文章

    1055

    浏览量

    44863
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    汉思新材料:存储芯片“高烧、震动、掉速”?底部填充胶才是破局关键!

    最近存储芯片火到出圈,不管是AI服务器的HBM高带宽内存、数据中心的企业级SSD,还是消费电子的高密度闪存,都在往更高容量、更快速度、更小体积冲刺。但行业里藏着一个扎心真相:存储芯片
    的头像 发表于 04-17 15:43 222次阅读
    汉思新材料:<b class='flag-5'>存储芯片</b>“高烧、震动、掉速”?底部填充胶才是破局关键!

    忆联自研芯片以压缩技术重塑KV Cache存储效率

    2026年3月,谷歌研究院发布TurboQuant压缩算法技术,迅速在存储AI基础设施领域引发热议。该
    的头像 发表于 04-10 14:10 347次阅读

    成都汇阳投资关于AI 算力引爆需求,存储芯片涨价周期来袭

    AI 算力黑洞来袭 ,存储需求呈爆炸式增长 AI算力基础设施的爆发成为存储芯片需求的核心驱动力,单台 AI服务器 DRAM 用量是普通服务器
    的头像 发表于 03-27 17:12 381次阅读

    Arduino Nano实测SDNAND模块,焊接即用扩展存储#存储 #存储芯片 #Arduino

    存储芯片
    雷龙Lucca
    发布于 :2026年03月20日 17:48:10

    什么是DRAM存储芯片

    在现代存储芯片领域中,主要有两大类型占据市场主导:DRAM(动态随机存取存储器)和NAND闪存。二者合计占据了全球存储芯片市场的95%以上份额,其他存储类型则多用于特定或辅助场景。
    的头像 发表于 01-13 16:52 1761次阅读

    剖析存储芯片及技术在AI领域的应用

    。在此背景下,深入理解驱动 AI 革命的存储技术变得至关重要。本文将系统梳理与 AI 紧密相关的核心存储芯片及技术,剖析它们如何在不同场景下支撑起智能计算的海量数据需求。
    的头像 发表于 12-29 15:24 2999次阅读
    剖析<b class='flag-5'>存储芯片</b>及技术在<b class='flag-5'>AI</b>领域的应用

    近期热疯了都在收内存芯片,囤存储芯片风险点有这些?

    存储芯片
    芯广场
    发布于 :2025年11月28日 11:27:22

    存储芯片(焕发生机)

    ,都属于集成电路里的核心成员。要是按“断电后数据能不能留在器件里”来分,存储芯片能分成易失性和非易失性两种。易失性存储芯片就像电脑的内存(像SRAM、DRAM这类
    的头像 发表于 11-17 16:35 3791次阅读
    <b class='flag-5'>存储芯片</b>(焕发生机)

    雷军都喊贵!存储芯片涨价风暴,手机电脑集体涨价#芯片#存储芯片#AI

    存储芯片
    jf_15747056
    发布于 :2025年10月28日 19:07:52

    半导体存储芯片核心解析

    CPU、内存和加速器,可能改变内存池化、共享的架构。 国产化:中国在存储芯片领域(尤其是DRAM和NAND)投入巨大,长江存储(NAND)和长鑫
    发表于 06-24 09:09

    请问STM32N6 cubeAI部署时用的内存是在内部还是外部?

    STM32N6用cube AI部署模型的时候,用n6-allmems-O3之后analyse得到了RAM和FLASH的内存占用,这里展示的
    发表于 06-09 06:19

    划片机在存储芯片制造中的应用

    划片机(DicingSaw)在半导体制造中主要用于将晶圆切割成单个芯片(Die),这一过程在内存储存卡(如NAND闪存芯片、SSD、SD卡等)的生产中至关重要。以下是划片机在存储芯片
    的头像 发表于 06-03 18:11 1525次阅读
    划片机在<b class='flag-5'>存储芯片</b>制造中的应用

    请问STM32N6 cubeAI部署时用的内存是在内部还是外部?

    STM32N6用cube AI部署模型的时候,用n6-allmems-O3之后analyse得到了RAM和FLASH的内存占用,这里展示的
    发表于 06-03 12:13

    请问STM32N6 cubeAI部署时用的内存是在内部还是外部?

    STM32N6用cube AI部署模型的时候,用n6-allmems-O3之后analyse得到了RAM和FLASH的内存占用,这里展示的
    发表于 04-28 08:25