0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek开源Engram:让大模型拥有"过目不忘"的类脑记忆

jf_28571263 来源:jf_28571263 作者:jf_28571263 2026-01-14 16:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2026年1月13日凌晨,DeepSeek突然发布由创始人梁文锋署名的新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,并同步开源记忆模块Engram。这一机制通过可扩展查找结构,让大模型实现O(1)时间复杂度的"条件反射式"记忆检索,被业界视为破解Transformer效率瓶颈的关键钥匙。

传统Transformer的"记忆困境"

当前大语言模型面临三大结构性问题:注意力计算的O(n²)复杂度在长序列下成为瓶颈;所有知识隐式存储在参数中,检索常识需激活整个网络;早期层负担过重,既要做语义理解又要承担知识检索。这种"低效的反复计算"导致算力浪费,尤其在知识调用、代码补全等需要高频查表的任务中表现突出。

Engram的"双通道记忆"设计

DeepSeek从神经科学汲取灵感:人脑分为程序性记忆(骑自行车)和陈述性记忆(回忆电话号码)。Engram将这一机制映射到模型架构中——条件记忆负责快速查表,注意力负责灵活推理,两者协同构成"稀疏性的新轴"。

技术实现上,Engram采用哈希N-Gram嵌入机制:对输入Token序列进行连续N个词的切片,通过哈希算法映射到可扩展的静态查找表。这种方法是确定性且O(1)时间复杂度的,无论存储多少万亿记忆片段,检索速度恒定,算力消耗极低。同时,轻量化门控机制会根据当前上下文判断是否启用查表结果,避免生硬注入。

实测数据:性能提升超预期

DeepSeek在同等参数和算力条件下进行严格对比测试(均为38亿激活参数,2620亿训练Token):

知识密集型任务 :MMLU提升3分,CMMLU提升4.0分,TriviaQA提升1.9分

通用推理与代码 :BBH大幅提升5.0分,HumanEval代码生成提升3.0分,数学任务MATH提升2.4分

长上下文能力 :Multi-Query NIAH准确率从84.2跃升至97.0,Variable Tracking从77.0提升到89.0

更关键的是,Engram让模型早期层不再做"苦力活",第5层的表征即可达到基线模型第12层的水平,有效深度增加一倍,省下的层数用于更复杂的推理。

行业意义:DeepSeek V4的前奏

梁文锋连续署名两篇论文(mHC架构与Engram),预示DeepSeek V4的技术轮廓日渐清晰。如果说mHC是底层架构创新,Engram则是在架构层面做"分工重构"。这种"存算分离"设计,完美契合算力受限环境下的性价比路线——在同等算力下实现更强性能。

对行业而言,开源Engram的价值在于:它提供了第一个可微分、可训练、原生嵌入模型结构的记忆增强方案,让开发者无需从零构建。从代码补全到医疗知识库,从多语言翻译到法律条文检索,O(1)查找式记忆将为垂直领域大模型带来35-45%的吞吐量提升和25-35%的成本降低。

效率革命的"阳谋"

DeepSeek此举既是技术突破,更是战略卡位。当行业陷入"算力军备竞赛",它选择用架构创新打破硬约束。Engram的巧妙在于不挑战Transformer根基,而是增强其薄弱环节,与MoE形成"计算-记忆"双稀疏,实现1+1>2。

但挑战同样存在:哈希冲突率如何控制?静态记忆表更新机制是否成熟?在创意生成等需要强泛化场景下,Engram是否会产生"记忆固化"副作用?这些都需要大规模实战检验。

Engram的开源,标志着大模型优化从"参数竞赛"转向"架构效率"。当梁文锋将"记忆痕迹"这一神经科学概念注入AI,我们看到的不仅是性能数字的提升,更是中国AI企业在技术路线上从追随到并跑的自信。若DeepSeek V4搭载Engram如期上线,或将证明:在算力受限时代,聪明的架构设计比野蛮的参数量堆砌更具长期价值。这场记忆革命,才刚刚开始。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42000

    浏览量

    303087
  • 大模型
    +关注

    关注

    2

    文章

    3864

    浏览量

    5298
  • DeepSeek
    +关注

    关注

    2

    文章

    861

    浏览量

    3474
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Type-C浪潮席卷小家电:SINK芯片如何成为快充高压的"心脏"

    DC接口,但需搭配PDSINK芯片实现电压适配。这类芯片能识别快充协议、请求目标电压并确保安全供电,使各类小家电兼容USB-C快充。升级方案可降低15%成本,实现"一充多用&
    的头像 发表于 05-25 08:58 157次阅读
    Type-C浪潮席卷小家电:SINK芯片如何成为快充高压的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;心脏&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    AR-1106 技术深探:打破声源定位 &amp;quot;不可能三角&amp;quot; 的工程化创新 摘要

    声源定位技术作为人机交互的核心感知能力,长期以来陷入 **&amp;quot;高精度 - 低成本 - 易开发&amp;quot;** 的不可能三角困境。高端多麦阵列方案精度高但成本昂贵
    的头像 发表于 05-23 10:25 22次阅读

    亚马逊正在公司内部大规模部署其自研AI产品&amp;quot;MeshClaw&amp;quot;

    提升工作效率的工具,却被部分员工玩出了&quot;新花样&quot;——他们利用MeshClaw把一些本无必要的工作也实现了自动化,目的只有一个:自己的AI词元(token)消耗量看起来更高,从而向管理层证明自己&
    的头像 发表于 05-15 10:25 1876次阅读

    从&amp;amp;quot;替代人力&amp;amp;quot;到&amp;amp;quot;智能协同&amp;amp;quot;:履带式巡检机器人的产业跃迁

    2026年的工业智能化转型浪潮中,一个显著的趋势正在形成——工业巡检机器人正从单纯的&quot;人力替代工具&quot;升级为具备感知、决策与协同能力的&quot;智能体&quot;。
    的头像 发表于 02-05 10:42 529次阅读

    选EtherCAT模块,别只看价格,先看&amp;amp;quot;体检报告&amp;amp;quot;

    ±8kV静电、±2kV浪涌、-42℃极寒、1500V高压—这不是极限运动,而是DPort-ECT模块的出厂&quot;必修课&quot;。本文详解工业级EtherCAT从站如何通过严苛测试关
    的头像 发表于 02-04 11:46 619次阅读
    选EtherCAT模块,别只看价格,先看&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;体检报告&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    L3试点落地,和芯星通如何成为车企突围的&amp;amp;quot;隐形守护者&amp;amp;quot;?

    当长安汽车与北汽极狐拿到中国首批L3级自动驾驶准入许可的那一刻,整个产业链等待多年的&quot;靴子&quot;终于落地。在这个责任主体从驾驶员转向车企的关键转折下,系统可靠性成为真正的&quot
    的头像 发表于 01-04 12:03 863次阅读
    L3试点落地,和芯星通如何成为车企突围的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;隐形守护者&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;?

    &amp;quot;Access violation&amp;quot; 错误,复位位置,重新打印

    &quot;Access violation&quot; 错误
    的头像 发表于 11-08 07:16 856次阅读

    南柯电子|现场解决EMC电磁辐射干扰:&amp;quot;雷区&amp;quot;90%的人栽在接地

    南柯电子|现场解决EMC电磁辐射干扰:&quot;雷区&quot;90%的人栽在接地
    的头像 发表于 09-25 09:38 833次阅读

    智慧路灯的&amp;amp;quot;智慧&amp;amp;quot;从何而来?一文读懂单灯控制器工作原理

    灯控制器&quot;中。什么是单灯控制器?单灯控制器,顾名思义,就是为每一盏路灯配备的智能控制终端。它相当于路灯的&quot;大脑&quot;,通过接收指令、执行操作、反馈状态,传统
    的头像 发表于 08-29 20:08 971次阅读
    智慧路灯的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;智慧&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;从何而来?一文读懂单灯控制器工作原理

    光耦合器:电子世界的 &amp;quot;光桥梁&amp;quot;

    在现代电子设备的复杂电路中,信号的传输与隔离至关重要。就像城市交通中需要桥梁来跨越障碍、连接不同区域一样,电子电路里也需要一座 &quot;桥梁&quot; 来实现信号的安全、高效传输,同时避免
    的头像 发表于 08-22 16:58 1271次阅读

    精密设备的&amp;amp;quot;电力保镖&amp;amp;quot;:优比施UPS如何守护数据与硬件安全?

    一、用户痛点:精密设备的&quot;断电恐惧症&quot;在数据中心、医疗实验室、工业控制等场景中,精密电子设备对电源的依赖已达到&quot;零容忍&quot;级别:数据安全危机:服务
    的头像 发表于 07-25 09:00 1245次阅读
    精密设备的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;电力保镖&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;:优比施UPS如何守护数据与硬件安全?

    Modbus RTU通讯协议:瑞银电能表的&amp;quot;普通话&amp;quot;指南

    Modbus RTU协议就像工业设备间的&quot;普通话&quot;,不同品牌的电能表、传感器等设备能够顺畅&quot;交流&quot;
    的头像 发表于 07-18 18:30 2464次阅读
    Modbus RTU通讯协议:瑞银电能表的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;普通话&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;指南

    地热发电环网柜局放监测设备:清洁能源电网的&amp;amp;quot;安全卫士&amp;amp;quot;

    文章由山东华科信息技术有限公司提供在&quot;双碳&quot;目标驱动下,地热发电作为稳定基荷电源,其电网接入设备的可靠性至关重要。环网柜作为地热电站与主网连接的关键节点,其内部绝缘缺陷可能引发
    的头像 发表于 07-16 10:15 786次阅读
    地热发电环网柜局放监测设备:清洁能源电网的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;安全卫士&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    为什么GNSS/INS组合被誉为导航界的&amp;amp;quot;黄金搭档&amp;amp;quot;?

    解决方案。而ER-GNSS/MINS-05低成本组合导航系统的出现,更是这一&quot;黄金组合&quot;走进了更广泛的应用场景,高性能导航不再昂贵。
    的头像 发表于 07-09 17:12 1274次阅读
    为什么GNSS/INS组合被誉为导航界的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;黄金搭档&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;?

    人形机器人为什么要定制? ——揭秘工业场景的&amp;quot;千面需求&amp;quot;

    核心洞察:标准化机器人难以破解工业场景的&quot;需求碎片化&quot;困局。富唯智能通过 &quot;五大模块柔性架构+零代码中枢&quot; ,为 人形机器人为什么要定制 提供了
    的头像 发表于 06-10 17:19 1655次阅读
    人形机器人为什么要定制? ——揭秘工业场景的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;千面需求&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;