0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探索DeepSeek多样化技术路径,英特尔架构师用至强CPU尝鲜

话说科技 来源:话说科技 作者:话说科技 2026-02-05 11:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期大模型领域里最火的热词,或者说技术创新点,非Engram (DeepSeek最新论文里设计的Engram机制) 莫属。今天我们想分享的,是英特尔围绕Engram开展的早期探索——用至强® 处理器独立运行整个Engram模块,并使用其内置的英特尔® AMX(高级矩阵扩展)技术对其进行加速的初步成果或收获。

我们希望这次分享,或能作为参考,或是作为开端,能为未来Engram以及集成它的大模型的部署和实践,拓展和探明更多可能性及随之而来的潜在应用优势。

Engram设计初衷:

让大模型走向“查算分离”

让我们先简单回顾Engram的源起,它出现在公众视野,是源自DeepSeek联合北京大学发布的论文《Conditional Memory via Scalable Lookup》。业界对它的评价,是为“破解万物皆推理”模式引发的大模型的记忆困境提供了全新思路。这里提到的记忆困境,指的是宝贵的算力被消耗在本可直接调取的静态知识检索上,这不仅会拖慢响应速度、增加推理成本,还让大模型在复杂任务上的性能突破陷入瓶颈。

该论文创新地在大模型中提出了“查算分离”理念,通过Engram引入外置记忆模块,将“静态、常见、局部”的知识从计算里解放出来,在拉升检索效率至O(1)复杂度的同时,也把宝贵的算力资源留给Transformer专心做上下文理解和推理。

Engram核心创新:

用“外置记忆模块”实现查算分离理念

Engram将“查算分离”落到实处的做法,就是把大模型里的“计算”和“超大规模记忆”解耦,Transformer的算子全部在GPU/加速卡上计算,而庞大的Engram Embedding表放在CPU内存或高速存储设备上存查。如图1所示,GPU与CPU分工合作并通过异步方式协同,GPU执行前一步计算的同时,CPU可提前预取后续计算所需的N-gram Embedding表,当计算执行到“Transformer Block with Engram”时,所需的静态知识已经就位。

这种分工模式改变了传统大模型“推理既要计算又要记忆”的状态,就像给学者配备了一本可即时查阅的百科词典,无需每次都从头推导基础知识点,而是将精力集中在深度思考上。

wKgZPGmECsuASTw8AABORamL8tc639.png

图1 大模型通过集成Engram实现查算分离

同时基于这一设计,Engram能充分利用CPU平台对大容量内存的有效支持,将“超大规模记忆”部分卸载至CPU平台上。论文数据提到:“将 1000 亿参数的表卸载至CPU内存时,仅产生可忽略的开销(小于 3%)。” 这表明,Engram 能有效突破GPU显存限制,为大规模参数扩展提供支持,从而为大模型用户带来显性收益。i

Engram计算流程解析

如图2所示,在Engram的计算架构中,其被嵌入Transformer主干网络,有以下几个主要工作阶段:

wKgZO2mECsyAEBbGAACdO5Ic46E119.png

图2 Engram计算架构及核心工作流程

N-gram哈希检索阶段:模块对输入序列提取2-gram、3-gram等不同子序列(如图中的“the Great”、“Alexander the Great”),每个子序列对应其阶数的多头哈希机制,从预构建的静态N-gram 嵌入表(如图中的2-Gram Embedding、3-Gram Embedding表)中以O (1)复杂度查询对应嵌入。

动态门控融合阶段:N-gram 嵌入表先经Concat(通道拼接)形成融合记忆向量,再通过两个Linear(线性转换)层分别投影为Key(记忆语义摘要)与Value(待注入信息)。随后将当前Transformer层的Input Hidden(全局上下文)与 Key 做 Scaled Dot Product (点积计算)生成门控权重,动态过滤与上下文无关的Value信息。加权后的Value再通过Conv卷积计算完成局部融合。

残差集成阶段:局部融合后的记忆特征通过加法操作,残差加回该Transformer Block的输入,并直接输入后续的Attention与MoE层。

英特尔的探索:

用CPU独立运行及加速整个Engram模块

在Engram相关论文发表,DeepSeek开源上述流程的Demo代码后,不少业内专家和机构都开展了相关的复现、验证及测试工作。我们的探索则更进一步——不同于原论文中Concat之后的工作任务将交还给GPU执行,我们不仅将N-gram哈希检索阶段的计算放在至强® 平台上执行,还将动态门控融合阶段中的Linear转换计算和Conv卷积计算也放到该平台上运行。换言之,我们是基于充分的性能调优,尝试用CPU平台独立运行和加速整个Engram模块。

这种“更进一步”的底气,来自AMX技术,这是从第四代英特尔® 至强® 可扩展处理器开始就内置于至强® 处理器,且到目前为止也是全球主流服务器CPU产品中仅为该产品线所独有的CPU内置型矩阵计算加速技术。无论是Linear转换计算还是Conv卷积计算,都属于矩阵密集型计算,因此,理论上内置AMX的至强® 处理器可以“顺势”完成整个Engram的运行和加速。

wKgZPGmECsyAPz3iAADAZIXTDys42.jpeg

图3 从Engram原有工作流程转向用CPU运行整个模块并导入AMX加速

基于此,我们着手在Linear转换计算和Conv卷积计算中利用AMX技术开展了性能加速。具体来说,在Engram中,两个Linear转换计算分别需要处理大量维度映射的矩阵乘法,而AMX的专用矩阵计算单元可并行处理多批次、长序列的高维矩阵乘法,且单条指令可完成更大规模的矩阵运算,运算效率远超传统CPU计算或向量计算(如AVX-512)。在Conv的 short_conv(短卷积)计算中,AMX的矩阵运算能力也可针对短卷积的“小窗口、高并行” 特性实现优化。此外,AMX还对BF16/FP16/INT8等不同的数据格式有着良好支持,能进一步提升矩阵运算加速的性能与灵活性。

我们目前已完成了一些初步测试,如图4和图5所示,其结果表明,在同一款至强® 6处理器平台上,如果使用AVX-512加速,在batch size等于50,token length等于14的FP16数据格式下,整个Engram的耗时需要10.046ms, 而使用AMX来加速Linear转换计算和Conv卷积计算,Engram的耗时只要6.022ms,整体性能提升至AVX-512的1.67倍ii。

wKgZO2mECsyAYSMjAABWPnzMbbI05.jpeg

图4 测试得出的在FP16数据格式下分别用AMX 和AVX-512加速的执行时间

(每次测试结果都可能存在少许浮动,在可接受范围)

wKgZPGmECs2AMkgGAACPpdeItB0171.png

图5 用英特尔® AMX加速Engram模块中Linear和卷积计算的性能表现

上述探索和测试是基于DeepSeek开源的deepseek-ai/Engram: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models的相关代码,欢迎同行们一起讨论交流。

接下来英特尔会继续围绕Engram及集成它的大模型开展更多、更为深入的探索,特别是在DeepSeek相关模型正式发布后,我们会更为全面、系统地评估CPU独立运行和加速Engram模块会对整个模型的端到端性能、部署和应用的门槛,以及投资回报等维度带来怎样的影响,相关进展与成果也将在第一时间分享。

正如开篇所说,我们相信这些工作与Engram的设计初衷是相向而行的,即在用 “查算分离” 理念打破传统大模型的记忆困境的同时,也让AI基础设施中的GPU和CPU实现更好的协作,并充分释放它们各自的潜能,进而大幅提升AI系统的部署效率及投资回报,或者进一步拉低AI部署与实践的成本或门槛。我们的工作,就是希望能为这一目标的达成拓展出更为多样化的技术路径与更强的灵活性。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10340

    浏览量

    181324
  • 架构师
    +关注

    关注

    0

    文章

    48

    浏览量

    4942
  • DeepSeek
    +关注

    关注

    2

    文章

    861

    浏览量

    3469
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    超越台积电?英特尔首个18A工艺芯片迈向大规模量产

    Lake作为英特尔首款基于Intel 18A制程工艺打造的产品,意义非凡。这一制程是英特尔研发并制造的最先进半导体工艺,标志着英特尔技术领域迈出了关键一步。  
    的头像 发表于 10-11 08:14 9531次阅读
    超越台积电?<b class='flag-5'>英特尔</b>首个18A工艺芯片迈向大规模量产

    英特尔RealSense D400系列深度相机系统:技术解析与设计指南

    的性能和广泛的应用前景,成为了电子工程们关注的焦点。本文将深入剖析该系列相机的技术特点、组件规格、功能特性以及系统集成等方面,为电子工程们提供全面的设计参考。 文件下载: 82635DSD455.pdf 一、产品概述
    的头像 发表于 05-19 11:40 306次阅读

    AI工作站本地养龙虾!英特尔双芯混合算力,告别云端Token焦虑

    4月23日,英特尔公司在北京举办新一代AI工作站平台发布会,英特尔中国区技术部总经理高宇宣布,面向AI工作站,英特尔推出两大重磅产品:英特尔
    的头像 发表于 04-26 16:27 1.1w次阅读
    AI工作站本地养龙虾!<b class='flag-5'>英特尔</b>双芯混合算力,告别云端Token焦虑

    英特尔“智能体PC”登场:AI硬件革命迈入混合架构新纪元

    近日,在AI技术从云端向终端加速渗透的转折点上,英特尔在北京举办的混合AI部署方案分享会上抛出一枚重磅炸弹——正式提出“智能体PC”概念。这一被定义为“AI PC进阶形态”的新物种,不仅重新定义了
    的头像 发表于 04-22 10:36 656次阅读

    英特尔至强6“芯”动GTC 2026,为英伟达DCG Rubin解锁系统级性能

    的关键阶段,至强系列处理器为GPU加速AI系统,提供架构一致性与强大扩展能力所发挥的重要支撑作用。 英特尔公司副总裁兼数据中心战略项目总经理Jeff McVeigh表示: “当前,AI发展正从大规模训练加速阶段,转向由智能体AI
    的头像 发表于 03-19 16:43 497次阅读

    英特尔与华阳通用联手推出全新AI Box解决方案

    英特尔宣布推出基于最新英特尔 酷睿 Ultra 架构的AI Box解决方案,将PC级旗舰算力引入汽车、工业自动、轨道交通、机器人等多种工业环境,为各行各业接入AI大模型提供高效灵活的
    的头像 发表于 03-02 14:15 886次阅读

    英特尔288核新至强处理器揭秘:Intel 18A制程,3D堆叠与键合,EMIB封装……

      近日,在Hot Chips 2025大会举行期间,英特尔新一代至强处理器 Clearwater Forest首次亮相,这是英特尔基于Intel 18A制程打造的首款服务器芯片。会上,英特尔
    的头像 发表于 08-29 15:59 2242次阅读

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型训练的深度突破到推理部署的实时响应,为大模型的加速落地提供
    的头像 发表于 08-26 19:18 3462次阅读
    <b class='flag-5'>英特尔</b>Gaudi 2E AI加速器为<b class='flag-5'>DeepSeek</b>-V3.1提供加速支持

    英特尔连通爱尔兰Fab34与Fab10晶圆厂,加速先进制程芯片生产进程

    决定连通爱尔兰的Fab 34与Fab 10晶圆厂。 ​ 目前,英特尔先进制程技术Intel 4/3的主要生产重担,落在了位于爱尔兰莱克斯利普的Fab 34晶圆厂肩头。这一晶圆厂对于英特尔至关重要,当下热门的
    的头像 发表于 08-25 15:05 1173次阅读

    英特尔至强6助力阿里云第九代企业级ECS实例100天赢得超万家客户青睐

    近日,搭载英特尔® 至强® 6性能核处理器的阿里云第九代企业级ECS实例g9i正式迎来商业100天里程碑,并获得超过10,000家客户的信赖与选择。通过全场景的卓越性能提升,至强6性
    的头像 发表于 07-29 15:44 741次阅读

    看点:AMD服务器CPU市场份额追上英特尔 华为Mate80主动散热专利曝光

    给大家带来一些业界资讯: AMD服务器CPU市场份额追上英特尔 根据市场研究机构PassMark的统计分析数据显示,AMD 公司在服务器CPU 市场取得重大进展,市占率首次达到50%,与竞争对手
    的头像 发表于 07-25 14:41 1437次阅读
    看点:AMD服务器<b class='flag-5'>CPU</b>市场份额追上<b class='flag-5'>英特尔</b> 华为Mate80主动散热专利曝光

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    问题,又像横在发展路上的巨石,提醒我技术创新并非坦途,新架构在带来优势的同时,也会伴随新挑战。 五、小结 读完第三章,DeepSeek - V3 的技术剖析让我从
    发表于 07-20 15:07

    主控CPU全能选手,英特尔至强6助力AI系统高效运转

    2025年3月,英伟达发布了DGX B300 AI加速计算平台。2025年5月,英特尔发布了三款全新英特尔至强6性能核处理器,其中一款6776P被用作是DGX B300的主控CPU,这
    的头像 发表于 06-27 11:44 1118次阅读
    主控<b class='flag-5'>CPU</b>全能选手,<b class='flag-5'>英特尔</b><b class='flag-5'>至强</b>6助力AI系统高效运转

    术业有专攻——AI系统主控CPU英特尔至强6新品处理器浅析

    一、至强6与NVIDIA GPU 协同的硬件基础 在 AI 异构计算架构中,英特尔至强6处理器作为主控CPU可以与NVIDIA最新GPU 很
    的头像 发表于 06-19 16:37 995次阅读
    术业有专攻——AI系统主控<b class='flag-5'>CPU</b><b class='flag-5'>英特尔</b><b class='flag-5'>至强</b>6新品处理器浅析

    分析英特尔转型之路,机遇与挑战并存

    内容编译自投资分析Oliver Rodzianko观点文章 作为一名长期关注英特尔发展的投资者,我对陈立武(Lip-Bu Tan)出任英特尔 CEO充满期待。陈立武的管理风格兼具魄力与战略眼光
    的头像 发表于 06-10 10:59 733次阅读
    分析<b class='flag-5'>师</b>:<b class='flag-5'>英特尔</b>转型之路,机遇与挑战并存