近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度一致,并且具备本机可训练的特性,专为超快速的长上下文训练和推理而设计。
NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了预训练成本,同时保持了卓越的性能表现。这一机制在确保效率的同时,并未牺牲模型的准确性或功能。
在广泛的基准测试、涉及长上下文的任务以及基于指令的推理场景中,NSA的表现与采用完全注意力机制的模型相当,甚至在部分测试中展现出更优的性能。这一成果不仅验证了NSA机制的有效性和实用性,也展示了DeepSeek在人工智能领域的深厚技术积累和创新能力。
DeepSeek推出的NSA机制,不仅为长上下文训练和推理提供了全新的解决方案,也为人工智能领域的发展注入了新的活力。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
人工智能
+关注
关注
1813文章
49741浏览量
261575 -
NSA
+关注
关注
4文章
108浏览量
19098 -
DeepSeek
+关注
关注
2文章
824浏览量
2815
发布评论请先 登录
相关推荐
热点推荐
大语言模型如何处理上下文窗口中的输入
本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
请问riscv中断还需要软件保存上下文和恢复吗?
以下是我拷贝的文档里的说明,这个中断处理还需要软件来写上下文保存和恢复,在使用ARM核的单片机都不需要考虑这些的,使用过的小伙伴能解答吗?
3.8. 进出中断的上下文保存和恢复
RISC-V架构
发表于 10-20 09:56
【「DeepSeek 核心技术揭秘」阅读体验】--全书概览
讲解Deepseek的使用方法
第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术
第四章关于
发表于 07-21 00:04
【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得
)机制和多 token 预测的详细解读,帮助读者全面了解 DeepSeek-V3 在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8 混合精度训练及
发表于 07-17 11:59
信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代
模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
发表于 07-16 15:29
鸿蒙NEXT-API19获取上下文,在class中和ability中获取上下文,API迁移示例-解决无法在EntryAbility中无法使用最新版
摘要:随着鸿蒙系统API升级至16版本(modelVersion5.1.1),多项API已废弃。获取上下文需使用UIContext,具体方法包括:在组件中使用getUIContext(),在类中使
【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘
(MLA)机制和多 token 预测的详细解读,帮助读者全面了解 DeepSeek-V3 在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8 混合精度训练及
发表于 06-09 14:38
S32K在AUTOSAR中使用CAT1 ISR,是否需要执行上下文切换?
如果我们在 AUTOSAR 中使用 CAT1 ISR,是否需要执行上下文切换?另外,是否需要返回指令才能跳回到作系统?您有没有带有 CAT1 ISR 的 S32K3x4 微控制器的示例?
发表于 03-27 07:34
为什么深度学习中的Frame per Second高于OpenVINO™演示推理脚本?
在 DL Workbench 上使用 Microsoft 通用对象上下文 (MS COCO) 数据集运行 YOLOv4 对象检测模型,并获得 50 - 60 FPS。
OpenVINO™演示推理脚本运行,并获得更高的 FPS。
发表于 03-06 07:27
壁仞科技支持DeepSeek-V3满血版训练推理
DeepSeek在开源周开源了部分关键模块的代码及推理系统参考架构,再次引发行业震动,但目前尚未开源DeepSeek-V3 满血版完整训练代码。壁仞科技凭借八大自主创新技术,实现
北京大学两部 DeepSeek 秘籍新出炉!(附全集下载)
和生成能力、世界知识能力,以及一定的推理能力。
相对应而言,其劣势便在于 AI 幻觉、有限的知识库及上下文窗口限制。
了解完原理,我们也就能让这些聊天机器人更好地为我所用。
二、拥抱 AIGC 的未来
发表于 02-27 17:57
了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择
)
扩展上下文+结构化推理(支持更长复杂输入)
响应控制
通用流畅性优先
强化分步解释与中间过程可解释性
3. 技术架构差异
技术点
DeepSeek-V3
DeepSeek-R1
发表于 02-14 02:08
《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型
的应用。MAML算法通过二阶优化找到对任务变化敏感的模型参数,实现了快速适应。上下文学习则引入了注意力机制,使模型能够根据当前场景动态调整行为策略。在预训练-微调范式中,我们要注意任务表示的重要性:好的表示
发表于 12-24 15:03

DeepSeek推出NSA机制,加速长上下文训练与推理
评论