近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度一致,并且具备本机可训练的特性,专为超快速的长上下文训练和推理而设计。
NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了预训练成本,同时保持了卓越的性能表现。这一机制在确保效率的同时,并未牺牲模型的准确性或功能。
在广泛的基准测试、涉及长上下文的任务以及基于指令的推理场景中,NSA的表现与采用完全注意力机制的模型相当,甚至在部分测试中展现出更优的性能。这一成果不仅验证了NSA机制的有效性和实用性,也展示了DeepSeek在人工智能领域的深厚技术积累和创新能力。
DeepSeek推出的NSA机制,不仅为长上下文训练和推理提供了全新的解决方案,也为人工智能领域的发展注入了新的活力。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
人工智能
+关注
关注
1820文章
50325浏览量
266967 -
NSA
+关注
关注
4文章
109浏览量
19481 -
DeepSeek
+关注
关注
2文章
839浏览量
3406
发布评论请先 登录
相关推荐
热点推荐
安信可AI语音模组支持MCP模型上下文协议
安信可 PalChat 系列(V1/V2)支持 MCP(模型上下文协议),工程师只需写几十行 C 代码,就能让 AI 模型直接控制硬件设备。V1 基于 Ai-WB2-12F,适合快速验证;V2
NVIDIA推出BlueField-4 STX存储架构
NVIDIA 今日宣布推出 NVIDIA BlueField-4® STX 模块化参考架构,该架构可助力企业、云计算及 AI 服务商轻松部署加速存储基础设施,以满足代理式 AI 所需的长上下文
NVIDIA BlueField-4为推理上下文记忆存储平台提供强大支持
随着代理式 AI 工作流将上下文窗口扩展到数百万个 token,并将模型规模扩展到数百万亿个参数,AI 原生企业正面临着越来越多的扩展挑战。这些系统目前依赖于智能体长期记忆来存储跨多轮、工具和会话持续保存的上下文,以便智能体能够基于先前的
NVIDIA DGX SuperPOD为Rubin平台横向扩展提供蓝图
NVIDIA DGX Rubin 系统整合了 NVIDIA 在计算、网络和软件领域的最新突破,将推理 token 成本降至 NVIDIA Blackwell 平台的十分之一,可加速从推理和训练
奇异摩尔入选2025中国科创好公司半导体榜单
随着国产大模型接连取得突破,AI产业的焦点正迅速转移。就在本月,DeepSeek正式发布V3.2和其高算力版本Speciale,主力模型V3.2强化通用Agent与长上下文处理能力,而
大语言模型如何处理上下文窗口中的输入
本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
请问riscv中断还需要软件保存上下文和恢复吗?
以下是我拷贝的文档里的说明,这个中断处理还需要软件来写上下文保存和恢复,在使用ARM核的单片机都不需要考虑这些的,使用过的小伙伴能解答吗?
3.8. 进出中断的上下文保存和恢复
RISC-V架构
发表于 10-20 09:56
英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持
英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型训练的深度突破到推理
今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%
缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,实现高吞吐、低时延的推理体验,降低每Token推理
发表于 08-13 09:45
•5721次阅读
【「DeepSeek 核心技术揭秘」阅读体验】--全书概览
讲解Deepseek的使用方法
第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术
第四章关于
发表于 07-21 00:04
【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得
)机制和多 token 预测的详细解读,帮助读者全面了解 DeepSeek-V3 在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8 混合精度训练及
发表于 07-17 11:59
信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代
模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
发表于 07-16 15:29
鸿蒙NEXT-API19获取上下文,在class中和ability中获取上下文,API迁移示例-解决无法在EntryAbility中无法使用最新版
摘要:随着鸿蒙系统API升级至16版本(modelVersion5.1.1),多项API已废弃。获取上下文需使用UIContext,具体方法包括:在组件中使用getUIContext(),在类中使
【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘
(MLA)机制和多 token 预测的详细解读,帮助读者全面了解 DeepSeek-V3 在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8 混合精度训练及
发表于 06-09 14:38
DeepSeek推出NSA机制,加速长上下文训练与推理
评论