DeepSeek在arXiv上上传了一篇介绍 NSA 的论文。根据 arXiv 网站上发布的论文摘要显示,“我们提出了NSA,这是一种原生可训练的稀疏注意力机制,它将算法创新与硬件对齐的优化相结合,以实现高效的长上下文建模。”
论文称,NSA 在通用基准检验、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。
实验显示,NSA 不仅在通用任务和长上下文任务中表现出色,还在例如链式推理等复杂任务中展现强大的潜力,且推理速度加快。
在通用基准检验、长文本处理以及基于指令的推理任务中,NSA 的表现均能达到甚至超越传统全注意力(Full Attention)模型的水平,以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训练推理场景中显著提升速度,特别是在译码阶段实现高达 11.6 倍的提升。
透过高效的长序列处理能力,NSA 使模型能够直接处理整本书、代码库或多轮对话(如千轮客服场景),扩展大语言模型在文文件分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro 已展示长上下文的潜力,NSA 能进一步降低这类模型的训练与推理成本。
在这篇名题为「原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek 创始人梁文锋也是共同作者。
中国人工智能软件巨头商汤科技智能产业研究院前院长田锋表示,随着全球人工智能竞争持续升温,不同的公司在不同领域展示了竞争优势。据田锋介绍,DeepSeek 开发的资源高效的开源模型在数学推理和软件工程任务方面表现出色,而 OpenAI 的 o1 在一般知识和解决问题方面表现更佳。
我们看到,来自中国人工智能公司还展示了各种优势,包括竞争性能和成本效益。田锋强调:“通过利用替代数据源、开发自主技术以及促进国内技术生态系统内的合作,DeepSeek 和其他中国人工智能公司能够创造出不仅满足国内需求而且能够提高全球竞争力的解决方案,”
这是自1月20日DeepSeek发布R1模型震撼AI圈以来,DeepSeek首次发布的技术动态。
-
AI大模型
+关注
关注
0文章
394浏览量
942 -
DeepSeek
+关注
关注
2文章
824浏览量
2812
发布评论请先 登录
【「DeepSeek 核心技术揭秘」阅读体验】+混合专家
【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘
【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得
【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘
IBM探索AI驱动的降本增效新路径
福田欧曼银河5助力物流运输行业降本增效
PLC远程维护上下载,降本增效减少出差的利器

DeepSeek发表重磅论文!推出NSA技术,让AI模型降本增效
评论