DeepSeek发表重磅论文！推出NSA技术，让AI模型降本增效-电子发烧友网

(电子发烧友报道文/章鹰）2月18日，在马斯克的xAI公司发布了Grok3大模型后，中国公司深度探索公司推出了用于超快速长文本训练训练与推理的“原生稀疏注意力”（Native Sparse Attention，简称 NSA）。

DeepSeek在arXiv上上传了一篇介绍 NSA 的论文。根据 arXiv 网站上发布的论文摘要显示，“我们提出了NSA，这是一种原生可训练的稀疏注意力机制，它将算法创新与硬件对齐的优化相结合，以实现高效的长上下文建模。”

论文称，NSA 在通用基准检验、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

实验显示，NSA 不仅在通用任务和长上下文任务中表现出色，还在例如链式推理等复杂任务中展现强大的潜力，且推理速度加快。

在通用基准检验、长文本处理以及基于指令的推理任务中，NSA 的表现均能达到甚至超越传统全注意力（Full Attention）模型的水平，以性价比极高的方式，罕见地在训练阶段应用稀疏性，在训练推理场景中显著提升速度，特别是在译码阶段实现高达 11.6 倍的提升。

透过高效的长序列处理能力，NSA 使模型能够直接处理整本书、代码库或多轮对话（如千轮客服场景），扩展大语言模型在文文件分析、代码生成、复杂推理等领域的应用边界。例如，Gemini 1.5 Pro 已展示长上下文的潜力，NSA 能进一步降低这类模型的训练与推理成本。

在这篇名题为「原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制」（Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention）的论文署名中，DeepSeek 创始人梁文锋也是共同作者。

中国人工智能软件巨头商汤科技智能产业研究院前院长田锋表示，随着全球人工智能竞争持续升温，不同的公司在不同领域展示了竞争优势。据田锋介绍，DeepSeek 开发的资源高效的开源模型在数学推理和软件工程任务方面表现出色，而 OpenAI 的 o1 在一般知识和解决问题方面表现更佳。

我们看到，来自中国人工智能公司还展示了各种优势，包括竞争性能和成本效益。田锋强调：“通过利用替代数据源、开发自主技术以及促进国内技术生态系统内的合作，DeepSeek 和其他中国人工智能公司能够创造出不仅满足国内需求而且能够提高全球竞争力的解决方案，”

这是自1月20日DeepSeek发布R1模型震撼AI圈以来，DeepSeek首次发布的技术动态。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI大模型

AI大模型

+关注

关注
0

文章
394

浏览量
942
DeepSeek

DeepSeek

+关注

关注
2

文章
824

浏览量
2812

搜索历史

DeepSeek发表重磅论文！推出NSA技术，让AI模型降本增效

评论