0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek发表重磅论文!推出NSA技术,让AI模型降本增效

章鹰观察 来源:电子发烧友原创 作者:章鹰 2025-02-19 10:22 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

(电子发烧友报道 文/章鹰)2月18日,在马斯克的xAI公司发布了Grok3大模型后,中国公司深度探索公司推出了用于超快速长文本训练训练与推理的“原生稀疏注意力”(Native Sparse Attention,简称 NSA)。

DeepSeek在arXiv上上传了一篇介绍 NSA 的论文。根据 arXiv 网站上发布的论文摘要显示,“我们提出了NSA,这是一种原生可训练的稀疏注意力机制,它将算法创新与硬件对齐的优化相结合,以实现高效的长上下文建模。”

论文称,NSA 在通用基准检验、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

实验显示,NSA 不仅在通用任务和长上下文任务中表现出色,还在例如链式推理等复杂任务中展现强大的潜力,且推理速度加快。

在通用基准检验、长文本处理以及基于指令的推理任务中,NSA 的表现均能达到甚至超越传统全注意力(Full Attention)模型的水平,以性价比极高的方式,罕见地在训练阶段应用稀疏性,在训练推理场景中显著提升速度,特别是在译码阶段实现高达 11.6 倍的提升。

透过高效的长序列处理能力,NSA 使模型能够直接处理整本书、代码库或多轮对话(如千轮客服场景),扩展大语言模型在文文件分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro 已展示长上下文的潜力,NSA 能进一步降低这类模型的训练与推理成本。

在这篇名题为「原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek 创始人梁文锋也是共同作者。

中国人工智能软件巨头商汤科技智能产业研究院前院长田锋表示,随着全球人工智能竞争持续升温,不同的公司在不同领域展示了竞争优势。据田锋介绍,DeepSeek 开发的资源高效的开源模型在数学推理和软件工程任务方面表现出色,而 OpenAI 的 o1 在一般知识和解决问题方面表现更佳。

我们看到,来自中国人工智能公司还展示了各种优势,包括竞争性能和成本效益。田锋强调:“通过利用替代数据源、开发自主技术以及促进国内技术生态系统内的合作,DeepSeek 和其他中国人工智能公司能够创造出不仅满足国内需求而且能够提高全球竞争力的解决方案,”

这是自1月20日DeepSeek发布R1模型震撼AI圈以来,DeepSeek首次发布的技术动态。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI大模型
    +关注

    关注

    0

    文章

    394

    浏览量

    942
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2812
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    停车场照明焕新记:晶映节能改造的降本增效实践​

    晶映节能停车场照明改造以技术创新破传统困境,通过智能感应与数字化管理,实现电费大降、维护成本锐减,同步提升安全与用户体验,彰显降本增效深层价值。
    的头像 发表于 08-21 16:18 577次阅读
    停车场照明焕新记:晶映节能改造的<b class='flag-5'>降本增效</b>实践​

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    -V3的版本区别, 深入了解Deepseek技术细节,快速掌握大模型领域的前沿知识,洞察对行业应用的影响,提升自身在该领域的专业水平和竞争力。 本书流程非常清晰,先认识Deepseek
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    量化 细粒度量化的讲解,我接触到 AI 模型在精度和效率间寻求平衡的关键技术。不同量化方法,如 per tensor、per token 等,针对数据不同部分采用精细策略,就像给
    发表于 07-20 15:07

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    实现三重超越;而对开源生态、技术趋势的前瞻探讨,则印证了DeepSeek“用开源击穿技术壁垒”的初心。 当DeepSeek-R1以60TPS的生成速度刷新认知,当蒸馏
    发表于 07-17 11:59

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术DeepSeek 核心技术揭秘

    析和前瞻性的行业洞察,为技术人员、研究人员和大模型相关技术爱好者提供了宝贵的学习资料。 本书目录结构 第1章介绍 DeepSeek 的一系列技术
    发表于 06-09 14:38

    IBM探索AI驱动的降本增效新路径

    AI 驱动已成为企业降本增效的战略级引擎,其价值实现不在于技术本身,而在于与业务场景的深度融合。IBM 咨询提出的"战略规划+运营管理"双轨并行模式,突破传统单点优化的局限,构建
    的头像 发表于 05-22 15:29 767次阅读

    福田欧曼银河5助力物流运输行业降本增效

    在物流运输行业竞争日趋白热化的当下,每一分成本削减与效率提升都直接关乎用户的生存空间,而运输效率与运营效益已成为检验重卡性能的核心指标。面对行业降本增效的迫切需求,欧曼银河5精准锚定用户痛点,从动
    的头像 发表于 05-20 09:23 771次阅读

    PLC远程维护上下载,降本增效减少出差的利器

    PLC(可编程逻辑控制器)远程维护上下载技术已成为现代工业领域降本增效、减少出差的核心工具,尤其在工业4.0与物联网技术推动下,价值愈发凸显。对此,数之能提供PLC远程编程调试和远程上下载程序等
    的头像 发表于 05-19 11:17 404次阅读
    PLC远程维护上下载,<b class='flag-5'>降本增效</b>减少出差的利器

    Deepseek海思SD3403边缘计算AI产品系统

    的训练样本和训练 模型,具体商业价值和保密性,采用海思SD3403边缘计算AI服务器+多路安防监控IPC,差异化AI视频系统, 成本控制极具市场竞争力。 海思SD3403边缘计算
    发表于 04-28 11:05

    首创开源架构,天玑AI开发套件端侧AI模型接入得心应手

    的端侧部署,Token产生速度提升了40%,端侧大模型拥有更高的计算效率和推理性能,使端侧AI交互响应更及时,用户体验更贴心。 联发科还与vivo和全民K歌携手,借助天玑AI人声萃
    发表于 04-13 19:52

    RK3588开发板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作为国产AI大数据模型的代表,凭借其卓越的推理能力和高效的文本生成技术,在全球人工智能领域引发广泛关注。DeepSeek-R
    发表于 02-27 16:45

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    AI 技术日新月异的当下,新的模型与突破不断涌现。近期,DeepSeek(深度求索)模型以其卓越性能和亲民成本,迅速在全球开发者圈子里
    发表于 02-14 17:42

    DeepSeek模型受行业热捧,加速AI应用迭代

    趋势反映出DeepSeek模型AI领域的强大影响力。通过接入DeepSeek,这些机构能够获取更先进的AI
    的头像 发表于 02-14 14:14 1035次阅读

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    DeepSeek-V3 和 DeepSeek-R1 是深度求索公司(DeepSeek推出的两个不同定位的大模型,其核心差异主要体现在目标场
    发表于 02-14 02:08

    deepin UOS AI接入DeepSeek-R1模型

    DeepSeek-R1 模型自发布以来吸引了众多用户关注,为了 deepin 用户更好地体验这一前沿技术,UOS AI 现已适配接入
    的头像 发表于 02-08 09:52 2214次阅读