0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek推出NSA机制,加速长上下文训练与推理

科技绿洲 来源:网络整理 作者:网络整理 2025-02-19 14:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度一致,并且具备本机可训练的特性,专为超快速的长上下文训练和推理而设计。

NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了预训练成本,同时保持了卓越的性能表现。这一机制在确保效率的同时,并未牺牲模型的准确性或功能。

在广泛的基准测试、涉及长上下文的任务以及基于指令的推理场景中,NSA的表现与采用完全注意力机制的模型相当,甚至在部分测试中展现出更优的性能。这一成果不仅验证了NSA机制的有效性和实用性,也展示了DeepSeek在人工智能领域的深厚技术积累和创新能力。

DeepSeek推出的NSA机制,不仅为长上下文训练和推理提供了全新的解决方案,也为人工智能领域的发展注入了新的活力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50325

    浏览量

    266967
  • NSA
    NSA
    +关注

    关注

    4

    文章

    109

    浏览量

    19481
  • DeepSeek
    +关注

    关注

    2

    文章

    839

    浏览量

    3406
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    安信可AI语音模组支持MCP模型上下文协议

    安信可 PalChat 系列(V1/V2)支持 MCP(模型上下文协议),工程师只需写几十行 C 代码,就能让 AI 模型直接控制硬件设备。V1 基于 Ai-WB2-12F,适合快速验证;V2
    的头像 发表于 04-15 09:54 463次阅读

    NVIDIA推出BlueField-4 STX存储架构

    NVIDIA 今日宣布推出 NVIDIA BlueField-4® STX 模块化参考架构,该架构可助力企业、云计算及 AI 服务商轻松部署加速存储基础设施,以满足代理式 AI 所需的长上下文
    的头像 发表于 03-18 14:40 281次阅读

    NVIDIA BlueField-4为推理上下文记忆存储平台提供强大支持

    随着代理式 AI 工作流将上下文窗口扩展到数百万个 token,并将模型规模扩展到数百万亿个参数,AI 原生企业正面临着越来越多的扩展挑战。这些系统目前依赖于智能体长期记忆来存储跨多轮、工具和会话持续保存的上下文,以便智能体能够基于先前的
    的头像 发表于 02-02 10:29 1297次阅读
    NVIDIA BlueField-4为<b class='flag-5'>推理上下文</b>记忆存储平台提供强大支持

    NVIDIA DGX SuperPOD为Rubin平台横向扩展提供蓝图

    NVIDIA DGX Rubin 系统整合了 NVIDIA 在计算、网络和软件领域的最新突破,将推理 token 成本降至 NVIDIA Blackwell 平台的十分之一,可加速推理训练
    的头像 发表于 01-14 09:14 846次阅读

    深入解析NVIDIA Nemotron 3系列开放模型

    这一全新开放模型系列引入了开放的混合 Mamba-Transformer MoE 架构,使多智能体系统能够进行快速长上下文推理
    的头像 发表于 12-24 10:34 4313次阅读
    深入解析NVIDIA Nemotron 3系列开放模型

    奇异摩尔入选2025中国科创好公司半导体榜单

    随着国产大模型接连取得突破,AI产业的焦点正迅速转移。就在本月,DeepSeek正式发布V3.2和其高算力版本Speciale,主力模型V3.2强化通用Agent与长上下文处理能力,而
    的头像 发表于 12-16 14:22 899次阅读

    大语言模型如何处理上下文窗口中的输入

    本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
    的头像 发表于 12-03 13:48 762次阅读
    大语言模型如何处理<b class='flag-5'>上下文</b>窗口中的输入

    请问riscv中断还需要软件保存上下文和恢复吗?

    以下是我拷贝的文档里的说明,这个中断处理还需要软件来写上下文保存和恢复,在使用ARM核的单片机都不需要考虑这些的,使用过的小伙伴能解答吗? 3.8. 进出中断的上下文保存和恢复 RISC-V架构
    发表于 10-20 09:56

    英特尔Gaudi 2E AI加速器为DeepSeek-V3.1提供加速支持

    英特尔® Gaudi 2EAI加速器现已为DeepSeek-V3.1提供深度优化支持。凭借出色的性能和成本效益,英特尔Gaudi 2E以更低的投入、更高的效率,实现从模型训练的深度突破到推理
    的头像 发表于 08-26 19:18 3310次阅读
    英特尔Gaudi 2E AI<b class='flag-5'>加速</b>器为<b class='flag-5'>DeepSeek</b>-V3.1提供<b class='flag-5'>加速</b>支持

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

    缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,实现高吞吐、低时延的推理体验,降低每Token推理
    发表于 08-13 09:45 5721次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    机制和多 token 预测的详细解读,帮助读者全面了解 DeepSeek-V3 在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8 混合精度训练
    发表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    鸿蒙NEXT-API19获取上下文,在class中和ability中获取上下文,API迁移示例-解决无法在EntryAbility中无法使用最新版

    摘要:随着鸿蒙系统API升级至16版本(modelVersion5.1.1),多项API已废弃。获取上下文需使用UIContext,具体方法包括:在组件中使用getUIContext(),在类中使
    的头像 发表于 07-01 10:57 901次阅读
    鸿蒙NEXT-API19获取<b class='flag-5'>上下文</b>,在class中和ability中获取<b class='flag-5'>上下文</b>,API迁移示例-解决无法在EntryAbility中无法使用最新版

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    (MLA)机制和多 token 预测的详细解读,帮助读者全面了解 DeepSeek-V3 在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8 混合精度训练
    发表于 06-09 14:38