0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepSeek推出NSA机制,加速长上下文训练与推理

科技绿洲 来源:网络整理 作者:网络整理 2025-02-19 14:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度一致,并且具备本机可训练的特性,专为超快速的长上下文训练和推理而设计。

NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了预训练成本,同时保持了卓越的性能表现。这一机制在确保效率的同时,并未牺牲模型的准确性或功能。

在广泛的基准测试、涉及长上下文的任务以及基于指令的推理场景中,NSA的表现与采用完全注意力机制的模型相当,甚至在部分测试中展现出更优的性能。这一成果不仅验证了NSA机制的有效性和实用性,也展示了DeepSeek在人工智能领域的深厚技术积累和创新能力。

DeepSeek推出的NSA机制,不仅为长上下文训练和推理提供了全新的解决方案,也为人工智能领域的发展注入了新的活力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261575
  • NSA
    NSA
    +关注

    关注

    4

    文章

    108

    浏览量

    19098
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2815
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大语言模型如何处理上下文窗口中的输入

    本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
    的头像 发表于 12-03 13:48 199次阅读
    大语言模型如何处理<b class='flag-5'>上下文</b>窗口中的输入

    请问riscv中断还需要软件保存上下文和恢复吗?

    以下是我拷贝的文档里的说明,这个中断处理还需要软件来写上下文保存和恢复,在使用ARM核的单片机都不需要考虑这些的,使用过的小伙伴能解答吗? 3.8. 进出中断的上下文保存和恢复 RISC-V架构
    发表于 10-20 09:56

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    讲解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架构、训练框架、推理阶段优化、后训练优化等关键技术 第四章关于
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    机制和多 token 预测的详细解读,帮助读者全面了解 DeepSeek-V3 在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8 混合精度训练
    发表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    鸿蒙NEXT-API19获取上下文,在class中和ability中获取上下文,API迁移示例-解决无法在EntryAbility中无法使用最新版

    摘要:随着鸿蒙系统API升级至16版本(modelVersion5.1.1),多项API已废弃。获取上下文需使用UIContext,具体方法包括:在组件中使用getUIContext(),在类中使
    的头像 发表于 07-01 10:57 598次阅读
    鸿蒙NEXT-API19获取<b class='flag-5'>上下文</b>,在class中和ability中获取<b class='flag-5'>上下文</b>,API迁移示例-解决无法在EntryAbility中无法使用最新版

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    (MLA)机制和多 token 预测的详细解读,帮助读者全面了解 DeepSeek-V3 在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8 混合精度训练
    发表于 06-09 14:38

    S32K在AUTOSAR中使用CAT1 ISR,是否需要执行上下文切换?

    如果我们在 AUTOSAR 中使用 CAT1 ISR,是否需要执行上下文切换?另外,是否需要返回指令才能跳回到作系统?您有没有带有 CAT1 ISR 的 S32K3x4 微控制器的示例?
    发表于 03-27 07:34

    为什么深度学习中的Frame per Second高于OpenVINO™演示推理脚本?

    在 DL Workbench 上使用 Microsoft 通用对象上下文 (MS COCO) 数据集运行 YOLOv4 对象检测模型,并获得 50 - 60 FPS。 OpenVINO™演示推理脚本运行,并获得更高的 FPS。
    发表于 03-06 07:27

    壁仞科技支持DeepSeek-V3满血版训练推理

    DeepSeek在开源周开源了部分关键模块的代码及推理系统参考架构,再次引发行业震动,但目前尚未开源DeepSeek-V3 满血版完整训练代码。壁仞科技凭借八大自主创新技术,实现
    的头像 发表于 03-04 14:01 1923次阅读

    北京大学两部 DeepSeek 秘籍新出炉!(附全集下载)

    和生成能力、世界知识能力,以及一定的推理能力。 相对应而言,其劣势便在于 AI 幻觉、有限的知识库及上下文窗口限制。 了解完原理,我们也就能让这些聊天机器人更好地为我所用。 二、拥抱 AIGC 的未来
    发表于 02-27 17:57

    让大模型训练更高效,奇异摩尔用互联创新方案定义下一代AI计算

    训练成本,使得企业能够以低成本实现高性能AI大模型的训练;在推理端,DeepSeek加速了AI应用从
    的头像 发表于 02-18 09:19 1918次阅读
    让大模型<b class='flag-5'>训练</b>更高效,奇异摩尔用互联创新方案定义下一代AI计算

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    ) 扩展上下文+结构化推理(支持更长复杂输入) 响应控制 通用流畅性优先 强化分步解释与中间过程可解释性 3. 技术架构差异 技术点 DeepSeek-V3 DeepSeek-R1
    发表于 02-14 02:08

    昆仑芯率先完成Deepseek训练推理全版本适配

    本文是昆仑芯适配DeepSeek系列推文第一篇,将于近期分别推出在昆仑芯P800上进行DeepSeek-V3/R1推理训练的深度文章,干货
    的头像 发表于 02-06 15:13 2275次阅读
    昆仑芯率先完成<b class='flag-5'>Deepseek</b><b class='flag-5'>训练</b><b class='flag-5'>推理</b>全版本适配

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    的应用。MAML算法通过二阶优化找到对任务变化敏感的模型参数,实现了快速适应。上下文学习则引入了注意力机制,使模型能够根据当前场景动态调整行为策略。在预训练-微调范式中,我们要注意任务表示的重要性:好的表示
    发表于 12-24 15:03