0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MIT的SpAtten架构将注意力机制用于高级NLP

星星科技指导员 来源:嵌入式计算设计 作者:Saumitra Jagdale 2022-07-10 10:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

尽管如此,仍然有许多高效的 NLP 模型,例如 Google 的 BERT 和 Open AI 的 GPT2,它们的功能是通过高级处理和计算来理解这些数据。这些模型在搜索引擎中找到了它们的应用,因为搜索命令需要与相关的来源和页面匹配,而与术语的性质无关。

麻省理工学院的 SpAtten 学习系统通过其优化的软件硬件设计专注于高效的搜索预测,从而以更少的计算能力进行高级自然语言处理。因此,SpAtten 系统的架构取代了高端 CPUGPU 的组合,它们共同输出类似于 MIT 的 SpAtten 学习系统的效率。

SpAtten 学习系统中的注意力机制

当数据量大时,注意力机制在自然语言处理中起着至关重要的作用。特别是在文本数据包含对建模可能不是很重要的各种特征的情况下。这可能会浪费系统的整体计算。因此,神经网络输入层中的注意力机制从文本数据中动态提取相关特征,可以优化算法在广泛数据集上的处理。

SpAtten 使用注意力机制算法去除在 NLP 方面权重较小的单词。因此,它有选择地从输入的文本数据中挑选出相关的关键词。这避免了对不必要的文本数据的实时处理,从而节省了系统的整体计算时间。然而,这种处理提供了效率和准确性,但它的代价是设计良好的硬件与这种复杂的算法兼容。

因此,麻省理工学院一直致力于其新 SpAtten 学习系统的软件和硬件方面。设计的硬件致力于优化这些复杂的算法,以减少处理和内存访问。这些技术在用于文本数据时克服了构建具有高效处理速度和能力的系统的挑战。因此,硬件“以更少的计算能力实现了精简的 NLP”。

SpAtten 架构的优化技术

循环和卷积神经网络被认为是深度学习模型的理想选择,但麻省理工学院关于“SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning”的研究论文让我们注意到注意力机制可以比这些网络表现更好,如前一部分所述。

该架构支持级联修剪技术,该技术对令牌​​和头进行操作,而不是传统方法中使用的权重。正如术语“剪枝”暗示移除令牌一样,一旦从层中移除令牌/头,那么它将永远不会在后续层中被处理,因为它被永久“剪枝”或从系统中移除。这就是为什么优化数据的实时处理并且系统适应输入实例的原因。

该系统使用渐进式量化技术来减少 DRAM 访问。仅当 MSB 不足以执行量化时,该技术才对 LSB 起作用。然而,这是以计算为代价的,但内存访问显着减少。因此,它使注意力层动态和自适应以优化 DRAM 访问。该系统还带有内置的 SRAM,用于存储可在众多查询中重复使用的已删除令牌。

通用的 AI 加速器、GPU、TPU 和 NPU 即使支持高计算能力也无法实现这些技术,因为这些组件只能增强现有的传统神经网络,包括 CNN 和 RNN。因此,麻省理工学院设计了专门的硬件来实现这些优化算法。

SpAtten 学习系统的分析

SpAtten 硬件架构的模拟揭示了其与竞争处理器相比的高处理能力。麻省理工学院表示:“SpAtten 的运行速度比第二好的竞争对手(TITAN Xp GPU)快 100 倍以上。此外,SpAtten 的能源效率是其竞争对手的 1000 多倍,这表明 SpAtten 可以帮助减少 NLP 的大量电力需求。”

Google 的 BERT 和 Open AI 的 GPT2 模型也使用类似的注意力机制,但是复杂的判别和生成技术会导致延迟和延迟。MIT 的 SpAtten 是 NLP 算法和专用于注意力机制的专用硬件的组合。这种组合控制了标准 CPU 在 GPT-2 或 BERT 上运行时消耗的高功耗。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20332

    浏览量

    254958
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11327

    浏览量

    225888
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136069
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    全面掌握ComfyUI系统教程|94节从入门到进阶实战清单

    则能辅助保留主体的轮廓细节。更重要的是,通过 IP-Adapter 节点,系统可以生成的背景图像作为参考输入,提取其光影特征,并通过交叉注意力机制注入到生成过程中,引导模型自动调整主体的光照与色调
    发表于 03-29 16:17

    算法工程师需要具备哪些技能?

    ResNet、VGG)。RNN/LSTM:序列建模(如时间序列预测、NLP中的文本生成)。Transformer:自注意力机制(如BERT、GPT)。 模型调优正则化:L1/L2正则化防止过拟合。超参数
    发表于 02-27 10:53

    Transformer 入门:从零理解 AI 大模型的核心原理

    字 │└─────────────────────────────────┘│ │↓│ │┌─────────────────────────────────┐│ ││2️⃣ Transformer Block(×12) ││← 理解语义关系 ││• 注意力机制││ ││
    发表于 02-10 16:33

    如何基于P300个性化调控ADHD?

    HUIYINGADHD机理概述注意力缺陷多动障碍(ADHD)的核心机理涉及注意力资源分配缺陷,这反映在事件相关电位(ERP)中P300成分的振幅降低上。ADHD患者(包括成人和儿童)在执行
    的头像 发表于 01-28 18:24 474次阅读
    如何基于P300个性化调控ADHD?

    自然场景下注意力如何耳周脑电可靠监测

    HUIYING自然听觉注意力概述听觉注意力是大脑在复杂听觉场景中选择相关信息、抑制无关信息的重要认知功能。传统研究多在实验室内使用笨重设备与人工刺激进行,限制了其生态效度。本研究采用语音包络跟踪、被
    的头像 发表于 12-05 18:03 4283次阅读
    自然场景下<b class='flag-5'>注意力</b>如何耳周脑电可靠监测

    湘军,让算变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    基于注意力机制的神经网络结构。该模型将计算资源集中在对任务真正具有价值的关注焦点,使用于大规模并行处理任务,专为在GPU上进行处理而设计。 Transformer 模型的核心思想是自注意
    发表于 09-12 17:30

    小白学大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架构中,注意力机制的计算复杂度与序列长度(即文本长度)呈平方关系()。这意味着,当模型需要处理更长的文本时(比如从几千个词到几万个词),计算时间和所需的内存会急剧增加。最开始
    的头像 发表于 09-10 09:28 4961次阅读
    小白学大模型:大模型加速的秘密 FlashAttention 1/2/3

    AI的核心操控:从算法到硬件的协同进化

    到顶层的应用算法,共同构成AI的“智能引擎”。 算法层:模型架构与训练控制 现代AI的核心是深度学习算法,其操控依赖于神经网络的结构设计和训练过程的精细化调控。例如,Transformer架构通过自注意力
    的头像 发表于 09-08 17:51 1159次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】+看视频+看书籍+国产开源大模型DeepSeekV3技术详解--1

    大小的潜在向量 (Latent Vector) c_t 中。同时,为了保证对近期上下文的精确感知,它依然会实时计算当前 token 的 K 和 V。 最终,注意力机制的计算将同时作用于“压缩的历史
    发表于 08-23 15:20

    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE),其显著提升了大语言模型 (LLM) 的推理效率。
    的头像 发表于 08-12 15:19 4498次阅读
    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    数智化时代企业IT基础架构何去何从

    随着AI迅猛发展,算、存、运力成了新战场,从拼资源到拼底座、拼架构,那怎样的基础架构能撑得起企业AI的全场景落地?一起来看企业如何用AI-Ready打开增长新局。
    的头像 发表于 08-06 11:20 1053次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    一、模型架构 在阅读第三章关于 DeepSeek 的模型架构部分时,我仿佛打开了一扇通往人工智能核心构造的大门。从架构图中,能清晰看到 Transformer 块、前馈神经网络、注意力
    发表于 07-20 15:07

    【「算芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    工作者身份的转变期),便对这项技术深深痴迷,但当时主流的RTX20系列,需要2080级别以上的才支持,鉴于个人实力,便目光放在了9系卡上,这也就是「算芯片 | 书中讲的pascal架构的第一代
    发表于 06-18 19:31

    伟创与麻省理工学院 (MIT) 就其全新的“新制造倡议”(INM) 达成战略合作

    行业巨擘+全球顶级学府  近日,伟创与 麻省理工学院  (MIT) 就其 全新的“新制造倡议”(INM) 达成战略合作 。作为INM行业联盟的 创始成员 ,伟创将在这一项目中与MIT
    的头像 发表于 06-10 09:30 1318次阅读