0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MIT的SpAtten架构将注意力机制用于高级NLP

星星科技指导员 来源:嵌入式计算设计 作者:Saumitra Jagdale 2022-07-01 10:43 次阅读

处理人工生成的文本数据一直是一项重要但具有挑战性的任务,因为人类语言对于机器理解往往具有自然的鲁棒性。

尽管如此,仍然有许多高效的 NLP 模型,例如 Google 的 BERT 和 Open AI 的 GPT2,它们的功能是通过高级处理和计算来理解这些数据。这些模型在搜索引擎中找到了它们的应用,因为搜索命令需要与相关的来源和页面匹配,而与术语的性质无关。

麻省理工学院的 SpAtten 学习系统通过其优化的软件硬件设计专注于高效的搜索预测,从而以更少的计算能力进行高级自然语言处理。因此,SpAtten 系统的架构取代了高端 CPUGPU 的组合,它们共同输出类似于 MIT 的 SpAtten 学习系统的效率。

SpAtten 学习系统中的注意力机制

当数据量大时,注意力机制在自然语言处理中起着至关重要的作用。特别是在文本数据包含对建模可能不是很重要的各种特征的情况下。这可能会浪费系统的整体计算。因此,神经网络输入层中的注意力机制从文本数据中动态提取相关特征,可以优化算法在广泛数据集上的处理。

SpAtten 使用注意力机制算法去除在 NLP 方面权重较小的单词。因此,它有选择地从输入的文本数据中挑选出相关的关键词。这避免了对不必要的文本数据的实时处理,从而节省了系统的整体计算时间。然而,这种处理提供了效率和准确性,但它的代价是设计良好的硬件与这种复杂的算法兼容。

因此,麻省理工学院一直致力于其新 SpAtten 学习系统的软件和硬件方面。设计的硬件致力于优化这些复杂的算法,以减少处理和内存访问。这些技术在用于文本数据时克服了构建具有高效处理速度和能力的系统的挑战。因此,硬件“以更少的计算能力实现了精简的 NLP”。

SpAtten 架构的优化技术

循环和卷积神经网络被认为是深度学习模型的理想选择,但麻省理工学院关于“SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning”的研究论文让我们注意到注意力机制可以比这些网络表现更好,如前一部分所述。

该架构支持级联修剪技术,该技术对令牌​​和头进行操作,而不是传统方法中使用的权重。正如术语“剪枝”暗示移除令牌一样,一旦从层中移除令牌/头,那么它将永远不会在后续层中被处理,因为它被永久“剪枝”或从系统中移除。这就是为什么优化数据的实时处理并且系统适应输入实例的原因。

该系统使用渐进式量化技术来减少 DRAM 访问。仅当 MSB 不足以执行量化时,该技术才对 LSB 起作用。然而,这是以计算为代价的,但内存访问显着减少。因此,它使注意力层动态和自适应以优化 DRAM 访问。该系统还带有内置的 SRAM,用于存储可在众多查询中重复使用的已删除令牌。

通用的 AI 加速器、GPU、TPU 和 NPU 即使支持高计算能力也无法实现这些技术,因为这些组件只能增强现有的传统神经网络,包括 CNN 和 RNN。因此,麻省理工学院设计了专门的硬件来实现这些优化算法。

SpAtten 学习系统的分析

SpAtten 硬件架构的模拟揭示了其与竞争处理器相比的高处理能力。麻省理工学院表示:“SpAtten 的运行速度比第二好的竞争对手(TITAN Xp GPU)快 100 倍以上。此外,SpAtten 的能源效率是其竞争对手的 1000 多倍,这表明 SpAtten 可以帮助减少 NLP 的大量电力需求。”

Google 的 BERT 和 Open AI 的 GPT2 模型也使用类似的注意力机制,但是复杂的判别和生成技术会导致延迟和延迟。MIT 的 SpAtten 是 NLP 算法和专用于注意力机制的专用硬件的组合。这种组合控制了标准 CPU 在 GPT-2 或 BERT 上运行时消耗的高功耗。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18261

    浏览量

    222087
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4415

    浏览量

    126650
  • 深度学习
    +关注

    关注

    73

    文章

    5236

    浏览量

    119899
收藏 人收藏

    评论

    相关推荐

    Transformers的功能概述

    近年来,我们听说了很多关于Transformers的事情,并且在过去的几年里,它们已经在NLP领域取得了巨大成功。Transformers是一种使用注意力机制(Attention)显著改进深度学习
    的头像 发表于 01-23 10:15 223次阅读
    Transformers的功能概述

    全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

    本文介绍了一项近似注意力机制新研究,耶鲁大学、谷歌研究院等机构提出了 HyperAttention,使 ChatGLM2 在 32k 上下文长度上的推理时间快了 50%。 Transformer
    的头像 发表于 11-20 09:15 297次阅读
    全新近似<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>HyperAttention:对长上下文友好、LLM推理提速50%

    详细介绍​注意力机制中的掩码

    注意力机制的掩码允许我们发送不同长度的批次数据一次性的发送到transformer中。在代码中是通过将所有序列填充到相同的长度,然后使用“attention_mask”张量来识别哪些令牌是填充的来做到这一点,本文将详细介绍这个掩码的原理和
    的头像 发表于 07-17 16:46 458次阅读
    详细介绍​<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>中的掩码

    图解transformer中的自注意力机制

    在整个注意力过程中,模型会学习了三个权重:查询、键和值。查询、键和值的思想来源于信息检索系统。所以我们先理解数据库查询的思想。
    的头像 发表于 06-29 17:06 786次阅读
    图解transformer中的自<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>

    PyTorch教程-16.5。自然语言推理:使用注意力

    )提出用注意力机制解决自然语言推理,并将其称为“可分解注意力模型”。这导致模型没有循环层或卷积层,在 SNLI 数据集上以更少的参数获得了当时最好的结果。在本节中,我们将描述和实现这种用于
    的头像 发表于 06-05 15:44 342次阅读
    PyTorch教程-16.5。自然语言推理:使用<b class='flag-5'>注意力</b>

    PyTorch教程-11.5。多头注意力

    与较长范围)在一个序列中。因此,这可能是有益的 允许我们的注意力机制联合使用查询、键和值的不同表示子空间。 为此,可以使用以下方式转换查询、键和值,而不是执行单个注意力池h独立学习线性投影。那么
    的头像 发表于 06-05 15:44 367次阅读
    PyTorch教程-11.5。多头<b class='flag-5'>注意力</b>

    PyTorch教程-11.6. 自注意力和位置编码

    在 SageMaker Studio Lab 中打开笔记本 在深度学习中,我们经常使用 CNN 或 RNN 对序列进行编码。现在考虑到注意力机制,想象一下将一系列标记输入注意力机制
    的头像 发表于 06-05 15:44 1001次阅读
    PyTorch教程-11.6. 自<b class='flag-5'>注意力</b>和位置编码

    PyTorch教程-11.4. Bahdanau 注意力机制

    11.4. Bahdanau 注意力机制¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab
    的头像 发表于 06-05 15:44 562次阅读
    PyTorch教程-11.4. Bahdanau <b class='flag-5'>注意力</b><b class='flag-5'>机制</b>

    PyTorch教程11.4之Bahdanau注意力机制

    电子发烧友网站提供《PyTorch教程11.4之Bahdanau注意力机制.pdf》资料免费下载
    发表于 06-05 15:11 0次下载
    PyTorch教程11.4之Bahdanau<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>

    PyTorch教程11.6之自注意力和位置编码

    电子发烧友网站提供《PyTorch教程11.6之自注意力和位置编码.pdf》资料免费下载
    发表于 06-05 15:05 0次下载
    PyTorch教程11.6之自<b class='flag-5'>注意力</b>和位置编码

    PyTorch教程11.5之多头注意力

    电子发烧友网站提供《PyTorch教程11.5之多头注意力.pdf》资料免费下载
    发表于 06-05 15:04 0次下载
    PyTorch教程11.5之多头<b class='flag-5'>注意力</b>

    基于YOLOv5s基础上实现五种视觉注意力模块的改进

      视觉注意力机制的各种模块是个好东西,即插即用,可以添加到主流的对象检测、实例分割等模型的backbone与neck中,实现轻松涨点,本文使用OID数据集的2000多张数据,基于YOLOv5s
    的头像 发表于 06-02 14:52 940次阅读
    基于YOLOv5s基础上实现五种视觉<b class='flag-5'>注意力</b>模块的改进

    一种新的深度注意力算法

    。本文首先回顾了相关基础知识,然后介绍了深度残差收缩网络的动机和具体实现,希望对大家有所帮助。 1.前言 深度残差收缩网络主要建立在三个部分的基础之上:深度残差网络、软阈值函数和注意力机制。 1.1 残差神
    发表于 05-24 16:28 0次下载
    一种新的深度<b class='flag-5'>注意力</b>算法

    计算机视觉中的注意力机制

    计算机视觉中的注意力机制 卷积神经网络中常用的Attention 参考 注意力机制简介与分类 注意力
    发表于 05-22 09:46 0次下载
    计算机视觉中的<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>

    详解五种即插即用的视觉注意力模块

    SE注意力模块的全称是Squeeze-and-Excitation block、其中Squeeze实现全局信息嵌入、Excitation实现自适应权重矫正,合起来就是SE注意力模块。
    的头像 发表于 05-18 10:23 1878次阅读
    详解五种即插即用的视觉<b class='flag-5'>注意力</b>模块