0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

cosFormer:重新思考注意力机制中的Softmax

深度学习自然语言处理 来源:我爱计算机视觉 作者:多模态研究组 - 商 2022-03-30 16:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

导读:Transformer在自然语言处理、计算机视觉音频处理方面取得了巨大成功。作为其核心组成部分之一,Softmax Attention模块能够捕捉长距离的依赖关系,但由于Softmax算子关于序列长度的二次空间和时间复杂性,使其很难扩展。

针对这点,研究者提出利用核方法以及稀疏注意力机制的方法来近似Softmax算子,从而降低时间空间复杂度。但是,由于误差的存在,效果往往不尽如人意。

商汤多模态研究组认为,近似操作本身存在的误差使得其效果很难超越Softmax Attention。我们的观点是,与其近似Softmax,不如设计一种方式代替Softmax,并且同时降低时间空间复杂度。

因此,本文提出了名为cosFormer的方法,在时间空间复杂度关于序列长度为线性复杂度的同时,其性能接近或者超越Softmax Attention,并在LRA benchmark上取得SOTA结果。我们的设计核心理念基于两点,首先是注意力矩阵的非负性,其次是对局部注意力的放大(非极大值抑制)。

本文主要介绍已收录于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

06f3c082-afe8-11ec-aa7f-dac502259ad0.jpg

070b788a-afe8-11ec-aa7f-dac502259ad0.png

Part 1

背景

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. Softmax Attention

为了引出我们的方法,对Softmax Attention的计算方式进行一定的推广:

073c17f6-afe8-11ec-aa7f-dac502259ad0.png

其中表示相似度计算函数,如果,上式即变为Softmax Attention(不考虑除以的缩放操作)。注意到计算的时间复杂度为,的时间复杂度为,所以总时间复杂度为,即关于序列长度是二次的。

2. 线性 Attention

通过分析我们发现,性能瓶颈的主要原因是操作,如果相似度函数可以表示为:

0750d6dc-afe8-11ec-aa7f-dac502259ad0.png

那么:

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

根据矩阵运算的结合律:

077434e2-afe8-11ec-aa7f-dac502259ad0.png

上式可以变换为(编者修正:下方公式未变换,请参照论文):

07600c4c-afe8-11ec-aa7f-dac502259ad0.png

经过计算后可以得到该方法的时间复杂度为,即关于序列长度是一次的。

Softmax Attention和线性Attention的计算方式可以用下图概括:

07a1f260-afe8-11ec-aa7f-dac502259ad0.png

所以接下来将介绍的选择,以及核心的reweighting操作。

3. Softmax 的两大性质

我们经过分析以及实验,归纳出Softmax Attention中比较重要的性质,这两个性质可以指导我们的模型设计:

1. 注意力矩阵的非负性

2. 局部注意力的放大(非极大值抑制)

对于第一点,我们有如下实验进行验证(模型结构为RoBERTa):

07bdb856-afe8-11ec-aa7f-dac502259ad0.png

这里Loss表示验证集损失(越低越好),其余指标均为准确率(越高越好)。可以看到,当保证了注意力矩阵的非负性之后,可以达到较好的效果。基于该实验,我们选择为ReLU函数。

对于第二点,我们的方式是在注意力矩阵中引入先验locality信息,观察Softmax注意力矩阵,如下图所示,我们发现其注意力矩阵的权重在对角线附近很集中:

07ce07ce-afe8-11ec-aa7f-dac502259ad0.png

所以我们的方法需要在加了reweighting操作后也更加集中在对角线附近。注意并非所有的有类似权重的函数均适用,这个reweighting的函数需要跟前面的QK一样可以拆分成两个矩阵的乘法的形式。

至此,就可以引入我们的cosFormer了。

Part 2

cosFormer

0723e71c-afe8-11ec-aa7f-dac502259ad0.gif

1. 方法

我们的方法基于线性Attention,首先给出符号定义:

08068432-afe8-11ec-aa7f-dac502259ad0.png

根据之前的分析,我们选择了:

081836fa-afe8-11ec-aa7f-dac502259ad0.png

可得:

08299756-afe8-11ec-aa7f-dac502259ad0.png

为了进行reweighting操作,并且同时保证线性Attention的计算方式依然成立,我们选择了cos函数:

0846632c-afe8-11ec-aa7f-dac502259ad0.png

展开可得:

085b3eaa-afe8-11ec-aa7f-dac502259ad0.png

为了便于展示,我们把它记作:

0872566c-afe8-11ec-aa7f-dac502259ad0.png

最终得到:

088c78ee-afe8-11ec-aa7f-dac502259ad0.png

上式和线性Attention的计算方式一致,经过分析不难得出时间复杂度依然是。

2. 实验结果

我们在单向模型、双向模型以及LRA benchmark上测试了我们的方法,均取得了非常不错的效果。

单向语言模型,指标表示困惑度(越低越好):

08a330ac-afe8-11ec-aa7f-dac502259ad0.png

双向语言模型,指标表示准确率(越高越好):

08be1890-afe8-11ec-aa7f-dac502259ad0.png

LRA benchmark:

1)性能实验,指标表示准确率(越高越好):

08d4c996-afe8-11ec-aa7f-dac502259ad0.png

2)内存速度实验,指标表示速度(越高越好,如果内存溢出,则标记为叉):

08f4b97c-afe8-11ec-aa7f-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4406

    浏览量

    66850
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47457
  • Softmax
    +关注

    关注

    0

    文章

    9

    浏览量

    2780

原文标题:ICLR'22 | cosFormer:重新思考注意力机制中的Softmax

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自然场景下注意力如何耳周脑电可靠监测

    HUIYING自然听觉注意力概述听觉注意力是大脑在复杂听觉场景中选择相关信息、抑制无关信息的重要认知功能。传统研究多在实验室内使用笨重设备与人工刺激进行,限制了其生态效度。本研究采用语音包络跟踪、被
    的头像 发表于 12-05 18:03 258次阅读
    自然场景下<b class='flag-5'>注意力</b>如何耳周脑电可靠监测

    湘军,让算变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    教程来啦!LuatOS的消息通信机制详解及其应用场景

    在资源受限的嵌入式环境,LuatOS采用消息机制实现模块间解耦与高效通信。通过预定义消息名称(如“new_msg”),开发者可轻松构建响应式程序结构。接下来我们将深入剖析其实现原理与典型使用方法
    的头像 发表于 09-26 18:59 234次阅读
    教程来啦!LuatOS<b class='flag-5'>中</b>的消息通信<b class='flag-5'>机制</b>详解及其应用场景

    小白学大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架构注意力机制的计算复杂度与序列长度(即文本长度)呈平方关系()。这意味着,当模型需要处理更长的文本时(比如从几千个词到几万个词),计算时间和所需的内存会急剧增加。最开始
    的头像 发表于 09-10 09:28 4335次阅读
    小白学大模型:大模型加速的秘密 FlashAttention 1/2/3

    【「DeepSeek 核心技术揭秘」阅读体验】+看视频+看书籍+国产开源大模型DeepSeekV3技术详解--1

    大小的潜在向量 (Latent Vector) c_t 。同时,为了保证对近期上下文的精确感知,它依然会实时计算当前 token 的 K 和 V。 最终,注意力机制的计算将同时作用于“压缩的历史
    发表于 08-23 15:20

    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE),其显著提升了大语言模型 (LLM) 的推理效率。
    的头像 发表于 08-12 15:19 3823次阅读
    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    一、模型架构 在阅读第三章关于 DeepSeek 的模型架构部分时,我仿佛打开了一扇通往人工智能核心构造的大门。从架构图中,能清晰看到 Transformer 块、前馈神经网络、注意力机制等模块
    发表于 07-20 15:07

    Samtec小课堂| 电气设计电缆组件的注意事项

    前言 选择电缆组件时的关键注意事项有哪些?事实上,这个问题的答案非常宽泛。 在下文中,我们尝试选择了几个主要方面并详细讨论:skew性能、电缆管理和设计灵活性,希望可以为大家带来更多思考~ 首先,请
    发表于 07-02 17:19 1347次阅读
    Samtec小课堂| 电气设计<b class='flag-5'>中</b>电缆组件的<b class='flag-5'>注意</b>事项

    经颅电刺激适应症之tDCS治疗注意力缺陷ADHD

    ADHD是常见神经行为障碍,症状包括注意力不集中、多动和冲动,儿童和青少年患病率为5%-7.2%,成人在1%-10%,男孩多于女孩,成年后部分症状会持续,引发多种并发症,给个人、家庭和社会带来
    的头像 发表于 04-22 19:49 143次阅读
    经颅电刺激适应症之tDCS治疗<b class='flag-5'>注意力</b>缺陷ADHD

    LED显示屏:点亮商业未来的璀璨之光

    LED显示屏不仅是展示工具,更是连接品牌与消费者的现代桥梁。在注意力经济时代,投资LED显示屏就是投资于企业的可见度和影响。让我们携手,用LED技术点亮您的商业未来,在竞争赢得先机。
    的头像 发表于 04-16 15:25 735次阅读
    LED显示屏:点亮商业未来的璀璨之光

    变频器重新设置参数应注意什么?

    进行重新设置参数时,我们必须格外谨慎,以确保设备能够高效、稳定地运行。以下,我们将详细探讨变频器重新设置参数时应注意的关键点。 一、了解变频器与参数基础 1. 熟悉变频器型号与功能:    ● 不同型号的变频器具有不同
    的头像 发表于 03-17 16:00 1112次阅读
    变频器<b class='flag-5'>重新</b>设置参数应<b class='flag-5'>注意</b>什么?

    《AI Agent 应用与项目实战》阅读心得2——客服机器人、AutoGen框架 、生成式代理

    了分层存储架构,将记忆分为短期记忆、工作记忆和长期记忆三个层次,通过注意力机制和遗忘机制来管理记忆的存储和调用。反思机制的创新之处在于引入了元认知模型,使代理能够对自身的行为和决策进行
    发表于 02-25 21:59

    DeepSeek推出NSA机制,加速长上下文训练与推理

    近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度一致,并且具备本机可训练
    的头像 发表于 02-19 14:01 927次阅读

    如何使用MATLAB构建Transformer模型

    LanguageProcessing, NLP)的序列到序列任务,如机器翻译。Transformer 通过引入自注意力机制使得处理长距离依赖关系时变得高效。因此 Vaswani 等人的论文强调“
    的头像 发表于 02-06 10:21 5750次阅读
    如何使用MATLAB构建Transformer模型