首页
技术

可编程逻辑

MEMS/传感技术

嵌入式技术

模拟技术

控制/MCU

处理器/DSP

存储技术

EMC/EMI设计

电源/新能源

测量仪表

制造/封装

RF/无线

接口/总线/驱动

EDA/IC设计

光电显示

连接器

PCB设计

LEDs

汽车电子

医疗电子

人工智能

可穿戴设备

军用/航空电子

工业控制

触控感测

智能电网

音视频及家电

通信网络

机器人

vr|ar|虚拟现实

安全设备/系统

移动通信

便携设备

物联网

区块链

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充电桩

氮化镓

BLDC

逆变器

5G

电机控制
资源

技术文库

新品速递

电路图

元器件知识

电子百科

最新技术文章

元器件搜索引擎
下载

在线工具

常用软件

电子书

datasheet
专栏

电子说

专栏
社区

论坛

问答

小组

技术专栏

社区之星

试用中心

HarmonyOS技术社区

2023电子工程师大会
研究院
活动

设计大赛

硬创大赛

社区活动

线下会议

在线研讨会

小测验
学院

直播

课程
视频
企业号
工具

datasheet查询

免费评测试用

技术子站

搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

cosFormer：重新思考注意力机制中的Softmax

导读：Transformer在自然语言处理、计算机视觉和音频处理方面取得了巨大成功。作为其核心组成部分之一，Softmax Attention模块能够捕捉长距离的依赖关系，但由于Softmax算子关于序列长度的二次空间和时间复杂性，使其很难扩展。

针对这点，研究者提出利用核方法以及稀疏注意力机制的方法来近似Softmax算子，从而降低时间空间复杂度。但是，由于误差的存在，效果往往不尽如人意。

商汤多模态研究组认为，近似操作本身存在的误差使得其效果很难超越Softmax Attention。我们的观点是，与其近似Softmax，不如设计一种方式代替Softmax，并且同时降低时间空间复杂度。

因此，本文提出了名为cosFormer的方法，在时间空间复杂度关于序列长度为线性复杂度的同时，其性能接近或者超越Softmax Attention，并在LRA benchmark上取得SOTA结果。我们的设计核心理念基于两点，首先是注意力矩阵的非负性，其次是对局部注意力的放大（非极大值抑制）。

本文主要介绍已收录于ICLR 2022的一篇文章 cosFormer : Rethinking Softmax in Attention。

Part 1

背景

1. Softmax Attention

为了引出我们的方法，对Softmax Attention的计算方式进行一定的推广：

其中表示相似度计算函数，如果，上式即变为Softmax Attention（不考虑除以的缩放操作）。注意到计算的时间复杂度为，的时间复杂度为，所以总时间复杂度为，即关于序列长度是二次的。

2. 线性 Attention

通过分析我们发现，性能瓶颈的主要原因是操作，如果相似度函数可以表示为：

那么：

根据矩阵运算的结合律：

上式可以变换为（编者修正：下方公式未变换，请参照论文）：

经过计算后可以得到该方法的时间复杂度为，即关于序列长度是一次的。

Softmax Attention和线性Attention的计算方式可以用下图概括：

所以接下来将介绍的选择，以及核心的reweighting操作。

3. Softmax 的两大性质

我们经过分析以及实验，归纳出Softmax Attention中比较重要的性质，这两个性质可以指导我们的模型设计：

1. 注意力矩阵的非负性

2. 局部注意力的放大（非极大值抑制）

对于第一点，我们有如下实验进行验证（模型结构为RoBERTa）：

这里Loss表示验证集损失（越低越好），其余指标均为准确率（越高越好）。可以看到，当保证了注意力矩阵的非负性之后，可以达到较好的效果。基于该实验，我们选择为ReLU函数。

对于第二点，我们的方式是在注意力矩阵中引入先验locality信息，观察Softmax注意力矩阵，如下图所示，我们发现其注意力矩阵的权重在对角线附近很集中：

所以我们的方法需要在加了reweighting操作后也更加集中在对角线附近。注意并非所有的有类似权重的函数均适用，这个reweighting的函数需要跟前面的QK一样可以拆分成两个矩阵的乘法的形式。

至此，就可以引入我们的cosFormer了。

Part 2

cosFormer

1. 方法

我们的方法基于线性Attention，首先给出符号定义：

根据之前的分析，我们选择了：

可得：

为了进行reweighting操作，并且同时保证线性Attention的计算方式依然成立，我们选择了cos函数：

展开可得：

为了便于展示，我们把它记作：

最终得到：

上式和线性Attention的计算方式一致，经过分析不难得出时间复杂度依然是。

2. 实验结果

我们在单向模型、双向模型以及LRA benchmark上测试了我们的方法，均取得了非常不错的效果。

单向语言模型，指标表示困惑度（越低越好）：

双向语言模型，指标表示准确率（越高越好）：

LRA benchmark：

1）性能实验，指标表示准确率（越高越好）：

2）内存速度实验，指标表示速度（越高越好，如果内存溢出，则标记为叉）：

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

函数

函数

+关注

关注
3

文章
4422

浏览量
67855
计算机视觉

计算机视觉

+关注

关注
9

文章
1715

浏览量
47724
Softmax

Softmax

+关注

关注
0

文章
9

浏览量
2824

原文标题：ICLR'22 | cosFormer：重新思考注意力机制中的Softmax

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

评论

电子发烧友

My ElecFans

APP
网站地图

设计技术

可编程逻辑

电源/新能源

MEMS/传感技术

测量仪表

嵌入式技术

制造/封装

模拟技术

RF/无线

接口/总线/驱动

处理器/DSP

EDA/IC设计

存储技术

光电显示

EMC/EMI设计

连接器

行业应用

LEDs

汽车电子

音视频及家电

通信网络

医疗电子

人工智能

虚拟现实

可穿戴设备

机器人

安全设备/系统

军用/航空电子

移动通信

工业控制

便携设备

触控感测

物联网

智能电网

区块链

新科技

特色内容

专栏推荐

学院

设计资源

设计技术

电子百科

电子视频

元器件知识

工具箱

VIP会员

最新技术文章

产品地图

品牌地图

社区

小组

论坛

问答

评测试用

企业服务

产品

资料

文章

方案

企业

供应链服务

硬件开发

媒体服务

网站广告

在线研讨会

活动策划

新闻发布

新品发布

小测验

设计大赛

电子发烧友

关于我们

联系我们

举报投诉

社交网络

微博

移动端

发烧友APP

WAP

联系我们

广告合作

王婉珠：wangwanzhu@elecfans.com

内容合作

张迎辉：mikezhang@elecfans.com

关注我们的微信

下载发烧友APP

机器人发烧友

版权所有 © 长沙勒克斯教育咨询有限公司

湖南省长沙市开福区月湖街道匍园路20号聚恒科技园1栋2301-1房
电子发烧友 （电路图） 电信与信息服务业务经营许可证：湘B2-20260003 湘ICP备2023036445号-105-1