0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

将线性Transformer作为快速权重系统进行分析和改进

智能感知与物联网技术研究所 来源:通信信号处理研究所 作者:通信信号处理研究 2021-03-31 15:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Transformer 在深度学习中占据主导地位,但二次存储和计算需求使得 Transformer 的训练成本很高,而且很难使用。许多研究都尝试线性化核心模块:以 Performer 为例,使用带核的注意力机制。然而,这种方法还存在很多缺点,例如它们依赖于随机特征。 本文中,来自瑞士人工智能实验室(IDSIA)、亚琛工业大学的研究者建立起了线性(核)注意力与 90 年代深度学习之父 Jürgen Schmidhuber 推广的更古老的快速权重存储系统之间的内在联系,不仅指出了这些算法的基本局限性,还提出了新的更新规则和新的核来解决这些问题。在关键的综合实验和实际任务中,所得到的模型优于 Performers

9f348e0a-8d23-11eb-8b86-12bb97331649.png

论文链接:https://arxiv.org/abs/2102.11174

代码地址:https://github.com/ischlag/fast-weight-transformers

具体而言,该研究推测线性化的 softmax 注意力变量存在存储容量限制。在有限存储的情况下,快速权重存储模型的一个理想行为是操纵存储的内容并与之动态交互。 受过去对快速权重研究的启发,研究者建议用产生这种行为的替代规则替换更新规则。此外,该研究还提出了一个新的核函数来线性化注意力,平衡简单性和有效性。他们进行了大量的实验,实验内容包括合成检索问题、标准机器翻译以及语言建模。实验结果证明了该研究方法的益处。 将线性 Transformer 作为快速权重系统进行分析和改进 将线性 Transformer 变量视为快速权重系统,研究者给出了两个见解:作为关联存储容量的限制;无法编辑以前存储的关联内容。 容量限制 不断地将新的关联添加到有限大小的存储中,如下公式 17 所示,这样不可避免地会达到极限。在线性注意力中,信息存储在矩阵中,并使用矩阵乘法进行检索(如下公式 19)。因此,为了防止关联在检索时相互干扰,各个键(keys)需要正交。否则,点积将处理多个键并返回值的线性组合。对于嵌入在 d_dot 空间中的键,则不能有多余 d_dot 正交向量。

9fba1f8e-8d23-11eb-8b86-12bb97331649.png

也就是说,存储多个 d_dot 关联将导致检索误差。在线性 Transformer 中,当序列长度大于 d_dot 时,模型可能处于这样一种容量过剩状态。 改进与更新 受快速权重存储研究(Schlag 等人,2021 年)的启发,研究者提出了以下存储更新规则。 给定新的输入键 - 值对 (k^ (i) , v ^(i) ),模型首先访问存储的当前状态 W^(i−1),并检索当前与键 k^(i) 配对的值a020773e-8d23-11eb-8b86-12bb97331649.png。然后,该模型存储检索值a020773e-8d23-11eb-8b86-12bb97331649.png和输入 v^(i) 的凸组合a08e2130-8d23-11eb-8b86-12bb97331649.png,使用插值权重 0≤β^(i)≤1 的输入 v ^(i) 也由该模型生成。因此,该模型按顺序将输入序列a0ee1c16-8d23-11eb-8b86-12bb97331649.png转化为输出序列a14a9af4-8d23-11eb-8b86-12bb97331649.png,如下所示:  

a171de98-8d23-11eb-8b86-12bb97331649.png

归一化:在以上等式中,检索的值没有应用归一化。通过推导可以得到一个简单的归一化,即通过引入累加器(accumulator):

a1b366ce-8d23-11eb-8b86-12bb97331649.png

将公式 20、25 分别替换为:

a20e70aa-8d23-11eb-8b86-12bb97331649.png

然而,这种方法也有缺陷。首先,公式 26 中正值的累积总是随着步数的增加而增加,并且可能导致不稳定;其次,特别是对于该研究提出的更新规则,这种归一化不足以平衡公式 23 中写入和删除运算之间的权重(参见附录 A.2 中的推导)。 在这里,研究者提出了一种基于简单归一化的更好方法,将有效值和查询向量φ(k^(i))、φ(q^(i)) 除以其分量之和。例如,对于查询:

a249b1ba-8d23-11eb-8b86-12bb97331649.png

线性注意力函数Katharopoulos 线性注意力 Katharopoulos 等人提出使用简单的逐元素 ELU + 1 函数(Clevert 等人, 2016):

a2748a84-8d23-11eb-8b86-12bb97331649.png

选择 ELU 而不是 ReLU 的动机是因为负数部分的非零梯度。重要的是,作为一个简单的函数,这个Φ函数保留了输入键向量(d_key=d_dot)的维数,而不需要修改第 4.1 节中讨论的存储容量。 DPFP 前面两小节强调了现有Φ函数的次优性。采样会给 FAVOR + 增加额外的复杂度,而线性 Transformer 缺乏投影点积维数的能力。因此,研究者提出了一种称为确定性无参数投影(deterministic parameter-free projection, DPFP) 的替代方法。它是确定性的,并像线性 Transformer 一样易于计算,同时增加点积维数,而不需要 FAVOR + 的随机特性。 下图中四维空间的元素被显示为四个彩色表面的 z 分量,以及 2d 平面中的每个向量如何在 4d 空间中具有单个非零分量,并将输入空间平均分割为在投影空间中正交的四个区域。

实验 该研究从三个方面进行了实验:合成检索问题、机器翻译和语言模型。 合成检索问题 所有模型都以最小批次 32 进行训练,直到评估损失降到 0.001 以下,或者进行了 1000 训练步。下图 2 展示了模型的最佳验证集性能以及对不同 S 的显示。唯一键的数量初始值 S=20,然后每次递增 20,直到 S=600 为止。实验对以下模型进行对比:Softmax、线性注意力、具有 64、128 和 512 个随机特征的 FAVOR + 以及ν∈{1、2、3} 的 DPFP-ν。

a2e099a4-8d23-11eb-8b86-12bb97331649.png

下图 3 展示了学习曲线。实验结果表明,该研究提出的更新规则优于其他变体。正如预期的那样,基线总和更新规则失败。

a311ff9e-8d23-11eb-8b86-12bb97331649.png

机器翻译 下表 1 显示了 BLEU 得分结果。当样本数 m 足够大时(当 d_dot=512,m=256),Performer 与基础 Transformer 性能相当。实际上,当 d_key=64 时,m 的推荐值是 d_dot log(d_dot)=266。当 d_dot 相对较小时,该研究的 DPFP 模型优于线性 Transformer 和 Performer;在简单性和性能之间提供了一个很好的折衷。

a3233192-8d23-11eb-8b86-12bb97331649.png

语言模型 该研究使用标准 WikiText-103(Merity 等,2017)数据集进行实验。WikiText-103 数据集由维基百科的长文组成;训练集包含大约 28K 篇文章、总共 103M 个单词。这将产生约 3600 个单词的上下文文本块。验证集和测试集也包含类似的长依赖关系,分别有 218K 和 246K 个运行单词,对应 60 篇文章,词汇量约为 268K 个单词。下表 2 展示了在该研究更新规则下,WikiText-103 语言模型的困惑度结果。

a363af9c-8d23-11eb-8b86-12bb97331649.png

在下表 3 中,使用该研究更新规则下的 Transformer(medium 配置),在 WikiText-103 语言模型的困惑度结果。

a3a4d38c-8d23-11eb-8b86-12bb97331649.png

在下表 4 中,WikiText-103 语言模型在没有截断上下文的情况下训练和评估模型的困惑度,这与上表 2 中上下文窗口受到限制的情况相反。medium 配置既不用于位置编码,也不用于注意力标准化。

a4065152-8d23-11eb-8b86-12bb97331649.png

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261570
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123912
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6817

原文标题:LSTM之父重提30年前的「快速权重存储系统」:线性Transformer只是它的一种变体

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时可以
    的头像 发表于 11-19 18:17 1917次阅读

    改进wallance树乘法器优化方法

    周期复用加法器的部分积加和算法,我们采用了改进的wallance树结构进行部分积的快速压缩,实现了单周期的乘法计算。 经过时序分析,我们的单周期乘法器时钟频率可以提高至140Hz,对比
    发表于 10-23 06:37

    用拼多多 API 实现拼多多店铺商品搜索权重提升

    分步讲解如何利用 API 实现这一目标,确保内容真实可靠。 1. 理解搜索权重及其重要性 搜索权重是平台算法对商品排名的综合评分,基于多个因素计算。例如: 关键词相关性:商品标题和描述与用户搜索词匹配度越高,
    的头像 发表于 08-19 17:23 518次阅读
    用拼多多 API 实现拼多多店铺商品搜索<b class='flag-5'>权重</b>提升

    集成MT9103线性霍尔传感器提升智能家居控制精度与系统智能化水平

    随着智能家居市场的快速发展,用户对控制精度和系统智能化的需求日益提升。在这一背景下,集成MT9103线性霍尔传感器成为提升智能家居性能的关键技术之一。MT9103作为一款高精度、低功耗
    的头像 发表于 08-15 17:20 640次阅读
    集成MT9103<b class='flag-5'>线性</b>霍尔传感器提升智能家居控制精度与<b class='flag-5'>系统</b>智能化水平

    亚马逊云科技现已上线OpenAI开放权重模型

    开放权重模型,向数百万亚马逊云科技客户开放。 客户可利用这些全新开放权重模型的先进推理能力,支持Agentic工作流、代码生成、科学分析和数学问题求解等应用。 开放权重模型的推出扩展了
    的头像 发表于 08-06 19:29 674次阅读

    基于改进滑模观测器的PMSM无位置传感器控制

    为解决传统基于滑模观测器永磁同步电机无位置传感器控制系统存在的抖振问题,本文提出了一种基于非线性能量函数参考模型的新型改进滑模观测器。在分析线性
    发表于 08-06 14:38

    微电机关键零部件制造误差对其质量的影响权重分析

    获取完整资料~~~*附件:微电机关键零部件制造误差对其质量的影响权重分析.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 06-23 07:16

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 960次阅读
    <b class='flag-5'>Transformer</b>架构概述

    如何在CentOS系统中部署ELK日志分析系统

    功能,使用户能够快速获取关键业务洞察。本文详细介绍如何在 CentOS 系统中部署 ELK 日志分析系统
    的头像 发表于 05-08 11:47 795次阅读
    如何在CentOS<b class='flag-5'>系统</b>中部署ELK日志<b class='flag-5'>分析</b><b class='flag-5'>系统</b>

    电机控制系统低速区测速方法分析改进

    纯分享帖,需要者可点击附件获取完整资料~~~*附件:电机控制系统低速区测速方法分析改进.pdf 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 04-17 22:32

    智能电动轮椅控制系统的研究与设计

    控制系统,阐述了硬件系统的设计与实现,完成了软件系统软件平台的搭建,并针对电机速度不稳定的问题,提出了一种基于线性自抗扰和模糊PID 控制算法的双闭环调速
    发表于 03-07 15:17

    如何利用MES系统进行产能分析呢?

    利用MES系统进行产能分析是一个涉及数据收集、处理、分析和结果呈现的全过程。对生产过程加以监控,充分利用MES数据采集分析,实现监控生产全阶
    的头像 发表于 02-21 12:10 767次阅读
    如何利用MES<b class='flag-5'>系统</b><b class='flag-5'>进行</b>产能<b class='flag-5'>分析</b>呢?

    transformer专用ASIC芯片Sohu说明

    2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第一个用于transformer(ChatGPT中的“T”)的专用芯片。 transform
    的头像 发表于 01-06 09:13 1686次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明

    DV2003L1快速充电开发系统车载线性电流控制

    电子发烧友网站提供《DV2003L1快速充电开发系统车载线性电流控制.pdf》资料免费下载
    发表于 12-21 11:05 0次下载
    DV2003L1<b class='flag-5'>快速</b>充电开发<b class='flag-5'>系统</b>车载<b class='flag-5'>线性</b>电流控制

    Celsius EC Solver:对电子系统散热性能进行准确快速分析

    Cadence Celsius EC Solver 是一款电子产品散热仿真软件,用于对电子系统散热性能进行准确快速分析。借助 Celsius EC Solver,设计人员能够在设计周
    的头像 发表于 12-16 18:11 2123次阅读
    Celsius EC Solver:对电子<b class='flag-5'>系统</b>散热性能<b class='flag-5'>进行</b>准确<b class='flag-5'>快速</b><b class='flag-5'>分析</b>