0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP:谷歌Transformer再升级

ss 来源:学术头条 作者:学术头条 2020-11-06 17:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当我们在翻译软件上输入 “Transformer is a novel neural network architecture based on a self-attention mechanism” 后,计算机就可以迅速将它翻译为 “Transformer 是一种基于自注意力机制的新型神经网络架构”,神奇的机器翻译使得多语种互译成为可能。

近年来,得益于机器学习的快速发展,自然语言处理(NLP)技术不断突破,在人机交互、在线翻译工具等领域的应用层出不穷,不同语种的人与人、人与机器之间的无障碍自由交流得以实现。

当前的主流机器翻译主要是基于神经网络机器翻译,这类方法是一个 “编码器-解码器”(encoder-decoder)架构的系统,编码器对源语言序列进行编码,并提取信息,然后通过解码器把信息转换为目标语言,完成语言翻译过程。

自 2017 年问世以来,基于“编码器-解码器”架构设计的 Transformer 模型凭借其优越的性能,已然成为机器翻译领域的主流模型,在深度学习领域产生了巨大影响。

然而,Transformer 模型并非完美,模型引入self-attention机制虽实现了快速并行的训练,但在长序列文本的处理问题上,却需要占据大量计算资源,导致模型训练成本提高。

近日,由 Google、剑桥大学、DeepMind 和艾伦·图灵研究院(Alan Turing Institute)的研究人员组成的团队基于正交随机特征的快速注意力(Fast Attention Via Positive Orthogonal Random Features,FAVOR+)机制,提出了一种新的 Transformer 模型——Performer。相比于 Transformer 模型,新模型无需做出过度调整就可以变得更加高效和节能。

Performer 模型的技术突破

2017 年,谷歌大脑(Google Brain)的 Ashish Vaswani 等人发表了一篇题为 “Attention Is All You Need” 的论文,首次提出一种基于自注意力机制的 Transformer 模型。

Transformer 模型颠覆了传统神经网络的架构,弥补了卷积神经网络(CNN)和递归神经网络(RNN)存在的不足,在语义特征提取、长距离特征捕获、任务综合特征抽取等自然语言处理方面表现出了更优的性能,在自然语言处理、人机对话、图像处理等许多领域都达到了当时最好的水平(SOTA)。

Transformer 架构的核心模块是自注意力模块,模型在处理每个单词(输入序列中的每个位置)时,自注意力模块通过计算输入序列中所有位置对的相似度分数,来寻找能够帮助更好地编码该单词的线索。

然而,随着输入序列长度的增加,模型需要二次方的计算时间来产生所有相似度分数,所需计算内存也随之增加,注意力机制面临的效率问题也越来越突出。

针对那些需要长距离关注的应用,在 Transformer 基础上已经有一些研究者提出了几种快速的、空间利用率高的改进方法,但是大部分常见方法都依赖于稀疏注意力机制。

然而,稀疏注意力机制仍存在一定的局限性。

(1)它们需要高效的稀疏矩阵乘法运算,而这些运算并不是在所有加速器上都能实现的;(2)它们通常不能为其表示能力提供严格的理论保证;(3)它们主要针对 Transformer 模型和生成式预训练进行优化;(4)它们通常会叠加更多的注意力层来补偿稀疏表示,这使得它们很难与其他预训练模型一起使用,因此需要重新训练并消耗大量能量。

此外,稀疏注意机制通常仍然不足以解决常规注意方法应用的全部问题,如指针网络。还有一些运算不能被稀疏化,如在工业级推荐系统中被大量应用的 softmax 运算。

Performer 使用了一个高效的(线性)广义注意力框架,能够对常规(softmax)全阶注意力进行可证明的、准确的、实用的估计,不依赖于任何稀疏性或低阶等先验条件,从而实现更快的训练速度,同时允许模型处理更长的序列,这一特性恰恰满足了 ImageNet64 图像数据集和PG-19文本数据集的要求。

Performer 模型通过正交随机特征(FAVOR+)算法实现快速注意力机制,并改用 Positive Orthogonal Random Features 估计 softmax 和高斯核函数,以实现在 FAVOR+ 机制中对常规 softmax 注意力进行鲁棒且无偏的估计。

研究人员表示:“Performer 是第一个通过微调可以与常规 Transformers 进行完全兼容的线性架构”。

左图 | 原点对称的通用函数 r(定义为建立在:三角随机特征和正随机特征上的估计器的均方误差(MSEs)的比值)是输入特征向量与其长度l之间的角度 φ(以弧度为单位)的函数, 函数的数值越大表示正随机特征性能越好的(φ,l)空间区域;

右图 | 当l为定值 1 时,与变化的角度 φ 构成的函数 r 为正切函数;右上角 | 比较低 softmax 内核值区域中两个估算器的 MSE。

作者通过比较发现,对于 φ 足够大的临界区域,该方法所使用的正交随机特征比任意的三角随机特征更精确。

图| 我们将原始的经过预训练的 Transformer 的权重转移到 Performer 中,Performer 产的精度达到 0.07 (橙色虚线),但在原来的梯度步数的一小部分中,很快就恢复了精度。然而在 PG-19 上,三角法(TRIG) softmax 逼近变得非常不稳定,而正特征(POS)(不重绘)和 Linformer (也是逼近 softmax)即使在重绘投影的情况下,也会在同样的复杂度中趋于平稳。具有特征重绘的正 softmax 是匹配 Transformer 的必要条件,SMREG 可实现更快的收敛。

这篇论文利用详细的数学定理,证明了与其单纯依靠计算资源来提升性能,还不如开发出改进的、高效的 Transformer 架构,来显著降低能耗。同时,由于 Performers 使用了与 Transformer 相同的训练超参数,也可以有效训练基于 softmax 的线性 Transformer。因此 FAVOR+ 机制可以作为一个简单的插件,而无需进行过多的调整。

Performer 模型应用前景广泛

研究人员表示,Performer 模型的提出,显著降低了常规 Transformer 的空间和时间复杂度,并在 Transformer 的研究以及非稀疏注意机制的作用方面开辟了新的途径。

该论文利用详细的数学定理,证明了与其单纯依靠计算资源来提升性能,还不如开发出改进的、高效的 Transformer 架构,来显著降低能耗。同时,由于 Performers 使用了与 Transformer 相同的训练超参数,因此 FAVOR+ 机制可以作为一个简单的插件,而无需进行过多的调整。

该团队在一系列丰富的场景下测试了 Performers 的性能,执行的任务包括像素预测、蛋白质序列建模。在实验设置中,一个 Performer 只用 FAVOR+ 机制取代了常规 Transformer 的注意力组件。

在使用蛋白质序列训练一个 36 层模型的挑战性任务上,基于 Performer 的模型(Performer-RELU)的性能优于基线 Transformer 模型:Reformer 和 Linformer,后者的准确率显著下降。

在标准的 ImageNet64 基准上,具有 6 层的 Performer 与具有 12 层的 Reformer 的准确性相当。优化后,Performer 的速度达到了 Reformer 的两倍。

研究人员表示,由于基于 Performer 的可扩展 Transformer 架构可以处理更长的序列,而不受注意力机制结构的限制,同时保持准确和鲁棒性,相信它们可以在生物信息学领域带来新的突破,如蛋白质的语言建模等技术已经显示出强大的潜力。

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6245

    浏览量

    110264
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6818
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13923
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23192
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时可以将这些重要信息有效地关联起来。
    的头像 发表于 11-19 18:17 1919次阅读

    项目效率翻倍!迅为RK3568 V2.0硬件接口升级,开发流程提速

    项目效率翻倍!迅为RK3568 V2.0硬件接口升级,开发流程提速
    的头像 发表于 10-29 10:53 219次阅读
    项目效率翻倍!迅为RK3568 V2.0硬件接口<b class='flag-5'>升级</b>,开发流程<b class='flag-5'>再</b>提速

    迅为iTOP-RK3576开发板升级全新金属外壳

    迅为iTOP-RK3576开发板升级全新金属外壳
    的头像 发表于 10-22 15:48 948次阅读
    迅为iTOP-RK3576开发板<b class='flag-5'>再</b><b class='flag-5'>升级</b>全新金属外壳

    AI赋能谷歌Chrome与Web工具全面升级

    2025 Google 谷歌开发者大会带来了最新 Web 工具,包括全面升级的 Chrome 开发体验、极大简化的 UI 开发,到云端两侧的 AI 部署。这些强大的工具为出海开发者提供了前所未有的加速,帮助他们更高效地打造面向全球用户的 Web 应用。
    的头像 发表于 08-29 09:33 831次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3922次阅读
    自动驾驶中<b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 832次阅读
    <b class='flag-5'>Transformer</b>架构中编码器的工作流程

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 961次阅读
    <b class='flag-5'>Transformer</b>架构概述

    谷歌地图GPS定位

    谷歌地图GPS定位:精准导航背后的技术解析 谷歌地图作为全球最受欢迎的地图服务之一,其精准的GPS定位功能为用户提供了极大便利。本文将深入探讨谷歌地图如何利用GPS技术,实现高精度定位,并带来革命性
    的头像 发表于 05-29 16:54 926次阅读

    谷歌I/O 2025大会前透露:Android 16接入Gemini,智能手机、XR设备升级

    电子发烧友网报道(文/莫婷婷)2025 Google Android I/O将5 月 20 日至 21 日举行,在这场活动之前,谷歌召开了“The Android Show: I/O Edition
    的头像 发表于 05-18 00:03 7205次阅读
    <b class='flag-5'>谷歌</b>I/O 2025大会前透露:Android 16接入Gemini,智能手机、XR设备<b class='flag-5'>升级</b>

    【性能强者升级】迅为RK3588开发板16GB+128GB高配3588核心板发布!

    【性能强者升级】迅为RK3588开发板16GB+128GB高配3588核心板发布!
    的头像 发表于 02-20 15:22 1839次阅读
    【性能强者<b class='flag-5'>再</b><b class='flag-5'>升级</b>】迅为RK3588开发板16GB+128GB高配3588核心板发布!

    谷歌公司被立案调查 谷歌股价暴跌 谷歌母公司Alphabet跌8%

    据国家市场监督管理总局消息显示,谷歌公司因涉嫌违反《中华人民共和国反垄断法》,已被该局依法开展立案调查。而且谷歌公司在全球多个国家均面临着反垄断的严峻挑战。其中,美国司法部更是对谷歌提出了分拆的请求
    的头像 发表于 02-06 16:23 1810次阅读

    如何使用MATLAB构建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任务,如机器翻译。Transformer 通过引入自注意力机制使得处理长距离依赖关系时变得高效。因此 Vaswani 等人的论文强调“注意力是所需的一切”。
    的头像 发表于 02-06 10:21 5745次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

    谷歌投10亿美元于Anthropic,加强AI领域布局

    近日,Alphabet Inc.旗下的谷歌公司宣布,将向人工智能(AI)开发商Anthropic进一步投资10亿美元。这一举动表明,谷歌正在加大对这家颇具潜力的AI公司的支持力度,旨在提升其在新兴AI领域的竞争力,以与业界巨头OpenAI相抗衡。
    的头像 发表于 01-23 15:20 801次阅读

    谷歌投10亿美元于人工智能公司Anthropic

    近日,Alphabet Inc.旗下的谷歌再度出手,向人工智能开发商Anthropic追加了10亿美元的投资,进一步提升了其在这家潜力无限、有望与OpenAI展开竞争的公司中的持股比例。 据一位
    的头像 发表于 01-23 10:57 848次阅读

    transformer专用ASIC芯片Sohu说明

    2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第一个用于transformer(ChatGPT中的“T”)的专用芯片。 将transformer
    的头像 发表于 01-06 09:13 1687次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明