0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Transformer架构概述

SSDFans 来源:SSDFans 2025-06-10 14:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。

以其独特的attention机制和并行处理能力为特征,Transformer模型证明了在理解和生成人类语言方面的创新飞跃,其准确性和效率是以前无法实现的。

谷歌在2017年一篇题为《attention就是你所需要的一切》的文章中首次提出,Transformer架构是ChatGPT等突破性模型的核心。它们在OpenAI的尖端语言模型中发挥了重要作用,并在DeepMind的AlphaStar中发挥了关键作用。

在这个AI的变革时代,Transformer模型对有抱负的数据科学家和NLP从业者的重要性怎么强调都不为过。作为大多数最新技术飞跃的核心领域之一,本文旨在破译这些模型背后的秘密。

什么是Transformer?

Transformer最初是为了解决序列转导或神经机器翻译的问题而开发的,这意味着它们旨在解决将输入序列转换为输出序列的任何任务。这就是为什么他们被称为“Transformer”。

什么是Transformer模型?

Transformer模型是一个神经网络,它学习顺序数据的上下文并从中生成新数据。简单地说是一种AI模型,它通过分析大量文本数据中的模式来学习理解和生成类似人类的文本。

Transformer是当前最先进的NLP模型,被认为是编码器-解码器架构的演变。但编码器-解码器架构主要依赖于循环神经网络(RNN)来提取序列信息,Transformer则完全缺乏这种循环性。

那么,他们是怎么做到的呢?

492a921a-4265-11f0-b715-92fbcf53809c.png

Transformer是专门设计来通过分析不同元素之间的关系来理解上下文和意义的,它们几乎完全依赖于一种叫做attention的数学技巧来做到这一点。

历史背景

Transformer模型起源于谷歌2017年的一篇研究论文,是机器学习领域最新和最有影响力的发展之一。第一个Transformer模型在有影响力的论文《attention就是你所需要的一切》中得到了解释。

这个开创性的概念不仅是一个理论的进步,而且还找到了实现,特别是在TensorFlow的Tensor2Tensor包中。此外,哈佛NLP小组通过提供论文的注释指南以及PyTorch实现对这个新兴领域做出了贡献。

它们的引入刺激了该领域的显著增长,通常被称为Transformer AI。这个革命性的模型为随后在大型语言模型领域(包括BERT)的突破奠定了基础。到2018年,这些发展已经被誉为NLP的分水岭。

2020年,OpenAI的研究人员宣布了GPT-3。在几周内,GPT-3的多功能性很快得到了证明,人们用它来创作诗歌、程序、歌曲、网站和更多吸引全球用户想象力的东西。

在2021年的一篇论文中,斯坦福大学的学者们恰当地将这些创新称为基础模型,强调了它们在重塑AI方面的基础作用。他们的工作突出了Transformer模型如何不仅彻底改变了该领域,而且推动了AI可实现的前沿,预示着一个充满可能性的新时代。

谷歌的前高级研究科学家、企业家Ashish Vaswani说:“我们正处在这样一个时代,像神经网络这样的简单方法正在给我们带来新能力的爆炸式增长。”

从像LSTM这样的RNN模型到用于NLP问题的transformer的转变

在Transformer模型引入时,RNN是处理顺序数据的首选方法,其特征在于其输入中的特定顺序。RNN的功能类似于前馈神经网络,但它按顺序处理输入,每次处理一个元素。

Transformer的灵感来自于RNN中的编码器-解码器架构。但是,Transformer模型完全基于attention机制,而不是使用递归。

除了提高RNN的性能,Transformer还提供了一种新的架构来解决许多其他任务,如文本摘要、图像字幕和语音识别

那么,RNN的主要问题是什么呢?它们对于NLP任务是无效的,主要有两个原因:

它们依次处理输入数据。这种循环过程不使用现代GPU,GPU是为并行计算而设计的,因此,使得这种模型的训练相当缓慢。

当元素彼此距离较远时,它们就变得无效。这是因为信息是在每一步传递的,链越长,信息在链上丢失的可能性越大。

从像LSTM这样的RNN到NLP中Transformer的转变是由这两个主要问题驱动的,Transformer通过利用attention机制的改进来评估这两个问题的能力:

注意具体的词语,不管它们相距多远。

提高性能速度。

因此,Transformer成为RNN的自然改进。接下来,让我们来看看Transformer是如何工作的。

Transformer架构

概述

最初设计用于序列转导或神经机器翻译,Transformer擅长将输入序列转换为输出序列。这是第一个完全依靠自关注来计算输入和输出表示的转导模型,而不使用序列对齐RNN或卷积。Transformer架构的主要核心特征是它们维护编码器-解码器模型。

如果我们开始将用于语言翻译的Transformer视为一个简单的黑盒,那么它将接受一种语言(例如英语)的句子作为输入,并输出其英语翻译。

4934384c-4265-11f0-b715-92fbcf53809c.png

如果稍微深入一点,我们会发现这个黑盒子由两个主要部分组成:

编码器接受输入并输出该输入的矩阵表示。例如,英语句子“How are you?”

解码器接受该编码表示并迭代地生成输出。在我们的例子中,翻译后的句子“¿Cómo estás?”

4941a25c-4265-11f0-b715-92fbcf53809c.png

然而,编码器和解码器实际上都是一个多层的堆栈(每层的数量相同)。所有编码器都呈现相同的结构,输入进入每个编码器并传递给下一个编码器。所有解码器也呈现相同的结构,并从最后一个编码器和前一个解码器获得输入。

最初的架构由6个编码器和6个解码器组成,但我们可以根据需要复制尽可能多的层。假设每个都有N层。

494e8684-4265-11f0-b715-92fbcf53809c.png

现在对整个Transformer架构有了一个大致的了解,让我们把重点放在编码器和解码器上,以更好地理解它们的工作流程。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3904

    浏览量

    141462
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6818

原文标题:Transformer架构详细解析——概述

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于DINO知识蒸馏架构的分层级联Transformer网络

    在本文的网络设计中,训练阶段首先会训练第一阶段的 Transformer 网络来得到一个有较好表征能力的特征生成器,随后再引入池化操作,加上二三阶段 Transformer 共同训练。最终在三阶段中通过验证集挑选出最优结果作为最终输出。
    发表于 07-25 16:58 1701次阅读

    关于深度学习模型Transformer模型的具体实现方案

    Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。
    发表于 11-17 10:34 983次阅读
    关于深度学习模型<b class='flag-5'>Transformer</b>模型的具体实现方案

    如何更改ABBYY PDF Transformer+界面语言

    在安装ABBYY PDF Transformer+时会让您选择界面语言。此语言将用于所有消息、对话框、按钮和菜单项。在特殊情况下,您可能需要在安装完成后更改界面语言以适应需求,方法其实很简单,本文
    发表于 10-11 16:13

    概述隔离式电源集中式电源架构

    这里写目录标题概述隔离式电源集中式电源架构分布式电源架构:个人理解概述· 集中式电源架构(CPA):效率高,但成本高,PCB占用面积大。·
    发表于 11-11 07:07

    CMSIS软件架构概述

    目录CMSIS软件架构库文件说明CMSIS软件架构CMSIS概述     CMSIS软件架构由四层:用户应用层、操作系统及中间件接口层、CMSIS层和硬件层     由三部分构成核内外
    发表于 12-22 07:34

    谷歌将AutoML应用于Transformer架构,翻译结果飙升!

    为了探索AutoML在序列域中的应用是否能够取得的成功,谷歌的研究团队在进行基于进化的神经架构搜索(NAS)之后,使用了翻译作为一般的序列任务的代理,并找到了Evolved Transformer这一新的Transformer
    的头像 发表于 06-16 11:29 3425次阅读

    解析Transformer中的位置编码 -- ICLR 2021

    引言 Transformer是近年来非常流行的处理序列到序列问题的架构,其self-attention机制允许了长距离的词直接联系,可以使模型更容易学习序列的长距离依赖。由于其优良的可并行性以及可观
    的头像 发表于 04-01 16:07 1.4w次阅读
    解析<b class='flag-5'>Transformer</b>中的位置编码 -- ICLR 2021

    如何使用Transformer来做物体检测?

    导读 本文为一个Facebook的目标检测Transformer (DETR)的完整指南,详细介绍了DETR架构的内部工作方式以及代码。 介绍 DEtection TRansformer (DETR
    的头像 发表于 04-25 10:45 3148次阅读
    如何使用<b class='flag-5'>Transformer</b>来做物体检测?

    Transformer深度学习架构的应用指南介绍

    Understanding, NLU)信息检索和自然语言生成(Natural Language Generation, NLG)等语言和语义任务中取得了显著的成功。这一壮举主要归功于开创性的Transformer架构,导致
    的头像 发表于 05-06 11:32 5174次阅读
    <b class='flag-5'>Transformer</b>深度学习<b class='flag-5'>架构</b>的应用指南介绍

    Inductor and Flyback Transformer Design .pdf

    Inductor and Flyback Transformer Design .pdf(继电保护必须加电源开关吗)-Inductor and Flyback Transformer Design .pdf
    发表于 07-26 14:50 12次下载
    Inductor and Flyback <b class='flag-5'>Transformer</b> Design .pdf

    利用Transformer和CNN 各自的优势以获得更好的分割性能

    概述 在这篇论文中,提出了一种新的医学图像分割混合架构:PHTrans,它在主要构建块中并行混合 Transformer 和 CNN,分别从全局和局部特征中生成层次表示并自适应聚合它们,旨在充分利用
    的头像 发表于 11-05 11:38 7828次阅读

    RetNet架构Transformer架构对比分析

    微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks (RetNet)[1,4],该架构相对于 Transformer 架构的优势是同时具备:训练
    发表于 07-26 10:44 2117次阅读
    RetNet<b class='flag-5'>架构</b>和<b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>对比分析

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用,特别是在自然语言处理(NLP)和计算机视觉(CV)领域。
    的头像 发表于 02-22 16:27 1362次阅读
    基于<b class='flag-5'>Transformer</b>模型的压缩方法

    Transformer架构在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域取得了显著的进步。其中,Transformer架构的提出,为NLP领域带来了革命性的变革。本文将深入探讨Transformer架构
    的头像 发表于 07-09 11:42 2117次阅读

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 833次阅读
    <b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>中编码器的工作流程