0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大语言模型背后的Transformer,与CNN和RNN有何不同

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-12-25 08:36 次阅读

电子发烧友网报道(文/李弯弯)近年来,随着大语言模型的不断出圈,Transformer这一概念也走进了大众视野。Transformer是一种非常流行的深度学习模型,最早于2017年由谷歌(Google)研究团队提出,主要用于处理自然语言。

2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,BERT模型横空出世,并横扫NLP领域11项任务的最佳成绩。而在BERT中发挥重要作用的结构就是Transformer,之后又相继出现XLNET、roBERT等模型击败了BERT,但是他们的核心没有变,仍然是Transformer。

与传统CNN和RNN相比,Transformer计算效率更高

Transformer是一种基于注意力机制的序列模型,与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同,Transformer仅使用自注意力机制(self-attention)来处理输入序列和输出序列,因此可以并行计算,极大地提高了计算效率。

自注意力机制是注意力机制的一个特例。注意力机制类似于人类的注意力,能够根据任务的需要分配不同权重给输入序列中的不同部分。自注意力机制则更像是一种“全知”的能力,系统可以同时关注输入序列中的所有位置,而不受序列中位置的限制。

自注意力机制是Transformer的核心部分,它允许模型在处理序列时,将输入序列中的每个元素与其他元素进行比较,以便在不同上下文中正确地处理每个元素。

Transformer模型由编码器(Encoder)和解码器(Decoder)两部分组成。编码器将输入序列(例如一句话)转化为一系列上下文表示向量(Contextualized Embedding),它由多个相同的层组成。每一层都由两个子层组成,分别是自注意力层(Self-Attention Layer)和前馈全连接层(Feedforward Layer)。具体地,自注意力层将输入序列中的每个位置与所有其他位置进行交互,以计算出每个位置的上下文表示向量。前馈全连接层则将每个位置的上下文表示向量映射到另一个向量空间,以捕捉更高级别的特征。

解码器将编码器的输出和目标序列(例如翻译后的句子)作为输入,生成目标序列中每个位置的概率分布。解码器由多个相同的层组成,每个层由三个子层组成,分别是自注意力层、编码器-解码器注意力层(Encoder-Decoder Attention Layer)和前馈全连接层。其中自注意力层和前馈全连接层的作用与编码器相同,而编码器-解码器注意力层则将解码器当前位置的输入与编码器的所有位置进行交互,以获得与目标序列有关的信息

Transformer在自然语言处理中广泛应用,例如机器翻译、文本摘要、语言生成、问答系统等领域。相比于传统的递归神经网络(RNN)和卷积神经网络(CNN),Transformer的并行计算能力更强,处理长序列的能力更强,且可以直接对整个序列进行处理。

比如,在问答系统中,Transformer模型主要用于对问题和答案进行匹配,从而提供答案。具体而言,输入序列为问题和答案,输出为问题和答案之间的匹配分数。Transformer模型通过编码器将问题和答案分别转化为向量表示,然后通过Multi-Head Attention层计算问题和答案之间的注意力分布,最终得到匹配分数。

CNN和RNN的特点及应用领域

卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks, SIANN)”。

卷积神经网络的研究始于二十世纪80至90年代,时间延迟网络和LeNet-5是最早出现的卷积神经网络;在二十一世纪后,随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展,并被应用于计算机视觉、自然语言处理等领域 。

计算机视觉方面,卷积神经网络长期以来是图像识别领域的核心算法之一,并在学习数据充足时有稳定的表现。对于一般的大规模图像分类问题,卷积神经网络可用于构建阶层分类器(hierarchical classifier),也可以在精细分类识别(fine-grained recognition)中用于提取图像的判别特征以供其它分类器进行学习。对于后者,特征提取可以人为地将图像的不同部分分别输入卷积神经网络,也可以由卷积神经网络通过非监督学习自行提取。

卷积神经网络在计算机视觉方面的应用还包括字符检测(text detection)/字符识别(text recognition)/光学字符读取、物体识别(object recognition)等,此外,在图像语义分割(semantic segmentation)、场景分类(scene labeling)和图像显著度检测(Visual Saliency Detection)等问题中也有应用,其表现被证实超过了很多使用特征工程的分类系统。

然而,由于受到窗口或卷积核尺寸的限制,无法很好地学习自然语言数据的长距离依赖和结构化语法特征,卷积神经网络在自然语言处理(Natural Language Processing, NLP)中的应用要少于循环神经网络,且在很多问题中会在循环神经网络的构架上进行设计,但也有一些卷积神经网络算法在多个NLP主题中取得成功。

循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

循环神经网络的研究始于二十世纪80-90年代,并在二十一世纪初发展为深度学习(deep learning)算法之一 ,其中双向循环神经网络(Bidirectional RNN, Bi-RNN)和长短期记忆网络(Long Short-Term Memory networks,LSTM)是常见的循环神经网络。

循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness),因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理(Natural Language Processing, NLP),例如语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报。引入了卷积神经网络(Convolutional Neural Network,CNN)构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。

RNN在NLP问题中有得到应用。在语音识别中,有研究人员使用L双向STM对英语文集TIMIT进行语音识别,其表现超过了同等复杂度的隐马尔可夫模型(Hidden Markov Model, HMM)和深度前馈神经网络。在语音合成领域,有研究人员将多个双向LSTM相组合建立了低延迟的语音合成系统,成功将英语文本转化为接近真实的语音输出 。RNN也被用于端到端文本-语音(Text-To-Speech, TTS)合成工具的开发,例子包括Tacotron 、Merlin 等。RNN也被用于与自然语言处理有关的异常值检测问题,例如社交网络中虚假信息/账号的检测 。

RNN与卷积神经网络向结合的系统可被应用于在计算机视觉问题,例如在字符识别(text recognition)中,有研究使用卷积神经网络对包含字符的图像进行特征提取,并将特征输入LSTM进行序列标注 。对基于视频的计算机视觉问题,例如行为认知(action recognition)中,RNN可以使用卷积神经网络逐帧提取的图像特征进行学习。

总结

可以看到,Transformer以及CNN、RNN是不同的深度学习模型,Transformer是一种基于自注意力机制的特征提取网络结构,主要用于自然语言处理领域。CNN是一种基于卷积层的特征提取网络结构,主要用于图像处理领域。RNN是一种基于循环层的特征提取网络结构,用于自然语言处理,也用于计算机视觉。总体而言,因为使用自注意力机制(self-attention)来处理输入序列和输出序列,Transformer可以并行计算,相比之下计算效率大幅提升。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cnn
    cnn
    +关注

    关注

    3

    文章

    327

    浏览量

    21298
  • Transformer
    +关注

    关注

    0

    文章

    130

    浏览量

    5898
  • rnn
    rnn
    +关注

    关注

    0

    文章

    67

    浏览量

    6803
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1103
收藏 人收藏

    评论

    相关推荐

    AIBOX-1684X:把大语言模型“装”进小盒子

    AIBOX-1684X支持主流大模型私有化部署,算力高达32TOPS,同时也支持CNNRNN、LSTM等传统网络架构,支持TensorFNNX和Darknet等深度学习架构,并支持自定义算子开发
    的头像 发表于 04-20 08:02 81次阅读
    AIBOX-1684X:把大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>“装”进小盒子

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用,特别是在自然语言处理(NLP)和计算机视觉(CV)领域。
    的头像 发表于 02-22 16:27 275次阅读
    基于<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的压缩方法

    Transformer迎来强劲竞争者 新架构Mamba引爆AI圈!

    作为通用序列模型的骨干,Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,他们的 Mamba-3B 模型都优于同等规模的
    发表于 12-07 14:14 312次阅读
    <b class='flag-5'>Transformer</b>迎来强劲竞争者 新架构Mamba引爆AI圈!

    揭秘编码器与解码器语言模型

    Transformer 架构的问世标志着现代语言模型时代的开启。自 2018 年以来,各类语言模型层出不穷。
    的头像 发表于 10-24 11:42 395次阅读
    揭秘编码器与解码器<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    掌握基于Transformer的目标检测算法的3个难点

    Transformer来源于自然语言处理领域,首先被应用于机器翻译。后来,大家发现它在计算机视觉领域效果也很不错,而且在各大排行榜上碾压CNN网络。
    的头像 发表于 08-22 14:52 450次阅读
    掌握基于<b class='flag-5'>Transformer</b>的目标检测算法的3个难点

    cnn卷积神经网络模型 卷积神经网络预测模型 生成卷积神经网络模型

    视觉领域,随着人们对该模型的深入研究,它也逐渐被应用于自然语言处理、语音识别等领域。本文将着重介绍CNN模型原理、训练方法以及在实际应用中的效果。 一、
    的头像 发表于 08-21 17:11 808次阅读

    一文详解CNN

    ,对应数学模型的输入,多个输入不同的权重 细胞核:用来处理所接收的信息,对应数学模型的sum求和+激活函数f,意味着:当信号大于一定阈值时,神经元处于激活状态。 轴突:用来将信息传递给其它神经元
    发表于 08-18 06:56

    语音应用中Transformer和循环神经网络的比较

    Transformer中,注意力图的某些头部并不总是像Tacotron 2中那样是对角线的。因此,我们需要选择在哪些位置应用引导性注意力损失[24]。-使用Transformer进行解码的速度也比使用RNN慢(每帧6.5毫秒
    发表于 07-24 11:30 408次阅读
    语音应用中<b class='flag-5'>Transformer</b>和循环神经网络的比较

    transformer模型详解:Transformer 模型的压缩方法

     动机&背景 Transformer 模型在各种自然语言任务中取得了显著的成果,但内存和计算资源的瓶颈阻碍了其实用化部署。低秩近似和结构化剪枝是缓解这一瓶颈的主流方法。然而,作者通过分析发现,结构化
    的头像 发表于 07-17 10:50 1344次阅读
    <b class='flag-5'>transformer</b><b class='flag-5'>模型</b>详解:<b class='flag-5'>Transformer</b> <b class='flag-5'>模型</b>的压缩方法

    如何计算transformer模型的参数量

    1. 前言 最近,OpenAI推出的ChatGPT展现出了卓越的性能,引发了大规模语言模型(Large Language Model,LLM)的研究热潮。大规模语言模型的“大”体现在两
    的头像 发表于 07-10 09:13 7380次阅读
    如何计算<b class='flag-5'>transformer</b><b class='flag-5'>模型</b>的参数量

    基于 Transformer 的分割与检测方法

    来源:机器之心 SAM (Segment Anything )作为一个视觉的分割基础模型,在短短的 3 个月时间吸引了很多研究者的关注和跟进。如果你想系统地了解 SAM 背后的技术,并跟上内卷的步伐
    的头像 发表于 07-05 10:18 555次阅读
    基于 <b class='flag-5'>Transformer</b> 的分割与检测方法

    2D Transformer 可以帮助3D表示学习吗?

    预训练的2D图像或语言Transformer:作为基础Transformer模型,具有丰富的特征表示能力。作者选择了先进的2D Transforme
    的头像 发表于 07-03 10:59 442次阅读
    2D <b class='flag-5'>Transformer</b> 可以帮助3D表示学习吗?

    基于Transformer的大型语言模型(LLM)的内部机制

    本文旨在更好地理解基于 Transformer 的大型语言模型(LLM)的内部机制,以提高它们的可靠性和可解释性。 随着大型语言模型(LLM
    的头像 发表于 06-25 15:08 1037次阅读
    基于<b class='flag-5'>Transformer</b>的大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>(LLM)的内部机制

    基于transformer的编码器-解码器模型的工作原理

    与基于 RNN 的编码器-解码器模型类似,基于 transformer 的编码器-解码器模型由一个编码器和一个解码器组成,且其编码器和解码器均由 残差注意力模块 (residual a
    发表于 06-11 14:17 1313次阅读
    基于<b class='flag-5'>transformer</b>的编码器-解码器<b class='flag-5'>模型</b>的工作原理

    AI大语言模型的原理、演进及算力测算专题报告

    GPT是基于Transformer架构的大语言模型,近年迭代演进迅速。构建语言模型是自然语言处理
    的头像 发表于 04-28 10:01 643次阅读
    AI大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的原理、演进及算力测算专题报告