0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简述位置编码在注意机制中的作用

深度学习自然语言处理 来源:DeepHub 作者:DeepHub 2021-06-16 17:19 次阅读

神经网络知识。

有一种叫做注意机制的东西,但是你不需要知道注意力具体实现。

RNN/LSTM的不足。

A. Vaswani等人的《Attention Is All You Need》被认为是解决了众所周知的LSTM/RNN体系结构在深度学习空间中的局限性的突破之一。本文介绍了transformers 在seq2seq任务中的应用。该论文巧妙地利用了 D.Bahdanau 等人通过联合学习对齐和翻译的神经机器翻译注意机制的使用。并且提供一些示例明确且详尽地解释了注意力机制的数学和应用。

在本文中,我将专注于注意力机制的位置编码部分及其数学。

假设您正在构建一个 seq2seq 学习任务,并且您想要开发一个模型,该模型将输入英语句子并将其翻译成其他 语言。“All animals are equal but some are more equal than others ”→Badhā prāṇī’ō samāna chē parantu kēṭalāka an’ya karatā vadhu samāna chē你的第一步是获取这个输入句子,运行一个分词器,将它转换成数字,然后将它传递给一个嵌入层,这可能会为这个句子中的每个单词添加一个额外的维度。

在运行 RNN 或 LSTM 时,隐藏状态保留单词在句子中的相对位置信息。然而,在 Transformer 网络中,如果编码器包含一个前馈网络,那么只传递词嵌入就等于为您的模型增加了不必要的混乱,因为在词嵌入中没有捕获有关句子的顺序信息。为了处理单词相对位置的问题,位置编码的想法出现了。

在从嵌入层提取词嵌入后,位置编码被添加到这个嵌入向量中。

解释位置编码最简单的方法是为每个单词分配一个唯一的数字 ∈ ℕ 。或者为每个单词分配一个在 [0,1] ∈ ℝ 范围内的实数(如果输入句子很长,这样可以处理很大的值)。但是,上述两种方法都没有捕捉到单词之间时间步长的准确性。为了克服这个问题,本文使用了 sin 和 cosine 函数形式的位置编码。

打个比方,我们输入模型的序列,无论是句子、视频序列还是股票市场价格数据,都将始终是时域信号。表示时域信号的最佳方式是通过正弦方程 sin(ωt)。如果我们巧妙地使用这个波动方程,我们可以在一次拍摄中捕获词嵌入的时间和维度信息。

让我们看一下这个等式,在接下来的步骤中,我们将尝试把它形象化。

052682a0-cab3-11eb-9e57-12bb97331649.png

让我们考虑一个简单的句子,它被分词,然后它的词嵌入被提取。句子长度为5,嵌入维数为8。因此,每个单词都表示为1x8的向量。

现在我们在时间维度上取一个序列把正弦PE向量加到这个嵌入向量上。

进一步,我们对沿dim维数的其他向量做类似的操作。

本文在嵌入向量中交替加入正弦和余弦。如果dim是偶数,则sin级数相加,如果dim是奇数,则cos级数相加。

这很好地捕获了沿时间维度(或等式中描述的 pos 维度。我将 pos 和 time 互换使用,因为它们意味着相同的事情)但是如何也捕获沿dims维度的相对位置信息呢?这里的答案也在于等式本身。ω 项。

05f41878-cab3-11eb-9e57-12bb97331649.png

随着 i 从 0 增加到 d_embedding/2,频率也从 1/2π 减少到 1/(2π.10000)

因此我们看到,沿着无序方向的每个向量,位置的唯一性被捕获。该论文还描述了这种编码的鲁棒性。但是我仍然无法找出为什么特别使用数字 10000 进行位置编码(它可能是一个超参数吗?)。这个解释粗略地展示了如何使用正弦和余弦对于模型理解是非常合理和有效的。下面的图表本身讲述了位置编码如何随位置(时间)和尺寸变化。

人们可以很容易地看到,这些是简单的时频图,其中位置代表时间,深度代表频率。时间频率图已被用于从射电天文学到材料光谱分析的许多应用中。因此,从现有的现实世界系统构建类比确实可以更好地理解问题。

这是我对注意力机制中使用的位置编码的看法。在接下来的系列中,我将尝试撰写有关编码器-解码器部分的内容,并将注意力应用于现实世界的规模问题。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98749
  • 编码
    +关注

    关注

    6

    文章

    835

    浏览量

    54457
  • rnn
    rnn
    +关注

    关注

    0

    文章

    67

    浏览量

    6803
  • LSTM
    +关注

    关注

    0

    文章

    42

    浏览量

    3682

原文标题:位置编码在注意机制中的作用

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    编码器零点位置怎么看 | 编码器零位怎样确定

    编码器零点位置怎么看 要确定编码器的零点位置,可以通过以下几种方式进行观察: 1. 物理标记点:一些编码器在其旋转轴上具有专门的物理标记点,
    的头像 发表于 02-18 18:28 984次阅读
    <b class='flag-5'>编码</b>器零点<b class='flag-5'>位置</b>怎么看 | <b class='flag-5'>编码</b>器零位怎样确定

    编码器零点位置怎么看 编码器零位怎样确定

    一些编码器会在其旋转轴上标记一个特殊的标记点,例如一个凹槽或凸起。通过在编码器旋转到特定位置时对标记点进行检测,可以确定零位。
    发表于 01-18 14:49 488次阅读

    深度解析大语言模型的位置编码及其外推性

    我们先来回顾一下绝对位置编码的问题。绝对位置编码通过可学习的 Positional Embedding 来编码位置信息,这种方案直接对不同的
    发表于 01-16 11:37 382次阅读
    深度解析大语言模型的<b class='flag-5'>位置</b><b class='flag-5'>编码</b>及其外推性

    数控机床如果发生电机或者编码器坏掉的情况,更换编码器和电机的时候需要注意哪些事情?

    数控机床如果发生电机或者编码器坏掉的情况,更换编码器和电机的时候需要注意哪些事情,机械方面
    发表于 12-12 07:58

    简单了解ADI的位置编码器信号链解决方案

    位置编码器(也称为电机编码器)可提供准确的位置和扭矩控制,支持未来工厂的先进运动控制应用。借助精密位置
    的头像 发表于 11-13 16:29 341次阅读
    简单了解ADI的<b class='flag-5'>位置</b><b class='flag-5'>编码</b>器信号链解决方案

    MODBUS RTU信号编码器和PLC通讯的注意事项

    MODBUS RTU信号编码器是一种常用的编码器,用于测量旋转位置和角度,并可以通过RS485接口与PLC进行通讯。在使用过程中需要注意以下几点:
    的头像 发表于 11-08 13:40 415次阅读

    一体式伺服中的编码器起什么作用?什么时候使用多圈绝对值编码器?

    在一体式伺服系统中,编码器起着关键的作用。 它用于测量伺服电机的转动位置和速度,并将这些信息传递给控制器。 编码器通常采用光电或磁性原理,将转动角度转换为数字信号。 在一体式伺服系统中
    的头像 发表于 10-23 09:50 671次阅读
    一体式伺服中的<b class='flag-5'>编码</b>器起什么<b class='flag-5'>作用</b>?什么时候使用多圈绝对值<b class='flag-5'>编码</b>器?

    大模型的位置编码和外推性问题一样吗

    这种编码方式又叫做 Sinusoidal编码 。直觉上看,第个位置的表征向量维度是 ,这个向量的奇数位置元素使用余弦值,偶数位置元素使用正弦
    发表于 09-06 10:04 556次阅读
    大模型的<b class='flag-5'>位置</b><b class='flag-5'>编码</b>和外推性问题一样吗

    增量型编码器和绝对值编码器控制位置一样吗

    增量型编码器和绝对值编码器是两种常见的位置控制装置,它们在控制位置方面有着不同的工作原理和特点。虽然它们都可以用于位置控制,但是在某些方面存
    的头像 发表于 08-18 14:43 522次阅读
    增量型<b class='flag-5'>编码</b>器和绝对值<b class='flag-5'>编码</b>器控制<b class='flag-5'>位置</b>一样吗

    浅谈LLaMA 中的旋转式位置编码

    对于位置编码,常规的做法是在计算 query, key 和 value 向量之前,会计算一个位置编码向量 pi 加到词嵌入 xi 上,位置
    发表于 07-10 10:12 2033次阅读
    浅谈LLaMA 中的旋转式<b class='flag-5'>位置</b><b class='flag-5'>编码</b>

    编码器的作用和功能

    编码器的作用和功能:编码器是一种常用的电子元件,其作用是将模拟信号转换为数字信号或者将数字信号进行编码。其主要功能是将输入信号进行分析和处理
    的头像 发表于 06-14 09:22 7988次阅读
    <b class='flag-5'>编码</b>器的<b class='flag-5'>作用</b>和功能

    PyTorch教程-11.6. 自注意力和位置编码

    11.6. 自注意力和位置编码¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax
    的头像 发表于 06-05 15:44 1001次阅读
    PyTorch教程-11.6. 自<b class='flag-5'>注意</b>力和<b class='flag-5'>位置</b><b class='flag-5'>编码</b>

    PyTorch教程11.4之Bahdanau注意机制

    电子发烧友网站提供《PyTorch教程11.4之Bahdanau注意机制.pdf》资料免费下载
    发表于 06-05 15:11 0次下载
    PyTorch教程11.4之Bahdanau<b class='flag-5'>注意</b>力<b class='flag-5'>机制</b>

    PyTorch教程11.6之自注意力和位置编码

    电子发烧友网站提供《PyTorch教程11.6之自注意力和位置编码.pdf》资料免费下载
    发表于 06-05 15:05 0次下载
    PyTorch教程11.6之自<b class='flag-5'>注意</b>力和<b class='flag-5'>位置</b><b class='flag-5'>编码</b>

    计算机视觉中的注意机制

    计算机视觉中的注意机制 卷积神经网络中常用的Attention 参考 注意机制简介与分类 注意
    发表于 05-22 09:46 0次下载
    计算机视觉中的<b class='flag-5'>注意</b>力<b class='flag-5'>机制</b>