0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简述位置编码在注意机制中的作用

深度学习自然语言处理 来源:DeepHub 作者:DeepHub 2021-06-16 17:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

神经网络知识。

有一种叫做注意机制的东西,但是你不需要知道注意力具体实现。

RNN/LSTM的不足。

A. Vaswani等人的《Attention Is All You Need》被认为是解决了众所周知的LSTM/RNN体系结构在深度学习空间中的局限性的突破之一。本文介绍了transformers 在seq2seq任务中的应用。该论文巧妙地利用了 D.Bahdanau 等人通过联合学习对齐和翻译的神经机器翻译注意机制的使用。并且提供一些示例明确且详尽地解释了注意力机制的数学和应用。

在本文中,我将专注于注意力机制的位置编码部分及其数学。

假设您正在构建一个 seq2seq 学习任务,并且您想要开发一个模型,该模型将输入英语句子并将其翻译成其他 语言。“All animals are equal but some are more equal than others ”→Badhā prāṇī’ō samāna chē parantu kēṭalāka an’ya karatā vadhu samāna chē你的第一步是获取这个输入句子,运行一个分词器,将它转换成数字,然后将它传递给一个嵌入层,这可能会为这个句子中的每个单词添加一个额外的维度。

在运行 RNN 或 LSTM 时,隐藏状态保留单词在句子中的相对位置信息。然而,在 Transformer 网络中,如果编码器包含一个前馈网络,那么只传递词嵌入就等于为您的模型增加了不必要的混乱,因为在词嵌入中没有捕获有关句子的顺序信息。为了处理单词相对位置的问题,位置编码的想法出现了。

在从嵌入层提取词嵌入后,位置编码被添加到这个嵌入向量中。

解释位置编码最简单的方法是为每个单词分配一个唯一的数字 ∈ ℕ 。或者为每个单词分配一个在 [0,1] ∈ ℝ 范围内的实数(如果输入句子很长,这样可以处理很大的值)。但是,上述两种方法都没有捕捉到单词之间时间步长的准确性。为了克服这个问题,本文使用了 sin 和 cosine 函数形式的位置编码。

打个比方,我们输入模型的序列,无论是句子、视频序列还是股票市场价格数据,都将始终是时域信号。表示时域信号的最佳方式是通过正弦方程 sin(ωt)。如果我们巧妙地使用这个波动方程,我们可以在一次拍摄中捕获词嵌入的时间和维度信息。

让我们看一下这个等式,在接下来的步骤中,我们将尝试把它形象化。

052682a0-cab3-11eb-9e57-12bb97331649.png

让我们考虑一个简单的句子,它被分词,然后它的词嵌入被提取。句子长度为5,嵌入维数为8。因此,每个单词都表示为1x8的向量。

现在我们在时间维度上取一个序列把正弦PE向量加到这个嵌入向量上。

进一步,我们对沿dim维数的其他向量做类似的操作。

本文在嵌入向量中交替加入正弦和余弦。如果dim是偶数,则sin级数相加,如果dim是奇数,则cos级数相加。

这很好地捕获了沿时间维度(或等式中描述的 pos 维度。我将 pos 和 time 互换使用,因为它们意味着相同的事情)但是如何也捕获沿dims维度的相对位置信息呢?这里的答案也在于等式本身。ω 项。

05f41878-cab3-11eb-9e57-12bb97331649.png

随着 i 从 0 增加到 d_embedding/2,频率也从 1/2π 减少到 1/(2π.10000)

因此我们看到,沿着无序方向的每个向量,位置的唯一性被捕获。该论文还描述了这种编码的鲁棒性。但是我仍然无法找出为什么特别使用数字 10000 进行位置编码(它可能是一个超参数吗?)。这个解释粗略地展示了如何使用正弦和余弦对于模型理解是非常合理和有效的。下面的图表本身讲述了位置编码如何随位置(时间)和尺寸变化。

人们可以很容易地看到,这些是简单的时频图,其中位置代表时间,深度代表频率。时间频率图已被用于从射电天文学到材料光谱分析的许多应用中。因此,从现有的现实世界系统构建类比确实可以更好地理解问题。

这是我对注意力机制中使用的位置编码的看法。在接下来的系列中,我将尝试撰写有关编码器-解码器部分的内容,并将注意力应用于现实世界的规模问题。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4845

    浏览量

    108371
  • 编码
    +关注

    关注

    6

    文章

    1043

    浏览量

    57212
  • rnn
    rnn
    +关注

    关注

    0

    文章

    92

    浏览量

    7382
  • LSTM
    +关注

    关注

    0

    文章

    63

    浏览量

    4464

原文标题:位置编码在注意机制中的作用

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    单芯片架构下纳芯微磁编码器解码机制与误差补偿

    漂移、转速动态误差六类误差的片内实时补偿原理与实现方法。结合单芯片资源封闭校准、出厂 OTP 标定与在线自校准机制,阐明其 - 40℃~125℃宽温域、高低转速工况下高精度角度输出的技术底层逻辑,为 BLDC 电机 FOC 控制、伺服系统、机器人关节
    的头像 发表于 05-14 16:42 296次阅读

    无刷电机驱动板在位置传感、功率驱动及保护机制的综合作用

    硬件载体,并非单一功能模块,而是集 高精度位置传感采集、精密功率驱动、全链路故障保护 于一体的综合控制平台。本文从位置传感、功率驱动、保护机制三大核心模块出发,系统解析驱动板无刷
    的头像 发表于 03-31 16:33 238次阅读

    磁铁在编码作用与应用

    编码,磁铁的作用不可小觑,常用的磁性材料主要是钕铁硼和铁氧体,今天这篇文章主要介绍下磁铁用于哪些编码器类型,以及其具体作用。磁铁在
    的头像 发表于 03-19 14:42 564次阅读
    磁铁在<b class='flag-5'>编码</b>器<b class='flag-5'>中</b>的<b class='flag-5'>作用</b>与应用

    麦歌恩AMR/TMR磁编码器核心原理与高精度位置检测技术

    AMR与TMR的物理机理、芯片内部传感架构、信号处理流程、高精度解算算法及工程化误差抑制技术,完整揭示麦歌恩磁编码器从磁场到角度的全链路工作机制,为高精度运动控制的位置反馈设计提供理论与实践依据。全文约2000字,适合硬件开发、
    的头像 发表于 03-04 16:01 444次阅读

    磁场空间分布感知型位置编码与测速原理

    一、核心原理与技术体系 (一)位置编码:磁场空间指纹的感知与匹配         磁场空间分布感知型位置编码的本质,是利用磁场在三维空间中 “位置
    的头像 发表于 02-27 15:40 349次阅读

    浅谈锡膏在手机制造上的作用

    锡膏在手机制扮演着“隐形桥梁”与“工艺基石”的双重角色,其作用贯穿电路板焊接、元件可靠性保障、生产效率提升及质量管控等核心环节,是确保手机性能稳定、寿命持久的关键材料。以下从功能实现、工艺价值及行业趋势三个维度展开分析:
    的头像 发表于 02-25 17:16 674次阅读

    磁性编码器磁环的作用有哪些?

    磁性编码器是一种利用磁场变化来检测转轴角度、转速或位移的传感装置,其中磁环是关键的感应元件。磁环通过与磁敏传感器的配合,实现高精度、非接触式的信号采集。它不仅决定了编码器的测量精度和稳定性,也是影响系统可靠性的重要因素,下面是磁性编码
    的头像 发表于 01-14 16:01 520次阅读
    磁性<b class='flag-5'>编码</b>器磁环的<b class='flag-5'>作用</b>有哪些?

    气体流量计磁铁的作用材质与选型

    气体流量计是工业测量领域的重要仪表,广泛应用于石油、化工、冶金、电力等行业,很多类型的气体流量计中会使用到磁铁,今天我们来介绍其中磁铁的作用,材质,安装位置与选型注意事项。
    的头像 发表于 01-08 16:55 745次阅读
    气体流量计<b class='flag-5'>中</b>磁铁的<b class='flag-5'>作用</b>材质与选型

    MOSFET电源控制作用是什么?

    请问MOSFET电源控制作用是什么?
    发表于 12-16 06:37

    `lv_obj_tree.h` **LVGL v9** 位置作用

    lv_obj_tree.h LVGL v9 位置作用如下: 文件路径 lv_obj_tree.h 位于 LVGL 源码的 src/core/ 目录下,完整路径是: lvgl/
    发表于 11-13 15:49

    舵机伺服编码

    —— 没有编码器的反馈,舵机就无法判断自身是否到达目标位置,控制精度会大幅下降。 核心作用:实现 “闭环控制” 舵机伺服编码器的本质是为舵机提供 “
    的头像 发表于 10-30 10:05 578次阅读

    集成MT6816磁性角度编码器实现伺服电机紧凑型非接触位置传感

    随着工业自动化技术的快速发展,伺服电机作为核心执行元件,其位置检测精度和可靠性直接影响系统性能。传统光电编码器存在易受污染、抗震性差等固有缺陷,而磁性编码器凭借非接触式测量、抗干扰能力强等优势,正
    的头像 发表于 08-16 14:15 1670次阅读

    油驳器空压机断油保护作用

    油驳器空压机断油保护作用 油驳器(根据客户提供的现场空压机油滤料号来定制)是空压机断油保护装置的核心配件,被用于油路系统
    发表于 06-24 14:03

    电解电容电源滤波电路作用

    电源系统,电解电容凭借其大容量、低成本和成熟工艺,成为滤波电路不可或缺的元件。其核心价值体现在电压平滑、噪声抑制、瞬态响应及系统保护四大维度,以下从技术原理与工程实践出发,深入解析其关键
    的头像 发表于 06-13 16:01 1583次阅读
    电解电容<b class='flag-5'>在</b>电源滤波电路<b class='flag-5'>中</b>的<b class='flag-5'>作用</b>

    什么是伺服电机编码器?作用/关键技术/选型等一起看看吧!

    什么是伺服电机编码器? 伺服电机编码器是伺服系统的核心反馈元件,用于实时检测电机的转速、位置、角度等参数,并将信号反馈给控制器(如伺服驱动器),形成闭环控制,确保电机运动的精准性和稳
    的头像 发表于 06-09 11:07 3417次阅读
    什么是伺服电机<b class='flag-5'>编码</b>器?<b class='flag-5'>作用</b>/关键技术/选型等一起看看吧!