0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

长短时记忆网络(LSTM)介绍

电子设计 来源:电子设计 作者:电子设计 2022-02-14 14:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

长短时记忆网络

循环神经网络很难训练的原因导致它的实际应用中很处理长距离的依赖。本文将介绍改进后的循环神经网络:长短时记忆网络(Long Short Term Memory Network, LSTM),

原始RNN的隐藏层只有一个状态,即h,它对于短期的输入非常敏感。那么如果我们再增加一个状态,即c,让它来保存长期的状态,这就是长短时记忆网络。

pIYBAGAISreAdMcwAAApJFPBAYY877.png

新增加的状态c,称为单元状态。我们把上图按照时间维度展开:

o4YBAGAISvWAckC2AABA0INGCCg320.png

可以看到在 t 时刻,LSTM的输入有三个:当前时刻网络的输出值 xt 、上一时刻LSTM的输出值 ht−1、以及上一时刻的单元状态 ct−1;LSTM的输出有两个:当前时刻LSTM输出值 ht 、和当前时刻的单元状态 xt 。注意 x、h、c 都是向量。

LSTM的关键,就是怎样控制长期状态c。在这里,LSTM的思路是使用三个控制开关。第一个开关,负责控制继续保存长期状态c;第二个开关,负责控制把即时状态输入到长期状态c;第三个开关,负责控制是否把长期状态c作为当前的LSTM的输出。三个开关的作用如下图所示:

o4YBAGAISzSAaVGLAABdnag0k6w525.png

接下来我们要描述一下,输出h和单元状态c的具体计算方法。

长短时记忆网络的前向计算

我们引入“门(gate)”的概念。门实际上就是一层全连接层,它的输入是一个向量,输出是一个0到1之间的实数向量。假设W是门的权重向量,b是偏置项,那么门可以表示为:

pIYBAGAIS3GAM73JAAAE1R52yfQ997.png

门的输出是0到1之间的实数向量,用门向量的输出向量按元素乘以我们需要控制的那个向量,当门输出为0时,任何向量与之相乘都会得到0向量,这就相当于啥都不能通过;输出为1时,任何向量与之相乘都不会有任何改变,这就相当于啥都可以通过。因为σ(也就是sigmoid函数)的值域是(0,1),所以门的状态都是半开半闭的。

LSTM用两个门来控制单元状态 c 的内容,一个是遗忘门,它决定了上一时刻的单元状态 t−1 有多少保留到当前时刻 ct ;另外一个是输出门,他决定了当前时刻网络的输入 xt 有多少保存到单元状态 ct 。LSTM用输出门来控制单元状态 ct 有多少输出到LSTM的当前输出值 ht 。LSTM用输出门来控制单元状态 ct 有多少输出到LSTM的当前输出值ht。

遗忘门的表达式是:

o4YBAGAIS6-AYA5JAAAIumgvVIE262.png

上式中,Wf 是遗忘门的权重矩阵,ht−1 , xt 表示把两个向量连接成一个更长的向量,bf 是遗忘门的偏置项,σ是sigmoid函数。如果输入的维度是dx,隐藏层的维度是 dh,单元状态的维度是 dc( d_c = d_h ),则遗忘门的权重矩阵 Wf维度是 dcx(dh + dx ) 。事实上,权重矩阵 Wf 都是两个矩阵拼接而成的:一个是Wfh,它对应着输入项 ht−1 ,其维度为 dcxdh;一个是Wfx,它对应着输入项 xt ,其维度为dcxdx。Wf 可以写为:

o4YBAGAIS-6AeeUqAAAL40brfDE660.png

下图显示了遗忘门的计算:

pIYBAGAITCyABllyAAAx2gXi2VE706.png

接下来看看输入门:

o4YBAGAITIiAHl-MAAAHBHhgbW4336.png

上式中,Wi 是输入门的权重矩阵,$b_i$是输入门的偏置项。下图表示了输入门的计算:

o4YBAGAITMaAdJusAAAyyP2YpDE827.png

接下来,我们计算用于描述当前输入的单元状态o4YBAGAITQOAJV-JAAABTWl_Do0900.png,它是根据上一次的输出和本次输入来计算的:

pIYBAGAITUCAbLH_AAAHg-93rGk067.png

下图是o4YBAGAITQOAJV-JAAABTWl_Do0900.png的计算:

pIYBAGAITbyAS2F0AAA3Ixp84xY912.png

现在,我们计算当前时刻的单元状态 ct。它是由上一次的单元状态 ct−1 按元素乘以遗忘门 ft ,再用当前输入的单元状态o4YBAGAITQOAJV-JAAABTWl_Do0900.png按元素乘以输入门 it ,再将两个积加和产生的:

pIYBAGAITjmACK0WAAAFHe049mE332.png

符号O表示按元素乘。下图是 ct 的计算:

o4YBAGAITneAe4ZGAABC5iL1jv8396.png

这样,我们就把LSTM关于当前的记忆o4YBAGAITQOAJV-JAAABTWl_Do0900.png和长期的记忆 ct−1 组合在一起,形成了新的单元状态 ct 。由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免当前无关紧要的内容进入记忆。下面,我们要看看输出门,它控制了长期记忆对当前输出的影响:

o4YBAGAITvKAWwfGAAAG4I3NkQk500.png

下面表示输出门的计算:

o4YBAGAITzCAeFFvAABFRWC5uO8185.png

LSTM最终的输出,是由输出门和单元状态共同确定的:

pIYBAGAIT3SAbXpiAAAFYp4ak90425.png

下图表示LSTM最终输出的计算:

o4YBAGAIT7KARwrFAABL8irwcA4091.png

式1到式6就是LSTM前向计算的全部公式。至此,我们就把LSTM前向计算讲完了。

长短时记忆网络的训练

LSTM训练算法框架

LSTM的训练算法仍然是反向传播算法,对于这个算法,我们已经非常熟悉了。主要有下面三个步骤:

1、前向计算每个神经元的输出值,对于LSTM来说,即 ft、it、ct、ot、ht 五个向量的值。计算方法已经在上一节中描述过了。

2、反向计算每个神经元的误差项δ值。与循环神经网络一样,LSTM误差项的反向传播也是包括两个方向:一个是沿时间的反向传播,即从当前t时刻开始,计算每个时刻的误差项;一个是将误差项向上一层传播。

3、根据相应的误差项,计算每个权重的梯度。

作者:凌逆战
来源:博客园
原文链接:https://www.cnblogs.com/LXP-Never/p/10398531.html

审核编辑:何安

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106796
  • 循环神经网络

    关注

    0

    文章

    38

    浏览量

    3208
  • LSTM
    +关注

    关注

    0

    文章

    62

    浏览量

    4295
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NMSIS神经网络库使用介绍

    NMSIS NN 软件库是一组高效的神经网络内核,旨在最大限度地提高 Nuclei N 处理器内核上的神经网络的性能并最​​大限度地减少其内存占用。 该库分为多个功能,每个功能涵盖特定类别
    发表于 10-29 06:08

    ST AEKD-AICAR1:基于边缘AI的汽车状态分类开发套件解析

    STMicroelectronics AEKD-AICAR1车用AI套件基于长短记忆 (LSTM) 循环神经网络 (RNN)。该套件提供汽车状态分类:汽车停车、普通道路行车、崎岖道路
    的头像 发表于 10-28 14:40 261次阅读
    ST AEKD-AICAR1:基于边缘AI的汽车状态分类开发套件解析

    能源管理平台在光电、储能等新能源领域有什么应用

    ,最大化光伏价值 实时监控与预测优化 能源管理平台通过物联网技术实时采集光伏电站的发电数据(如逆变器效率、发电量),结合气象数据和历史发电记录,利用AI算法(如LSTM神经网络)进行短时、超
    的头像 发表于 10-20 17:29 424次阅读

    记忆科技亮相2025云栖大会

    9月24日,以“云智一体·碳硅共生”为主题的2025云栖大会在杭州云栖小镇隆重开幕。记忆科技作为IT硬件领域国内领先的品牌部件提供商,受邀出席本次盛会,并携全栈产品矩阵亮相展区,全面展示其在服务器主板及整机、内存、固态存储及智能卡等领域的创新成果,为云计算与AI应用提供先进的解决方案与技术支撑。
    的头像 发表于 09-28 17:20 2951次阅读

    基于CAN的娱乐车通信网络RV-C介绍

    电子发烧友网站提供《基于CAN的娱乐车通信网络RV-C介绍.pdf》资料免费下载
    发表于 04-19 17:01 2次下载

    记忆示波器校准仪能校准哪些参数?

    记忆示波器校准仪是一种综合性电子计量标准仪器,能够校准记忆示波器的多项关键参数,主要包括以下方面:1. 垂直系统参数 幅度校准:通过标准信号源输出精确电压,校准示波器的垂直灵敏度,确保幅度测量准确
    发表于 04-11 14:05

    如何使用MATLAB实现一维时间卷积网络

    本文对一维卷积操作进行介绍,包括一维扩展卷积和一维因果卷积,以及 MATLAB 对一维卷积的支持情况。在最后通过一个实例演示如何在 MATLAB 中将一维卷积和 LSTM 结合构建分类网络,实现基于传感器数据的故障诊断。
    的头像 发表于 03-07 09:15 1666次阅读
    如何使用MATLAB实现一维时间卷积<b class='flag-5'>网络</b>

    深控技术工业网关通过集成边缘AI引擎与多源数据融合技术,实现设备健康状态的实时预测与能效优化

    ),兼容Modbus、OPC UA等协议,覆盖90%工业设备。 AI预测模型:内置基于LSTM长短记忆网络)的故障预测算法,学习设备历史运行数据,提前预警轴承磨损、电机过载等故障
    的头像 发表于 03-06 11:12 632次阅读
    深控技术工业网关通过集成边缘AI引擎与多源数据融合技术,实现设备健康状态的实时预测与能效优化

    深度学习模型在传感器数据处理中的应用(二):LSTM

    长短记忆网络(Long Short-Term Memory,LSTM)是递归神经网络(Recurrent Neural Network,R
    的头像 发表于 02-20 10:48 1447次阅读
    深度学习模型在传感器数据处理中的应用(二):<b class='flag-5'>LSTM</b>

    比亚迪将OTA推送城市记忆领航功能

    功能。 据杨冬生介绍,这一全新的城市记忆领航功能计划在今年年底前通过OTA(空中升级)方式推送给用户。这一功能的加入,将进一步提升比亚迪智驾车型在城市复杂路况下的自动驾驶能力。 值得注意的是,比亚迪的天神之眼系列分为
    的头像 发表于 02-11 09:24 1862次阅读

    基于超快卷积神经网络的无记忆散射成像

    成像的研究,空间光调制器的应用,对散射光场调控实现了主动性和可操作性。 论文信息 光学记忆效应在复杂散射介质中,包括浑浊组织和斑点层,一直是宏观和微观成像方法的关键基础。然而,在没有光学记忆效应的强散射介质中
    的头像 发表于 02-10 09:34 721次阅读
    基于超快卷积神经<b class='flag-5'>网络</b>的无<b class='flag-5'>记忆</b>散射成像

    ADS1211获取四个通道全部数据的最短时间是多少?

    看pdf没看出什么门道,想问下这款ADC四个差分通道同步采样,获取四个通道全部数据的最短时间是多少!
    发表于 02-10 07:24

    记忆示波器的原理和应用

    记忆示波器是一种基于数字处理原理的测量仪器,其原理和应用可以从以下几个方面进行详细介绍:一、记忆示波器的原理 核心组件:记忆示波器的核心是记忆
    发表于 01-06 15:50

    如何有效应对植保无人机电池出现记忆效应

    导语 在植保无人机的日常使用中,电池作为无人机的核心动力源,其性能直接影响到无人机的作业效率和飞行时间。然而,随着时间的推移,不少植保无人机电池开始出现记忆效应,导致电池容量下降,充电效率降低
    的头像 发表于 12-20 14:10 1185次阅读
    如何有效应对植保无人机电池出现<b class='flag-5'>记忆</b>效应

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    地选择适合的模型。不同的模型具有不同的特点和优势。在客服领域,常用的模型包括循环神经网络(RNN)、长短时记忆网络LSTM)、门控循环单元(GRU)、Transformer等,以及基
    发表于 12-17 16:53