LSTM几个关键“门”与操作-电子发烧友网

1. 摘要

对于RNN解决了之前信息保存的问题，例如，对于阅读一篇文章，RNN网络可以借助前面提到的信息对当前的词进行判断和理解，这是传统的网络是不能做到的。但是，对于RNN网络存在长期依赖问题，比如看电影的时候，某些细节需要依赖很久以前的一些信息，而RNN网络并不能很好的保存很久之前的信息，随着时间间隔不断增大，RNN网络会丧失学习到很远的信息能力，也就是说记忆容量是有限的。例如，对于阅读一本书，从头到尾一字不漏的阅读，肯定是越远的东西忘得越多。所以引入了LSTM网络，对于LSTM来解决梯度消失梯度爆炸问题。

LSTM其实也是RNN的一种变体，大体结构几乎是一样的，但他们又有区别他的“记忆细胞”被改造过，该记忆的信息会一直传递下去，而不该记忆的东西会被“门”截断。

2. LSTM网络

对于RNN网络都是具有重复神经网络模块的链式形式，在一个标准RNN中这个重复的模块只要一个非常简单的结构，例如一个tanh层。

对于LSTM同样是这样的结构，但是重复的模块变得复杂了。

对于图中的一些细节，

在LSTM网络的图中，每一条黑线表示向量的传输，从一个节点的输出传入其它节点的输出。对于粉红色的圈代表着节点的操作，如向量的求和等。黄色的矩阵是学习到的网络层。Concatenate的线表示向量的连接，Copy的线表示内容复制，然后输出到不同的位置。

3. LSTM的关键点

对于LSTM的关键是细胞状态，细胞的状态类似于传送带，直接在整个链路上运行，只有一些少量的线性交互。

4. 细胞状态的控制

LSTM是通过“门”来控制细胞状态的，通过“门”来选择性通过，去除或者增加信息到细胞状态。它包含一个sigmoid网络层和一个pointwise乘法操作。Sigmoid层输入0到1之间的概率值，藐视每个部分有多少量可以通过，0代表不允许任何量通过，1代表允许任何量通过。LSTM是拥有三个门，来保护和控制细胞状态的。

5. LSTM几个关键“门”与操作

STEP 1: 决定从“细胞状态”中丢弃什么信息即“忘记门”。比如一篇小说的推导，小说中可能有几个人物，在读小说时候我们都会记住，但有些是不重要的这时候我就选择忘掉，而把重要的东西记住。总之，如果要决定之前的记忆以多大的程度被忘掉或者需要被保留，我们需要通过sigmoid函数去参考上一次的结果与当前考到的内容。

ft是输出0到1的概率，表示已多大的程度忘记之前的信息。h表示上一次输出的结果，x表示当前输入的信息。

STEP 2: 决定放什么信息到“细胞状态”中。从step 1中我们在传送带上忘记了一些东西，那我们应该补充点东西，对细胞转态进行更新。也就是说哪些东西要记住，这一步就是君顶放什么心信息到“细胞状态”中。

这里的Sigmoid层是决定什么值需要更新，也就是这一时刻我们新学到我们学到的东西哪些应该要记住，以多大的程度选择记住；Tanh层创建了一个新的候选值Ct，表示我们新学到的东西。

STEP 3: 更新细胞状态。前面两步就是为细胞状态的更新做准备的，更新C(t-1)为Ct。也就是把旧状态与ft相乘，丢掉我们确定需要丢弃的信息，加上it*Ct。这就是新的候选值，根据我们决定更新每个状态的程度进行变化。

从数学的角度来看，与RNN相比，在求偏导的时候RNN是进行链式相乘的，有一个效果不好，那么就会影响整个系统，效果影响到整个网络。而在LSTM中，从以上的公式可看出，做完Tanh后没在进行求和，所以再求偏导的时候，就算有一个效果不好也不会影响到整个网络，因为这里是进行加法运算的，所以很大程度上解决了梯度消失梯度爆炸问题。

STEP 4: 基于“细胞状态”输出。首先运行一个Sigmoid层来确定细胞状态的哪个部分将输出，接着用Tanh来处理细胞状态，这是一个从-1到1的值。然后再讲它和Sigmoid门的输出相乘，输出我们确定输出的那个部分。比如我们可能需要单复数信息来确定输出“他”还是“他们”。最终输出我们想要输出的部分。