清华、GoogleAI和斯李飞飞团队提出具有强记忆力的E3D-LSTM网络-电子发烧友网

清华大学、Google AI 和斯坦福大学李飞飞团队提出了一种具有强记忆力的 E3D-LSTM 网络，强化了 LSTM 的长时记忆能力，这为视频预测、动作分类等相关问题提供了新思路，是一项非常具有启发性的工作。

如何对时间序列进行时空建模及特征抽取，是 RGB 视频预测分类，动作识别，姿态估计等相关领域的研究热点。

清华大学、Google AI 和斯坦福大学李飞飞团队提出了一种具有强记忆力的 E3D-LSTM 网络，用 3D 卷积代替 2D 卷积作为 LSTM 网络的基础计算操作，并加入自注意力机制，使网络能同时兼顾长时和短时信息依赖以及局部时空特征抽取。

这为视频预测、动作分类等相关问题提供了新思路，是一项非常具有启发性的工作。

时间序列的时空建模问题

现实生活中许多数据都同时具有时间特征和空间特征，例如人体的运动轨迹，连续帧的视频等，每个时间点都对应一组数据，而数据往往又具有一定的空间特征。因此要在这样的时间序列数据上开展分类，预测等工作，就必须在时间（temporal）和空间（spatial）上对其进行建模和特征抽取。

常用的时间建模工具是循环神经网络（RNN）相关模型（LSTM 等），由于其特有的门结构设计，对时间序列特征具有强大的抽取能力，因此被广泛应用于预测问题并取得了良好的成果，但是 RNN 并不能很好的学习到原始特征的高阶表示，这不利于对空间信息的提取。空间建模则当属卷积神经网络（CNN），其具有强大的空间特征抽取能力，其中3D-CNN又能将卷积核可控范围扩大到时域上，相对于 2D 卷积灵活性更高，能学习到更多的运动信息（motion 信息），相对于 RNN 则更有利于学习到信息的高级表示（层数越深，信息越高级），是目前动作识别领域的流行方法。当然 3D 卷积的时间特征抽取能力并不能和 RNN 媲美。

得益于 3D 卷积和 RNN 在各自领域的成功，如何进一步将二者结合起来使用也成为了研究热点，常见的简单方法是将二者串联堆叠或者并联结合（在图卷积网络出现之前，动作识别领域的最优方法就是将 CNN 和 RNN 并联），但测试发现这么做并不能带来太大的提升，这是因为二者的工作机制差距太大，简单的结合并不能很好的实现优势互补。本文提出用 3D 卷积代替原始 LSTM 中的门更新操作，使 LSTM 不仅能在时间层面，也能在空间层面上进行短期依赖的表象特征和运动特征的抽取，从而在更深的机制层面实现两种网络的结合。此外，在 LSTM 中引入自注意力（self-attention）机制，进一步强化了 LSTM 的长时记忆能力，使其对长距离信息作用具有更好的感知力。作者将这种网络称为Eidetic 3D LSTM（E3D-LSTM），Eidetic 意思是具有逼真记忆，强调网络的强记忆能力。

E3D-LSTM 网络结构

图 1：三种不同的 3D 卷积和 LSTM 的结合方法

图中每个颜色的模块都代表了多层相应的网络。图（a）和图（b）是两种 3D 卷积和 LSTM 结合的基线方法，3D 卷积和 LSTM 线性叠加，主要起到了编码（解码器）的作用，并没有和 RNN 有机制上的结合。图（a）中 3D 卷积作为编码器，输入是一段视频帧，图（b）中作为解码器，得到每个单元的最终输出。这两个方法中的绿色模块使用的是时空长短时记忆网络（ST-LSTM）［1］，这种 LSTM 独立的维护两个记忆状态 M 和 C，但由于记忆状态 C 的遗忘门过于响应具有短期依赖的特征，因此容易忽略长时依赖信息，因此 E3D-LSTM 在 ST-LSTM 的基础添加了自注意力机制和 3D 卷积操作，在一定程度上解决了这个问题。具体单元结构下一节介绍。

图（c）是 E3D-LSTM 网络的结构，3D 卷积作为编码 - 解码器（蓝色模块），同时和 LSTM 结合（橙色模块）。E3D-LSTM 既可用于分类任务，也可用于预测任务。分类时将所有 LSTM 单元的输出结合，预测时则利用 3D 卷积解码器的输出作为预测值。

E3D-LSTM 单元结构设计