0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个LSTM被分解成垂直和水平的LSTM

OpenCV学堂 来源:OpenCV学堂 作者:OpenCV学堂 2022-05-07 16:29 次阅读

在最近的计算机视觉研究中,ViT的出现迅速改变了各种架构设计工作:ViT利用自然语言处理中的Self-Attention实现了最先进的图像分类性能,MLP-Mixer利用简单的多层感知器也实现了具有竞争性的结果。相比之下,一些研究也表明,精心设计的卷积神经网络(CNNs)可以实现媲美ViT的先进性能,而无需借助这些新想法。在这种背景下,人们对什么是适合于计算机视觉的归纳偏差越来越感兴趣。

在这里,作者提出Sequencer,一个全新且具有竞争性的架构,可以替代ViT,为分类问题提供了一个全新的视角。与ViT不同,Sequencer使用LSTM(而不是Self-Attention)对远程依赖关系进行建模。

作者还提出了一个二维的Sequencer模块,其中一个LSTM被分解成垂直和水平的LSTM,以提高性能。

虽然结构简单,但是经过实验表明,Sequencer的表现令人印象深刻:Sequencer2D-L在ImageNet-1K上仅使用54M参数,实现84.6%的top-1精度。不仅如此,作者还证明了它在双分辨率波段上具有良好的可迁移性和稳健性。

1背景

Vision Transformer成功的原因被认为是由于Self-Attention建模远程依赖的能力。然而,Self-Attention对于Transformer执行视觉任务的有效性有多重要还不清楚。事实上,只基于多层感知器(MLPs)的MLP-Mixer被提议作为ViTs的一个有吸引力的替代方案。

此外,一些研究表明,精心设计的CNN在计算机视觉方面仍有足够的竞争力。因此,确定哪些架构设计对计算机视觉任务具有内在的有效性是当前研究的一大热点。本文通过提出一种新颖的、具有竞争力的替代方案,为这一问题提供了一个新的视角。

本文提出了Sequencer体系结构,使用LSTM(而不是Self-Attention)进行序列建模。Sequencer的宏观架构设计遵循ViTs,迭代地应用Token Mixing和Channel Mixing,但Self-Attention被基于LSTMs的Self-Attention层取代。特别是,Sequencer使用BiLSTM作为一个构建块。简单的BiLSTM表现出一定的性能水平,而Sequencer可以通过使用类似Vision Permutator(ViP)的思想进一步提高。ViP的关键思想是平行处理垂直轴和水平轴。

作者还引入了2个BiLSTM,用于并行处理上/下和左/右方向。这种修改提高了Sequencer的效率和准确性,因为这种结构减少了序列的长度,并产生一个有空间意义的感受野。

在ImageNet-1K数据集上进行预训练时,新的Sequencer架构的性能优于类似规模的Swin和ConvNeXt等高级架构。它还优于其他无注意力和无CNN的架构,如MLP-Mixer和GFNet,使Sequencer在视觉任务中的Self-Attention具有吸引力的新替代方案。

值得注意的是,Sequencer还具有很好的领域稳健性以及尺度稳定性,即使在推理过程中输入的分辨率增加了一倍,也能强烈防止精度退化。此外,对高分辨率数据进行微调的Sequencer可以达到比Swin-B更高的精度。在峰值内存上,在某些情况下,Sequencer往往比ViTs和cnn更经济。虽然由于递归,Sequencer需要比其他模型更多的FLOPs,但更高的分辨率提高了峰值内存的相对效率,提高了在高分辨率环境下的精度/成本权衡。因此,Sequencer作为一种实用的图像识别模型也具有吸引人的特性。

2全新范式

2.1 LSTM的原理

LSTM是一种特殊的递归神经网络(RNN),用于建模序列的长期依赖关系。Plain LSTM有一个输入门,它控制存储输入,一个控制前单元状态的遗忘的遗忘门,以及一个输出门,它控制当前单元状态的单元输出。普通LSTM的公式如下:

3c0deb4a-cd29-11ec-bce3-dac502259ad0.png

其中σ是logistic sigmoid function,是Hadamard product。

BiLSTM对于预期相互依赖的序列是有利的。一个BiLSTM由2个普通的LSTM组成。设为输入,为反向重排。和分别是用相应的LSTM处理和得到的输出。设为按原顺序重新排列的输出,BiLSTM的输出如下:

3c1be47a-cd29-11ec-bce3-dac502259ad0.png

假设和具有相同的隐藏维数D,这是BiLSTM的超参数。因此,向量h的维数为二维。

2.2 Sequencer架构

1、架构总览

本文用LSTM取代Self-Attention层:提出了一种新的架构,旨在节省内存和参数,同时具有学习远程建模的能力。

3c276110-cd29-11ec-bce3-dac502259ad0.png

图2a显示了Sequencer体系结构的整体结构。Sequencer架构以不重叠的Patches作为输入,并将它们投影到特征图上。Sequencer Block是Sequencer的核心组件,由以下子组件组成:

BiLSTM层可以经济、全局地Mixing空间信息

MLP用于Channel Mixing

当使用普通BiLSTM层时,Sequencer Block称为Vanilla Sequencer block;当使用BiLSTM2D层作为Sequencer Block时,Sequencer Block称为Sequencer2D block。最后一个块的输出通过全局平均池化层送到线性分类器。

2、BiLSTM2D layer

作者提出了BiLSTM2D层作为一种有效Mixing二维空间信息的技术。它有2个普通的BiLSTM,一个垂直的BiLSTM和一个水平的BiLSTM。

对于输入被视为一组序列,其中是垂直方向上的Token数量,W是水平方向上的序列数量,C是通道维度。所有序列都输入到垂直BiLSTM中,共享权重和隐藏维度D:

3c57b7de-cd29-11ec-bce3-dac502259ad0.png

用与上述相似的方式,被视为一组序列,所有序列被输入到水平BiLSTM中,共享权重和隐藏维度D:

3c664416-cd29-11ec-bce3-dac502259ad0.png

然后将合并到中,同时将合并到。最后送入FC层。这些流程制定如下:

3c766bca-cd29-11ec-bce3-dac502259ad0.png

伪代码如下:

3c82a8b8-cd29-11ec-bce3-dac502259ad0.png

3、架构变体

为了比较由Sequencer 2D组成的不同深度的模型,本文准备了3种不同深度的模型:18、24和36。模型的名称分别为Sequencer2D-S、Sequencer2D-M和Sequencer2D-L。隐藏维度设置为D=C/4。

3c913946-cd29-11ec-bce3-dac502259ad0.png

3ca309c8-cd29-11ec-bce3-dac502259ad0.png

3实验

3.1 ImageNet-1K

3cdadf06-cd29-11ec-bce3-dac502259ad0.png

3.2 迁移学习

3cf029b0-cd29-11ec-bce3-dac502259ad0.png

3.3 稳健性实验

3cff1d58-cd29-11ec-bce3-dac502259ad0.png

3.4 可视化分析

一般来说,CNN具有局部化的、逐层扩展的感受野,而没有移动窗口的ViT捕获的是全局依赖。相比之下,作者Sequencer不清楚信息是如何处理的。因此作者计算了ResNet-50、DeiT-S和Sequencer2D-S的ERF,如图5所示。

3d10d2c8-cd29-11ec-bce3-dac502259ad0.png

Sequencer2D-S的ERFs在所有层中形成十字形。这一趋势使其不同于DeiT-S和ResNet-50等著名模型。更值得注意的是,在浅层中,Sequencer2D-S比ResNet-50的ERF更宽,尽管没有DeiT那么宽。这一观察结果证实了Sequencer中的lstm可以像预期的那样建模长期依赖关系,并且Sequencer可以识别足够长的垂直或水平区域。因此,可以认为,Sequencer识别图像的方式与CNN或ViT非常不同。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1600

    浏览量

    45616
  • LSTM
    +关注

    关注

    0

    文章

    42

    浏览量

    3681

原文标题:CV全新范式 | LSTM在CV领域杀出一条血路,完美超越Swin与ConvNeXt等前沿算法

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ST60A2的发射方向是垂直方向还是水平方向?

    ST60A2的发射方向是垂直方向还是水平方向
    发表于 03-29 08:06

    基于计算机视觉与机器学习技术的跌倒风险预测

    使用卷积神经网络(CNN)、支持向量机(SVM)、K近邻(KNN)和长短期记忆(LSTM)神经网络等四种不同的分类方法对三种步态模式进行自动分类。
    发表于 03-22 11:10 113次阅读
    基于计算机视觉与机器学习技术的跌倒风险预测

    基于CNN-LSTM网络的电力负荷预测

    为了及时掌握电力负荷的变动信息,就需要对电力负荷进行准确预测。鉴于此,探究出一种CNN和LSTM的组合模型来预测一日到一周的电力短期负荷波动情况。CNN模型负责从输入信息中提取特征,LSTM模型利用
    的头像 发表于 11-09 14:13 1467次阅读
    基于CNN-<b class='flag-5'>LSTM</b>网络的电力负荷预测

    TFT Crosstalk分析 几种水平垂直Crosstalk的可能发生的原因

    由于TFT LCD 的架构,是以像素在水平垂直方向上展开成阵列,因此TFT LCD 中所发生的Crosstalk 现象,也会是水平或是垂直的,以下举出几种
    的头像 发表于 10-30 10:48 1304次阅读
    TFT Crosstalk分析 几种<b class='flag-5'>水平</b>和<b class='flag-5'>垂直</b>Crosstalk的可能发生的原因

    电子聚焦什么原理?

    磁聚焦的原理:  如果带电粒子进入匀强磁场时,其速度V的方向与磁感强度 的方向任意角度θ,则可将V分解成平行于B和垂直于B的两
    发表于 09-25 10:50

    ST MC SDK 5.x永磁同步电动机矢量控制理论基础

    矢量控制的基本思想是将交流电动机等效为他励直流电动机,转矩和励磁分别做独立的控制。 定子电流分解成: 直轴电流Id:励磁电流 交轴电流Iq:转矩电流
    发表于 09-05 07:32

    -LSTM(1)#人工智能

    人工智能
    未来加油dz
    发布于 :2023年07月19日 11:12:51

    基于UWB信号的深度学习算法

    基于三个UWB锚点基站,采集近5万条数据,分别采用BPNN和LSTM两种神经网络训练和预测模型,实现目标区域的判断。
    的头像 发表于 07-19 09:14 295次阅读
    基于UWB信号的深度学习算法

    水平垂直燃烧试验仪:基本原理、结构与应用

    引言水平垂直燃烧试验仪是一种用于评估材料燃烧性能的设备,广泛应用于航空、航天、汽车、建筑等领域。本文将详细介绍水平垂直燃烧试验仪的基本原理、结构和使用方法,以及其在实际情况中的应用。上
    的头像 发表于 07-18 15:41 687次阅读
    <b class='flag-5'>水平</b><b class='flag-5'>垂直</b>燃烧试验仪:基本原理、结构与应用

    高配版水平垂直燃烧测试仪产品用途

    和质检部门,也适用于绝缘材料、工程塑料、防火封堵材料型式认可或其它固体可燃材料 执行标准;GB-T2408-2008《塑料燃烧性能的测试-水平法和垂直法》三,燃烧测试仪符合标准:GB-T5455 《 纺织品 燃烧性能试验 垂直
    的头像 发表于 07-07 09:11 364次阅读
    高配版<b class='flag-5'>水平</b><b class='flag-5'>垂直</b>燃烧测试仪产品用途

    水平垂直燃烧试验机:基本原理、使用方法及应用价值

    引言水平垂直燃烧试验机是一种用于测试材料燃烧性能的实验设备,常用于评估材料在水平垂直方向上的燃烧特性。本文将详细介绍水平
    的头像 发表于 06-27 17:10 851次阅读
    <b class='flag-5'>水平</b><b class='flag-5'>垂直</b>燃烧试验机:基本原理、使用方法及应用价值

    关于圆极化天线的困扰

    我就会这样想啊,那既然圆极化可以由两个有相位差的线极化叠加得到。那我就把圆极化分解成两个线极化呗,一个水平极化,一个垂直极化。
    的头像 发表于 06-19 15:51 746次阅读
    关于圆极化天线的困扰

    PyTorch教程-10.1. 长短期记忆 (LSTM)

    10.1. 长短期记忆 (LSTM)¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab
    的头像 发表于 06-05 15:44 581次阅读
    PyTorch教程-10.1. 长短期记忆 (<b class='flag-5'>LSTM</b>)

    PyTorch教程之长短期记忆(LSTM)

    电子发烧友网站提供《PyTorch教程之长短期记忆(LSTM).pdf》资料免费下载
    发表于 06-05 09:51 0次下载
    PyTorch教程之长短期记忆(<b class='flag-5'>LSTM</b>)

    垂直单极天线讨论

    是半波偶极天线半波谐振时的阻抗的半。在这里,理想地平面是无限大、无损耗的导体。   图3显示了用14号(#14)导线做成的50英尺长的带有理想地平面的垂直天线的馈电点阻抗。这个图
    发表于 05-15 17:17