0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

放弃 RNN 和 LSTM 吧,它们真的不好用

8g3K_AI_Thinker 来源:未知 作者:胡薇 2018-04-25 09:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2014 年 RNN/LSTM 起死回生。自此,RNN/LSTM 及其变种逐渐被广大用户接受和认可。起初,LSTM 和 RNN 只是一种解决序列学习和序列翻译问题的方法(seq2seq),随后被用于语音识别并有很好的效果,比如 Siri,Cortana,Alexa 等;此外,这种技术在机器翻译领域也有应用,比如 Google Translate。

2015-2016 年,新的 ResNet 和 Attention 技术出现。实际上,我们可以将 LSTM 理解为一种巧妙地 bypass technique,而 attention 的成功表明了 MLP(多层感知器)网络可以被上下文向量影响的平均网络(averaging network)所替代。

两年过去了,我们现在已经可以给出结论:

放弃 RNN 和 LSTM 吧,它们真的不好用

基于 attention 的网络逐渐被越来越多的企业采用,比如 Google,Facebook,Salesforce 等公司都已经开始用基于attention的模型来替换RNN和其变种。RNN 在各种应用场景下时日无多,因为相比基于 attention 的模型,RNN 需要更多的资源来训练和运行。

编者注:训练 RNN 和 LSTM 是非常困难的,因为计算能力受到内存和带宽等的约束。这同时也是硬件设计者的噩梦,并最终限制了神经网络解决方案的适用性。简而言之,每个 LSTM 单元需要 4 个线性层(MLP 层),以便每个顺序时间步运行一次。线性层需要大量的内存带宽才能执行计算;由于系统没有足够的内存带宽将数据馈送到计算单元,实际上它们无法使用许多计算单元。添加更多的计算单元很容易,但添加更多的内存带宽却很难。因此,RNN/LSTM 及其变种并不和硬件加速非常匹配,一个可能的解决方案就是让计算在存储器设备中完成。

为什么 RNN/LSTM 真的不好用?

RNN,LSTM及其变种主要使用序列处理,如下图所示:

图1 RNN中的序列处理

图中的箭头表示长期信息在进入当前的处理单元前需要有序地进入所有其他的处理单元。也就是说,这很容易通过多次乘小于 0 的数字来进行破坏和攻击,这就是梯度消失的原因。

梯度消失可以利用 LSTM 模块来补救,目前的 LSTM 可是看作是多交换网关,有点像 ResNet。因为 LSTM 可以绕过一些单元,对长时间的步骤进行记忆,因此 LSTM 可以一定程度上解决梯度消失的问题。

图2 LSTM中的序列处理

从图2可以看出,从前面的单元传递来当前单元的序列路径依然存在。事实上,因为这条路径会不断添加并且会遗忘与之相关的路径分支,它会变得越来越复杂。LSTM、GRU 及其变体能学习大量的长期信息,但它们最多只能记住约 100s 的长期信息,而不是 1000s,10000s 甚至更长时间的信息。

RNN 还有一个问题就是并不与所有硬件兼容。如果要快速训练 RNN,那么就需要大量的计算资源,而这正是我们缺少的。如果在云上运行 RNN 模型的话,也会消耗比其他模型更多的资源。随着语音转文本需求的快速增长,云端的扩展也变得更加困难。

你需要做些什么?

因为大多数时间我们处理的都是实时的因果数据(casual data),我们想利用这些已知的数据来为之后的决策做准备。那如果可以避免进行序列处理,我们就可以找出更好的 look-ahead 和 look-back 的单元,这样的 look-ahead/back 就叫做 neural attention 模块。

这种补救方法融合了多个 neural attention 模块,组成了一个分层的 neural attention 编码器,如图3所示:

图3 分层 neural attention 编码器

还有一种更好地分析过去的方法就是用 attention 模块把过去所有的编码向量总结为一个上下文向量 Ct。

这里还有一个 attention 模块的分层,与神经网络和时间卷积网络(Temporal convolutional network)的分层非常像。分层神经 attention 编码器的多层 attention 能查看过去信息的一小部分,比如说 100 个向量,而上面分层的attention模块还能查看到 100 个下层的注意力模块,也就是 100×100 个向量。这极大地扩展了分层神经 attention 编码器的能力。

更重要的是将传播向量传输到网络输出所需要的路径长度:在分层网络中,路径长度与 Log(N)成比例的,其中 N 是分层的层数。这与 RNN 需要执行的T步骤形成了对照,其中 T 是需要记住的顺序的最大长度,而 T >> N。

Neural Turing Machines(NTM,神经图灵机)的架构也与图3类似,但是 NTM 是让神经网络来决定通过 attention 从内存中读取什么的。也就是说,真实的神经网络将决定哪个过去的向量对未来的决策更重要。

在内存存储方面。与 NTM 不同,上面的架构把所有之前的表示都储存在内存里,这就会造成效率比较低的问题。有一个解决的办法就是增加另外一个单元来防止有相互关系的数据多次保存。当前科学研究的重点是由应用去决定保存哪些向量,哪些不保存。

目前许多的公司仍在使用 RNN/LSTM 来进行语音转文本的工作,都没有意识到这种网络结构在效率和可扩展性上的缺点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4011

    浏览量

    143368
  • rnn
    rnn
    +关注

    关注

    0

    文章

    92

    浏览量

    7374

原文标题:放弃 RNN/LSTM 吧,因为真的不好用!望周知~

文章出处:【微信号:AI_Thinker,微信公众号:人工智能头条】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高压干式试验变压器如何选型?关键参数全攻略

    一、选型误区:选高压干式试验变压器别踩这些坑高压干式试验变压器因优势突出成为首选,但很多用户选型时只看电压与价格,忽视容量、绝缘、局放、适配场景等关键参数,导致设备“不好用、不能用、不安全”。要么
    的头像 发表于 04-21 14:28 103次阅读
    高压干式试验变压器如何选型?关键参数全攻略

    国产TTS芯片哪家强?从参数到实测的真实评价

    国产语音合成芯片这几年发展很快,市面上可选的型号越来越多。但大多数资料要么是厂商自己的宣传,要么是简单罗列参数,很少有人从工程实用角度说清楚"到底好不好用"。这篇文章基于实际开发
    的头像 发表于 04-03 11:22 354次阅读
    国产TTS芯片哪家强?从参数到实测的真实评价

    一体成型电感:电源工程师的“小方块”,却决定着你的电源好不好用

    电源工程师的日常,除了算纹波、看效率、改 PCB,还有一个固定动作:对着一堆电感 datasheet 发呆——“这个尺寸太大,那个电流不够,这个 DCR 又太高……”而在众多电感中,有一类器件越来越受青睐:一体成型电感。看起来只是个小方块,却在很多项目里默默决定了电源好不好用、机器稳不稳定。
    的头像 发表于 12-26 15:01 537次阅读
    一体成型电感:电源工程师的“小方块”,却决定着你的电源好<b class='flag-5'>不好用</b>

    一文读懂LSTMRNN:从原理到实战,掌握序列建模核心技术

    在AI领域,文本翻译、语音识别、股价预测等场景都离不开序列数据处理。循环神经网络(RNN)作为最早的序列建模工具,开创了“记忆历史信息”的先河;而长短期记忆网络(LSTM)则通过创新设计,突破
    的头像 发表于 12-09 13:56 1878次阅读
    一文读懂<b class='flag-5'>LSTM</b>与<b class='flag-5'>RNN</b>:从原理到实战,掌握序列建模核心技术

    请问CW32L系列的Vcore一般怎么设计外围电路?

    我看有很多都设计上拉并且串联个电容接地,这种电路不好用啊?怎么回事儿?
    发表于 12-08 06:44

    储能EMS控制器(4) — 控制策略适配很繁琐不好用怎么办?

    视频推荐控制策略适配很繁琐?开发慢?工商储能项目中,较为多变的是策略适配。储能EMS控制器,以灵活的框架设定,提供标准的内置策略与AI策略,并支持自定义开发策略,快速完成项目需求。本地EMS策略介绍储能系统在应用场景中,常承担着削峰填谷套利、电力稳定等作用。EMS是储能系统中的必备装置和系统之一,是储能系统的“大脑”,负责着各种协调与应用工作。ZLG致远电子
    的头像 发表于 12-03 11:42 876次阅读
    储能EMS控制器(4) — 控制策略适配很繁琐<b class='flag-5'>不好用</b>怎么办?

    FM430-EX固定式扫码器好用吗?解析实用功能与优点

    在物流分拣、产线管控、自助设备等场景中,固定式扫码器已成为提升效率的核心工具。新大陆NLS-FM430-EX作为热门的固定式条码扫描器,凭借硬核性能收获众多企业青睐。这款二维码固定式扫描器究竟好不好用
    的头像 发表于 11-10 15:28 543次阅读
    FM430-EX固定式扫码器<b class='flag-5'>好用</b>吗?解析实用功能与优点

    ST AEKD-AICAR1:基于边缘AI的汽车状态分类开发套件解析

    STMicroelectronics AEKD-AICAR1车用AI套件基于长短期记忆 (LSTM) 循环神经网络 (RNN)。该套件提供汽车状态分类:汽车停车、普通道路行车、崎岖道路行车、汽车打滑或转弯。AEKD-AICAR1中的创新想法是定义具有嵌入式人工智能处理功能
    的头像 发表于 10-28 14:40 771次阅读
    ST AEKD-AICAR1:基于边缘AI的汽车状态分类开发套件解析

    电能质量在线监测装置在实际应用中如何选择有线或无线通信技术?

    电能质量在线监测装置选择有线或无线通信技术,核心是 **“先解决‘能不能用’,再优化‘好不好用’”**—— 以 “布线可行性” 为首要前提,再结合数据需求、环境特征、成本投入三维度综合判断,避免单纯依赖技术优劣选择。
    的头像 发表于 10-24 18:16 2400次阅读

    干扰可以提高测量精度,是真的吗?

    一、前言 水可以引燃蜡烛,是真的吗?是真的! 蛇怕雄黄,是真的吗?是假的! 上述两个现象,已经由央视 财经频道《是真的吗?》揭秘。 今天要探讨的是: 干扰可以提高测量精度,是
    的头像 发表于 08-04 09:28 841次阅读
    干扰可以提高测量精度,是<b class='flag-5'>真的</b>吗?

    机语音控制方案设计2025新版

    一、方案概述 在智能家居技术飞速发展的当下,茶机的智能化升级成为必然趋势。语音控制作为一种便捷、自然的交互方式,正逐渐成为茶机智能化的关键方向。本方案聚焦于利用 WT2606B 芯片,精心构建
    的头像 发表于 07-22 17:02 1360次阅读
    茶<b class='flag-5'>吧</b>机语音控制方案设计2025新版

    阿童木双张检测器好不好用?用数据和场景说话

    在工业生产中,双张叠料检测是保障产线稳定与产品质量的关键环节。阿童木双张检测器凭借技术创新和行业落地经验,成为众多企业的选择。但它究竟“好不好用”?本文将从性能表现、场景适配、用户反馈三大维度展开
    的头像 发表于 05-22 11:39 916次阅读
    阿童木双张检测器好<b class='flag-5'>不好用</b>?用数据和场景说话

    电子工厂ERP好不好用

    在电子制造业竞争日益激烈的当下,企业都在寻找提升效率、降低成本的解决方案,而ERP系统成为了众多企业的选择。那么,电子工厂ERP系统到底好不好用呢?本文将从多个实际应用场景出发,为你揭开答案。一
    的头像 发表于 05-12 09:58 761次阅读
    电子工厂ERP好<b class='flag-5'>不好用</b>

    fpga画图:用什么软件画图好用

    用什么软件画图好用
    发表于 05-08 15:33