据了解,1997年,两位科学家Sepp Hochreiter和Jürgen Schmidhuber共同创建了长短期记忆(LSTM)神经网络结构,用于改善循环神经网络(RNN)的长期记忆功能。
近期,Hochreiter在arXiv平台发表论文,推出了一款新型的XLSTM(扩展LSTM)架构,有效克服了传统LSTM互联网结构“仅能按时间顺序处理信息”的局限性,有望挑战当前热门的Transformer架构。
该论文指出,Hochreiter在新的XLSTM架构中运用了指数型门控循环网络,并引入了“sLSTM”和“mLSTM”两种记忆规则,使神经网络能够更高效地利用RAM,实现类似于Transformer的并行化处理。
研究团队通过对基于XLSTM和Transformer架构的两款模型进行150亿个Token的训练和测试,结果显示,XLSTM表现更为出色,特别是在“语言能力”方面表现尤为突出。因此,研究人员预测,未来XLSTM有可能与Transformer展开竞争。
-
神经网络
+关注
关注
42文章
4830浏览量
106907 -
RAM
+关注
关注
8文章
1398浏览量
119871 -
架构
+关注
关注
1文章
532浏览量
26516
发布评论请先 登录
如何评估电能质量在线监测装置的硬件能力?
小白学大模型:国外主流大模型汇总
自动驾驶中Transformer大模型会取代深度学习吗?
【VisionFive 2单板计算机试用体验】3、开源大语言模型部署
Transformer架构概述
DeepSeek 引领边缘 AI 芯片向更高性能、更低功耗、更强泛化能力的方向演进
如何使用MATLAB构建Transformer模型
transformer专用ASIC芯片Sohu说明

基于xLSTM和Transformer的模型评估:xLSTM在“语言能力”的表现
评论