据了解,1997年,两位科学家Sepp Hochreiter和Jürgen Schmidhuber共同创建了长短期记忆(LSTM)神经网络结构,用于改善循环神经网络(RNN)的长期记忆功能。
近期,Hochreiter在arXiv平台发表论文,推出了一款新型的XLSTM(扩展LSTM)架构,有效克服了传统LSTM互联网结构“仅能按时间顺序处理信息”的局限性,有望挑战当前热门的Transformer架构。
该论文指出,Hochreiter在新的XLSTM架构中运用了指数型门控循环网络,并引入了“sLSTM”和“mLSTM”两种记忆规则,使神经网络能够更高效地利用RAM,实现类似于Transformer的并行化处理。
研究团队通过对基于XLSTM和Transformer架构的两款模型进行150亿个Token的训练和测试,结果显示,XLSTM表现更为出色,特别是在“语言能力”方面表现尤为突出。因此,研究人员预测,未来XLSTM有可能与Transformer展开竞争。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
神经网络
+关注
关注
42文章
4848浏览量
108531 -
RAM
+关注
关注
8文章
1404浏览量
121370 -
架构
+关注
关注
1文章
537浏览量
26690
发布评论请先 登录
相关推荐
热点推荐
探索 Coreless Transformer Isolated High Side Switch 评估板
探索 Coreless Transformer Isolated High Side Switch 评估板 在电子设计领域,评估板是验证和测试新器件性能的重要工具。今天我们来深入了解一
新型汽车工厂质量量化评估体系——基于用户体验与反馈研究及模型构建
工厂的质量表现,引导行业关注产品制造环节的质量价值。该项目评估体系弥补现有工厂质量判定方法的不足,引入用户体验与口碑结果推导工厂质量表现,提升评判结果和改进更加具体有效。
二、研究模型
发表于 05-09 16:17
《多模态大模型 前沿算法与实战应用 第一季》精品课程简介
为512维向量。
语言模态 :BERT、GPT等预训练模型将文本转换为上下文相关的词嵌入。例如\"苹果\"在\"水果\"语境和\"科技公司\"
发表于 05-01 17:46
零基础手写大模型资料2026
Transformer核心结构的大模型,揭示大模型从理论到落地的技术本质。
一、数学基础:大模型的三大基石
1. 矩阵运算:神经网络的语言
发表于 05-01 17:44
HM博学谷狂野AI大模型第四期
在生成式 AI 浪潮席卷全球的今天,大语言模型(LLM)已成为技术圈的显学。然而,绝大多数开发者仍停留在“调用者”的层面——通过 API 发送 Prompt,接收文本回复。这种“黑盒”式的应用开发
发表于 05-01 17:30
如何将自动驾驶大模型庞大的能力压缩到车端?
[首发于智驾最前沿微信公众号]在人工智能技术的发展进程中,大模型以惊人的泛化能力和逻辑推理水平,正改变着自动驾驶的技术路径。过去,自动驾驶系统主要依赖于人工规则和模块化设计,这种方式虽然在
Transformer 入门:从零理解 AI 大模型的核心原理
分:Transformer 架构详解
现在你已经了解了数学基础和语言模型概念,让我们来看 Transformer 是如何工作的!
Transform
发表于 02-10 16:33
Transformer如何让自动驾驶大模型获得思考能力?
在谈及自动驾驶时,Transformer一直是非常关键的技术,为何Transformer在自动驾驶行业一直被提及?
如何评估电能质量在线监测装置的硬件能力?
对测量精度、长期运行的支撑能力。以下是具体评估维度与实操方法: 一、核心部件性能:硬件能力的 “基础门槛” 核心部件(传感器接口、ADC、电源)直接决定测量下限,需重点核查关键参数与实测表现
小白学大模型:国外主流大模型汇总
)领域。论文的核心是提出了一种名为Transformer的全新模型架构,它完全舍弃了以往序列模型(如循环神经网络RNNs和卷积神经网络CNNs)中常用的循环和卷积结构
自动驾驶中Transformer大模型会取代深度学习吗?
[首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”
Transformer在端到端自动驾驶架构中是何定位?
典型的Transformer架构已被用于构建“感知-规划-控制统一建模”的方案。如Waymo和小马智行正在研发的多模态大模型(MultimodalLargeModels,MLLMs),将来自摄像头
【VisionFive 2单板计算机试用体验】3、开源大语言模型部署
,对算力的要求越高,模型表现越好。
我这里就使用最小的Qwen0.5b来试一下:
拉取完毕之后,就可以在命令行输入你想问的问题:
我让它帮我写一首诗,指定了主题和要表现的内容:
发表于 07-19 15:45
Transformer架构概述
由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
基于xLSTM和Transformer的模型评估:xLSTM在“语言能力”的表现
评论