0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于xLSTM和Transformer的模型评估:xLSTM在“语言能力”的表现

微云疏影 来源:综合整理 作者:综合整理 2024-05-13 10:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

据了解,1997年,两位科学家Sepp Hochreiter和Jürgen Schmidhuber共同创建了长短期记忆(LSTM)神经网络结构,用于改善循环神经网络(RNN)的长期记忆功能。

近期,Hochreiter在arXiv平台发表论文,推出了一款新型的XLSTM(扩展LSTM)架构,有效克服了传统LSTM互联网结构“仅能按时间顺序处理信息”的局限性,有望挑战当前热门的Transformer架构。

该论文指出,Hochreiter在新的XLSTM架构中运用了指数型门控循环网络,并引入了“sLSTM”和“mLSTM”两种记忆规则,使神经网络能够更高效地利用RAM,实现类似于Transformer的并行化处理。

研究团队通过对基于XLSTM和Transformer架构的两款模型进行150亿个Token的训练和测试,结果显示,XLSTM表现更为出色,特别是在“语言能力”方面表现尤为突出。因此,研究人员预测,未来XLSTM有可能与Transformer展开竞争。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4830

    浏览量

    106907
  • RAM
    RAM
    +关注

    关注

    8

    文章

    1398

    浏览量

    119871
  • 架构
    +关注

    关注

    1

    文章

    532

    浏览量

    26516
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何评估电能质量在线监测装置的硬件能力

    对测量精度、长期运行的支撑能力。以下是具体评估维度与实操方法: 一、核心部件性能:硬件能力的 “基础门槛” 核心部件(传感器接口、ADC、电源)直接决定测量下限,需重点核查关键参数与实测表现
    的头像 发表于 11-09 17:18 1083次阅读

    小白学大模型:国外主流大模型汇总

    )领域。论文的核心是提出了一种名为Transformer的全新模型架构,它完全舍弃了以往序列模型(如循环神经网络RNNs和卷积神经网络CNNs)中常用的循环和卷积结构
    的头像 发表于 08-27 14:06 696次阅读
    小白学大<b class='flag-5'>模型</b>:国外主流大<b class='flag-5'>模型</b>汇总

    自动驾驶中Transformer模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”
    的头像 发表于 08-13 09:15 3951次阅读
    自动驾驶中<b class='flag-5'>Transformer</b>大<b class='flag-5'>模型</b>会取代深度学习吗?

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    ,对算力的要求越高,模型表现越好。 我这里就使用最小的Qwen0.5b来试一下: 拉取完毕之后,就可以命令行输入你想问的问题: 我让它帮我写一首诗,指定了主题和要表现的内容:
    发表于 07-19 15:45

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 1017次阅读
    <b class='flag-5'>Transformer</b>架构概述

    DeepSeek 引领边缘 AI 芯片向更高性能、更低功耗、更强泛化能力的方向演进

    量从十亿量级到数百亿甚至千亿级不等。例如,DeepSeek LLM 67B 多项评测中已超过同级别开源模型。这些模型通常采用 Transformer 架构及如多头潜在注意力(MLA)
    的头像 发表于 05-09 10:27 1779次阅读

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型
    的头像 发表于 03-17 15:32 7745次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    小白学大模型:训练大语言模型的深度指南

    在当今人工智能飞速发展的时代,大型语言模型(LLMs)正以其强大的语言理解和生成能力,改变着我们的生活和工作方式。最近的一项研究中,科学家
    的头像 发表于 03-03 11:51 1229次阅读
    小白学大<b class='flag-5'>模型</b>:训练大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的深度指南

    如何使用MATLAB构建Transformer模型

    Transformer 模型 2017 年由 Vaswani 等人在论文《Attentionis All You Need》中首次提出。其设计初衷是为了解决自然语言处理(Nature
    的头像 发表于 02-06 10:21 5802次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    transformer专用ASIC芯片Sohu说明

    的旧图像模型,也不能运行CNN、RNN或LSTM。 但对于transformer来说,Sohu是有史以来最快的芯片。 借助Llama 70B每秒超过50万个token的吞吐量,Sohu可以让您构建在GPU上无法实现的产品
    的头像 发表于 01-06 09:13 1709次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 583次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    的设计不仅提高了机器人对环境的理解能力,还使其能够更精准地执行复杂任务。 扩散模型的新思路 除了大模型,扩散模型的引入为机器人控制开辟了新的研究方向。
    发表于 12-29 23:04

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    阅读之旅。翻开这本书之前,我对大模型的认知仅仅停留在它是一种强大的人工智能技术,可以进行自然语言处理、图像识别等任务。我知道像 ChatGPT 这样的应用是基于大模型开发的,能够与人
    发表于 12-24 13:10

    AI大语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI部落小编为大家详细阐述AI大
    的头像 发表于 12-19 11:29 1256次阅读

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    内为企业带来效益。选择模型时,需要评估其性能表现。这包括模型的准确性、响应速度、对话流畅性、情感理解
    发表于 12-17 16:53