0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒

人工智能与大数据技术 来源:新智元 2023-10-18 15:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】大模型上下文从此不再受限!港中文贾佳亚团队联手MIT发布了全新超长文本扩展技术LongLoRA,只需2行代码,让LLM看小说,读论文,轻松拿捏。

中途迷失、模型偷懒、上下文越长大模型越笨……

体验过LLM的人,多少都会对文本输入长度带来的限制有所感触:

想和大模型讨论一些稍长的内容,就需要拆分输入,而前面输入的要点,很快就会被大模型忘记。

实际上,这些都是典型的大语言模型对话缺陷。就像先天有注意力缺陷的儿童,难以专注看完一本新书。而缺陷的关键,在于模型缺乏长文本处理能力。

如今,这个局面已经被打破了!

就在近日,由贾佳亚团队联合MIT发布的新技术和新模型,悄然登上各大开源网站的热榜:

Hugging Face热榜第一、Papers With Code热度第一,Github全部Python项目热度第五、Github Stars一周内破千,Twitter上的相关技术帖子浏览量近18万。..。..

0f7c3d5e-6d58-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/abs/2309.12307

代码和Demo地址:https://github.com/dvlab-research/LongLoRA

0f8c40e6-6d58-11ee-939d-92fbcf53809c.png

GitHub Stars已达1.3k

0f9797d4-6d58-11ee-939d-92fbcf53809c.png

Twitter上的相关技术帖子浏览量近18万

这项名为LongLoRA的技术实用但却简单得令人惊讶:

只需两行代码、一台8卡A100机器,便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens。

同时,该研究团队还发布了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。

全球首个70B长文本大语言模型发布

LongLoRA的提出,让全球大语言模型的对话缺陷第一次得到解决,自此,几十页的论文、几百页的报告、鸿篇巨制不再成为大模型盲区。

对此,有专业人士激动地表示,LongLoRA是大语言模型迷宫中的希望之灯!

它代表着业界对长文本大语言模型的重新思考和关注,有效扩展了大语言模型的上下文窗口,允许模型考虑和处理较长的文本序列,是大语言模型的革新性发明。

0fa3aa1a-6d58-11ee-939d-92fbcf53809c.png

除了技术革新外,大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。

为此,研究团队特意收集了9k条长文本问答语料对,包含针对名著、论文、深度报道甚至财务报表的各类问答。

光会回答长问题还不够,该团队又挑选了3k的短问答语料与9K的长问答语料混合训练,让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为LongAlpaca-12k,目前已经开源。

在LongAlpaca-12k数据集基础上,研究团队对不同参数大小7B、13B、70B进行了训练和评测,开源模型包括LongAlpaca-7B、LongAlpaca-13B和LongAlpaca-70B。

看小说、改论文、指点经济堪称全能王

话不多说,盲选几个demo,一起看看应用了LongLoRA技术叠加12K问答语料的大模型LongAlpaca效果。

0fad40ca-6d58-11ee-939d-92fbcf53809c.png

让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率:

LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向,重点呈现关键贡献和影响,论文被接受的机会将得到提高。

0fcaaae8-6d58-11ee-939d-92fbcf53809c.png

现在,让系统读两篇新的不同的论文,让LongAlpaca概括ICLR和CVPR两个会议之间的风格区别:

LongAlpaca总结认为,CVPR论文倾向更具结构性和实验性的风格,专注于实用性和技术性。而ICLR的论文风格更加灵活,侧重关键的理论分析和数学推导,而非标准格式。

可以看出,经过训练的LongAlpaca模型已经可以很轻松地接受新的长篇学术论文,在学术相关问题的回答上相当精准。

接下来,再看看LongAlpaca模型在颇高阅读和理解门槛的经济领域的解读表现。

0fd011c2-6d58-11ee-939d-92fbcf53809c.png

0fe03494-6d58-11ee-939d-92fbcf53809c.png

根据国际货币基金组织从2012年到2023年的全球经济展望的概述合集,对经济形势进行逐年总结以及对未来经济趋势进行预测:

LongAlpaca告诉我们,2023年全球经济形势不明朗,跟2022年相比,增长预计放缓;未来几年,全球经济扩张速度偏温和并将低于预期,而地缘政治紧张、金融市场波动等大的挑战依然存在,需通过多边合作和结构性改革小心应对。

此外,LongAlpaca还可以读新的长篇小说,读完后对内容进行分析。

下面选取的对比模型是13B参数的LongAlpaca和Llama2,且看各自表现。

0fe4e098-6d58-11ee-939d-92fbcf53809c.png

名著《西游记》中,为什么孙悟空在大闹天宫时很厉害,但取经路上却屡屡受挫?

LongAlpaca给出了5点原因,大概可总结为:「孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移,他获得了智慧、经验和战友,使他最终战胜了最强大的敌人。」

而Llama2并没有给出正确答案:「虽然他确实大闹天宫,但说他代表着不败的力量并不一定准确。事实上,他最终在西游记中被强大的唐三藏打败。」

0ff7dff4-6d58-11ee-939d-92fbcf53809c.png

这一次让系统新读一次《三体》,然后问第一部中,叶文洁为什么要联系外星人,而后期又为什么后悔?

LongAlpaca认为,叶文洁最初接触外星人是出于理想主义和复仇,但随着时间的推移,她对人类的看法发生了变化,意识到自己可能给全人类带来的危险,她的悔恨与日俱增。回答得十分清晰。

而Llama2的回答则是,「通过与外星人的互动,她希望能更深入地了解宇宙的本质,以及自己在宇宙中的位置。叶文洁逐渐意识到,外星人和他们的技术并不能解决她的问题。」回答笼统,之后开始对小说整体进行评论,答非所问。

从模型给出的答案可发现,一些模型如Llama2[2]可能在预训练过程中见过相关小说,但如果在提问时进行仅根据小说题目进行短文本提问的话,回答并不理想。

两个模型的回答对比,高下立见。LongAlpaca改学术论文、点评全球经济大势和读小说,都是一把好手,完胜Llama2。

两行代码和三个关键结论

Llama2可以说是AI社区内最强大的开源大模型之一,行业位置领先,LongAlpaca居然可以完胜。其背后的LongLoRA技术成功引起网友们的注意,到底是怎么做到的?

原来大语言模型对长文本处理过程中,计算量的主要开销集中在自注意力机制(self-attention),其开销随着文本长度成平方次地增加。

针对这个问题,研究团队提出LongLoRA技术,并用分组和偏移的方式来对全局自注意力机制进行模拟

100e3a7e-6d58-11ee-939d-92fbcf53809c.png

简单来说,就是将长文本对应的tokens拆分成不同的组,在每组内部做自注意力计算,而分组的方式在不同注意力头(attention head)上有所偏移。

这样的方式既可以大幅度节约计算量,又可以维持全局感受野的传递。

而且,这个实现方法也非常简洁,仅两行代码即可完成!

10135b12-6d58-11ee-939d-92fbcf53809c.png

除此之外,LongLoRA还探索了低秩训练的方式。

原有的低秩训练方式,如LoRA[5],无法在文本长度迁移上取得良好的效果。

而LongLoRA在低秩训练的基础上,引入嵌入层(Embedding layer和 Normalization layers)进行微调,从而达到可以和全参数微调(Full fine-tune)逼近的效果。

101f5340-6d58-11ee-939d-92fbcf53809c.png

进行不同长度文本扩展和训练时,LongLoRA、LoRA和全参数微调不同技术的具体效果如何,可以参考三个维度表现:

在Perplexity-困惑度上,原有LoRA方法的性能在不断恶化,而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果;

在显存消耗上,相比于全参数微调,LongLoRA和原有LoRA都有大幅度的节省。例如,对于8k长度的模型训练,相比于全参数微调,LongLoRA将显存消耗从46.3GB降低到25.6GB。

在训练时间上,对于64k长度的模型训练,相比于常规LoRA,LongLoRA将训练时间从90~100小时左右降低到52.4小时,而全参数微调超过1000小时。

极简的训练方法、极少的计算资源和时间消耗,以及极佳的准确性,令LongLoRA大规模推广成为可能。

目前,相关技术与模型已全部开源,感兴趣的用户们可以自己部署感受。

值得一提的是,这是贾佳亚团队继8月9日发布的「可以分割一切」的多模态大模型LISA后的又一力作。

相距不过短短两个月,不得不说,这研究速度和能力跟LongLoRA一样惊人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11256
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26047
  • LLM
    LLM
    +关注

    关注

    1

    文章

    340

    浏览量

    1258

原文标题:2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【CIE全国RISC-V创新应用大赛】+ 一种基于LLM的可通过图像语音控制的元件库管理工具

    一种基于LLM的可通过图像语音控制的元件库管理工具 项目概述 ​ 库存管理在我们的生活中几乎无处不在,在许多小型的库存当中,比如实验室中的库存管理,往往没有人去专职维护,这就会导致在日积月累中逐渐
    发表于 11-12 19:32

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    ,TensorRT LLM 还承担着推理领域新技术载体的角色,通过将前沿创新引入 LLM 推理生态,持续提升整个生态系统合作伙伴的技术能力。
    的头像 发表于 10-21 11:04 770次阅读

    广和通发布端侧情感对话大模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端侧情感对话大模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端场景提供“情感理解-情感响应”一体化能力,推动终端人工智能向更具人性化、情感化的方向演进。
    的头像 发表于 09-26 13:37 1606次阅读

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3091次阅读
    3万字<b class='flag-5'>长文</b>!深度解析大语言模型<b class='flag-5'>LLM</b>原理

    LM Studio使用NVIDIA技术加速LLM性能

    随着 AI 使用场景不断扩展(从文档摘要到定制化软件代理),开发者和技术爱好者正在寻求以更 快、更灵活的方式来运行大语言模型(LLM)。
    的头像 发表于 06-06 15:14 796次阅读
    LM Studio使用NVIDIA<b class='flag-5'>技术</b>加速<b class='flag-5'>LLM</b>性能

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。https
    的头像 发表于 04-30 18:34 1066次阅读
    小白学大模型:从零实现 <b class='flag-5'>LLM</b>语言模型

    技术与海康威视达成战略合作

    近日,武汉技术股份有限公司(以下简称“技术”)与海康威视签订战略合作协议,技术董事长
    的头像 发表于 04-03 16:14 859次阅读

    详解 LLM 推理模型的现状

    领域的最新研究进展,特别是自DeepSeekR1发布后兴起的推理时间计算扩展相关内容。在LLM中实施和改进推理简单来说,基于LLM的推理模型是一种旨在通过生成中间
    的头像 发表于 04-03 12:09 1250次阅读
    详解 <b class='flag-5'>LLM</b> 推理模型的现状

    《AI Agent 应用与项目实战》阅读心得3——RAG架构与部署本地知识库

    不仅解决了LLM的知识更新问题,更为构建专业领域的智能问答系统提供了完整的技术方案。通过与向量数据库的深度集成,RAG实现了知识的动态扩展和精准检索,这种架构设计为AI系统的持续进化提供了可能。在
    发表于 03-07 19:49

    飞凌RK3588开发板上部署DeepSeek-R1大模型的完整指南(一)

    DeepSeek作为国产AI大数据模型的代表,凭借其卓越的推理能力和高效的文本生成技术,在全球人工智能领域引发广泛关注。DeepSeek-R1作为该系列最新迭代版本,实现了长文本处理效能跃迁、多模态
    的头像 发表于 02-21 14:55 2991次阅读
    飞凌RK3588开发板上部署DeepSeek-R1大模型的完整指南(一)

    E Ink元太科技与MIT Solve合作推动创新技术

    Ink元太科技将设立“E Ink创新奖”,在未来三年内提供总计高达30万美元(每年最高10万美元)的奖励基金。这一举措旨在支持和鼓励那些致力于解决全球关键问题的创新团队,推动他们在技术研发和应用上取得更大突破。 E Ink元太科技表示,此次与
    的头像 发表于 02-13 10:19 678次阅读

    阿里云通义开源长文本新模型Qwen2.5-1M

    近日,阿里云通义宣布了一项重大开源举措,推出了支持100万Tokens上下文的Qwen2.5-1M模型。这一新模型在处理长文本任务中展现出了卓越的性能,稳定超越了GPT-4o-mini
    的头像 发表于 02-05 14:01 787次阅读

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    LLM630LLM推理,视觉识别,可开发,灵活扩展···LLM630ComputeKit是一款AI大语言模型推理开发平台,专为边缘计算和智能交互应用而设计。该套件的主板搭载爱芯AX630CSoC
    的头像 发表于 01-17 18:48 1206次阅读
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大语言模型推理开发平台

    小白学大模型:构建LLM的关键步骤

    随着大规模语言模型(LLM)在性能、成本和应用前景上的快速发展,越来越多的团队开始探索如何自主训练LLM模型。然而,是否从零开始训练一个LLM,并非每个组织都适合。本文将根据不同的需求
    的头像 发表于 01-09 12:12 1557次阅读
    小白学大模型:构建<b class='flag-5'>LLM</b>的关键步骤

    准确性超Moshi和GLM-4-Voice,端到端语音双工模型Freeze-Omni

    问题:   LLM 灾难性遗忘:由于现有方案在语音模态与 LLM 进行对齐时,会或多或少对 LLM 进行微调,但由于要采集到与 LLM 本身
    的头像 发表于 12-17 10:21 1325次阅读
    准确性超Moshi和GLM-4-Voice,端到端语音双工模型Freeze-Omni