0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒

人工智能与大数据技术 来源:新智元 2023-10-18 15:54 次阅读

【导读】大模型上下文从此不再受限!港中文贾佳亚团队联手MIT发布了全新超长文本扩展技术LongLoRA,只需2行代码,让LLM看小说,读论文,轻松拿捏。

中途迷失、模型偷懒、上下文越长大模型越笨……

体验过LLM的人,多少都会对文本输入长度带来的限制有所感触:

想和大模型讨论一些稍长的内容,就需要拆分输入,而前面输入的要点,很快就会被大模型忘记。

实际上,这些都是典型的大语言模型对话缺陷。就像先天有注意力缺陷的儿童,难以专注看完一本新书。而缺陷的关键,在于模型缺乏长文本处理能力。

如今,这个局面已经被打破了!

就在近日,由贾佳亚团队联合MIT发布的新技术和新模型,悄然登上各大开源网站的热榜:

Hugging Face热榜第一、Papers With Code热度第一,Github全部Python项目热度第五、Github Stars一周内破千,Twitter上的相关技术帖子浏览量近18万。..。..

0f7c3d5e-6d58-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/abs/2309.12307

代码和Demo地址:https://github.com/dvlab-research/LongLoRA

0f8c40e6-6d58-11ee-939d-92fbcf53809c.png

GitHub Stars已达1.3k

0f9797d4-6d58-11ee-939d-92fbcf53809c.png

Twitter上的相关技术帖子浏览量近18万

这项名为LongLoRA的技术实用但却简单得令人惊讶:

只需两行代码、一台8卡A100机器,便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens。

同时,该研究团队还发布了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。

全球首个70B长文本大语言模型发布

LongLoRA的提出,让全球大语言模型的对话缺陷第一次得到解决,自此,几十页的论文、几百页的报告、鸿篇巨制不再成为大模型盲区。

对此,有专业人士激动地表示,LongLoRA是大语言模型迷宫中的希望之灯!

它代表着业界对长文本大语言模型的重新思考和关注,有效扩展了大语言模型的上下文窗口,允许模型考虑和处理较长的文本序列,是大语言模型的革新性发明。

0fa3aa1a-6d58-11ee-939d-92fbcf53809c.png

除了技术革新外,大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。

为此,研究团队特意收集了9k条长文本问答语料对,包含针对名著、论文、深度报道甚至财务报表的各类问答。

光会回答长问题还不够,该团队又挑选了3k的短问答语料与9K的长问答语料混合训练,让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为LongAlpaca-12k,目前已经开源。

在LongAlpaca-12k数据集基础上,研究团队对不同参数大小7B、13B、70B进行了训练和评测,开源模型包括LongAlpaca-7B、LongAlpaca-13B和LongAlpaca-70B。

看小说、改论文、指点经济堪称全能王

话不多说,盲选几个demo,一起看看应用了LongLoRA技术叠加12K问答语料的大模型LongAlpaca效果。

0fad40ca-6d58-11ee-939d-92fbcf53809c.png

让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率:

LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向,重点呈现关键贡献和影响,论文被接受的机会将得到提高。

0fcaaae8-6d58-11ee-939d-92fbcf53809c.png

现在,让系统读两篇新的不同的论文,让LongAlpaca概括ICLR和CVPR两个会议之间的风格区别:

LongAlpaca总结认为,CVPR论文倾向更具结构性和实验性的风格,专注于实用性和技术性。而ICLR的论文风格更加灵活,侧重关键的理论分析和数学推导,而非标准格式。

可以看出,经过训练的LongAlpaca模型已经可以很轻松地接受新的长篇学术论文,在学术相关问题的回答上相当精准。

接下来,再看看LongAlpaca模型在颇高阅读和理解门槛的经济领域的解读表现。

0fd011c2-6d58-11ee-939d-92fbcf53809c.png

0fe03494-6d58-11ee-939d-92fbcf53809c.png

根据国际货币基金组织从2012年到2023年的全球经济展望的概述合集,对经济形势进行逐年总结以及对未来经济趋势进行预测:

LongAlpaca告诉我们,2023年全球经济形势不明朗,跟2022年相比,增长预计放缓;未来几年,全球经济扩张速度偏温和并将低于预期,而地缘政治紧张、金融市场波动等大的挑战依然存在,需通过多边合作和结构性改革小心应对。

此外,LongAlpaca还可以读新的长篇小说,读完后对内容进行分析。

下面选取的对比模型是13B参数的LongAlpaca和Llama2,且看各自表现。

0fe4e098-6d58-11ee-939d-92fbcf53809c.png

名著《西游记》中,为什么孙悟空在大闹天宫时很厉害,但取经路上却屡屡受挫?

LongAlpaca给出了5点原因,大概可总结为:「孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移,他获得了智慧、经验和战友,使他最终战胜了最强大的敌人。」

而Llama2并没有给出正确答案:「虽然他确实大闹天宫,但说他代表着不败的力量并不一定准确。事实上,他最终在西游记中被强大的唐三藏打败。」

0ff7dff4-6d58-11ee-939d-92fbcf53809c.png

这一次让系统新读一次《三体》,然后问第一部中,叶文洁为什么要联系外星人,而后期又为什么后悔?

LongAlpaca认为,叶文洁最初接触外星人是出于理想主义和复仇,但随着时间的推移,她对人类的看法发生了变化,意识到自己可能给全人类带来的危险,她的悔恨与日俱增。回答得十分清晰。

而Llama2的回答则是,「通过与外星人的互动,她希望能更深入地了解宇宙的本质,以及自己在宇宙中的位置。叶文洁逐渐意识到,外星人和他们的技术并不能解决她的问题。」回答笼统,之后开始对小说整体进行评论,答非所问。

从模型给出的答案可发现,一些模型如Llama2[2]可能在预训练过程中见过相关小说,但如果在提问时进行仅根据小说题目进行短文本提问的话,回答并不理想。

两个模型的回答对比,高下立见。LongAlpaca改学术论文、点评全球经济大势和读小说,都是一把好手,完胜Llama2。

两行代码和三个关键结论

Llama2可以说是AI社区内最强大的开源大模型之一,行业位置领先,LongAlpaca居然可以完胜。其背后的LongLoRA技术成功引起网友们的注意,到底是怎么做到的?

原来大语言模型对长文本处理过程中,计算量的主要开销集中在自注意力机制(self-attention),其开销随着文本长度成平方次地增加。

针对这个问题,研究团队提出LongLoRA技术,并用分组和偏移的方式来对全局自注意力机制进行模拟

100e3a7e-6d58-11ee-939d-92fbcf53809c.png

简单来说,就是将长文本对应的tokens拆分成不同的组,在每组内部做自注意力计算,而分组的方式在不同注意力头(attention head)上有所偏移。

这样的方式既可以大幅度节约计算量,又可以维持全局感受野的传递。

而且,这个实现方法也非常简洁,仅两行代码即可完成!

10135b12-6d58-11ee-939d-92fbcf53809c.png

除此之外,LongLoRA还探索了低秩训练的方式。

原有的低秩训练方式,如LoRA[5],无法在文本长度迁移上取得良好的效果。

而LongLoRA在低秩训练的基础上,引入嵌入层(Embedding layer和 Normalization layers)进行微调,从而达到可以和全参数微调(Full fine-tune)逼近的效果。

101f5340-6d58-11ee-939d-92fbcf53809c.png

进行不同长度文本扩展和训练时,LongLoRA、LoRA和全参数微调不同技术的具体效果如何,可以参考三个维度表现:

在Perplexity-困惑度上,原有LoRA方法的性能在不断恶化,而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果;

在显存消耗上,相比于全参数微调,LongLoRA和原有LoRA都有大幅度的节省。例如,对于8k长度的模型训练,相比于全参数微调,LongLoRA将显存消耗从46.3GB降低到25.6GB。

在训练时间上,对于64k长度的模型训练,相比于常规LoRA,LongLoRA将训练时间从90~100小时左右降低到52.4小时,而全参数微调超过1000小时。

极简的训练方法、极少的计算资源和时间消耗,以及极佳的准确性,令LongLoRA大规模推广成为可能。

目前,相关技术与模型已全部开源,感兴趣的用户们可以自己部署感受。

值得一提的是,这是贾佳亚团队继8月9日发布的「可以分割一切」的多模态大模型LISA后的又一力作。

相距不过短短两个月,不得不说,这研究速度和能力跟LongLoRA一样惊人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    436

    浏览量

    10059
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24360
  • LLM
    LLM
    +关注

    关注

    0

    文章

    202

    浏览量

    234

原文标题:2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    单日获客成本超20万,国产大模型开卷200万字以上的长文本处理

    更精准的推理和高并发流量以外,似乎已经没有太多值得厂商大肆宣传的特性了,直到最近超长文本处理的爆火。   国产大模型的新卷法,长文本处理   当下将大模型长文本处理炒热的,无疑是来自月之暗面的Kimi。作为去年
    的头像 发表于 03-27 00:53 2762次阅读
    单日获客成本超20万,国产大模型开卷200万字以上的<b class='flag-5'>长文本</b>处理

    科大讯飞创新推出长文本、长图文、长语音大模型,解决落地难题

    近期,科大讯飞推出了首个支持长文本、长图及语音大数据处理的大模型,该系统融合了多元化数据源,包括海量文字、图片以及会议音频等,能为各行业场景提供专业化、精准化的答案。
    的头像 发表于 04-28 09:32 77次阅读

    正力新能发布首款双重半固态超长续航大圆柱电池—正力·骐龙

    4月19日,以“极能·无限”为主题的正力新能2024超长续航产品发布会在江苏常熟举行。基于“LISA3-2-1”研发战略,正力新能推出极能技术电池产品,并发布首款双重半固态
    的头像 发表于 04-19 17:53 541次阅读

    Kimi爆火背后的技术奥秘 大模型长文本能力的技术难点

    当用户认为在国内的大模型中,长文本=kimi的时候,除非竞争对手能以绝对的实力碾压几个量级,但凡与kimi打平或者是微弱超越,都很难威胁到kimi在用户心目中的地位。
    发表于 04-17 10:11 146次阅读
    Kimi爆火背后的<b class='flag-5'>技术</b>奥秘 大模型<b class='flag-5'>长文本</b>能力的<b class='flag-5'>技术</b>难点

    快速全面了解大模型长文本能力

    那关于LLM长文本能力,目前业界通常都是怎么做的?有哪些技术点或者方向?今天我们就来总结一波,供大家快速全面了解。
    发表于 02-22 14:04 307次阅读
    快速全面了解大模型<b class='flag-5'>长文本</b>能力

    鸿蒙原生应用/元服务开发-发布基础类型通知类型与接口

    基础类型通知主要应用于发送短信息、提示信息、广告推送等,支持普通文本类型、长文本类型、多行文本类型和图片类型。 表 基础类型通知中的内容分类 目前系统仅通知栏订阅了通知,将通知显示在通知栏里
    发表于 01-03 14:46

    鸿蒙原生应用/元服务开发-发布基础类型通知开发步骤

    对象,并发布通知。 1.普通文本类型通知由标题、文本内容和附加信息三个字段组成,其中标题和文本内容是必填字段。 let notificationRequest = { id: 1, c
    发表于 01-02 15:03

    低比特量化技术如何帮助LLM提升性能

    针对大语言模型 (LLM) 在部署过程中的性能需求,低比特量化技术一直是优化效果最佳的方案之一,本文将探讨低比特量化技术如何帮助 LLM 提升性能,以及新版 OpenVINO 对于低比
    的头像 发表于 12-08 15:26 642次阅读
    低比特量化<b class='flag-5'>技术</b>如何帮助<b class='flag-5'>LLM</b>提升性能

    LLM在生成摘要方面效果到底如何?

    文本摘要,作为自然语言生成(NLG)中的一项任务,主要用来将一大段长文本压缩为简短的摘要,例如新闻文章、源代码和跨语言文本等多种内容都能用到。
    发表于 09-21 11:34 328次阅读
    <b class='flag-5'>LLM</b>在生成摘要方面效果到底如何?

    Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

    今天,Meta发布了Code Llama,一款可以使用文本提示生成代码的大型语言模型(LLM)。
    的头像 发表于 08-25 09:06 955次阅读
    Meta<b class='flag-5'>发布</b>一款可以使用<b class='flag-5'>文本</b>提示生成代码的大型语言模型Code Llama

    LLM的长度外推浅谈

    苏神最早提出的扩展LLM的context方法,基于bayes启发得到的公式
    的头像 发表于 07-28 17:37 1575次阅读
    <b class='flag-5'>LLM</b>的长度外推浅谈

    Macaw-LLM:具有图像、音频、视频和文本集成的多模态语言建模

    尽管指令调整的大型语言模型 (LLM) 在各种 NLP 任务中表现出卓越的能力,但它们在文本以外的其他数据模式上的有效性尚未得到充分研究。在这项工作中,我们提出了 Macaw-LLM,一种新颖的多模式
    的头像 发表于 06-19 10:35 958次阅读
    Macaw-<b class='flag-5'>LLM</b>:具有图像、音频、视频和<b class='flag-5'>文本</b>集成的多模态语言建模

    ETH提出RecurrentGPT实现交互式超长文本生成

    RecurrentGPT 则另辟蹊径,是利用大语言模型进行交互式长文本生成的首个成功实践。它利用 ChatGPT 等大语言模型理解自然语言指令的能力,通过自然语言模拟了循环神经网络(RNNs)的循环计算机制。
    的头像 发表于 05-29 14:34 609次阅读
    ETH提出RecurrentGPT实现交互式<b class='flag-5'>超长文本</b>生成

    如何利用LLM做多模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口
    的头像 发表于 05-22 15:57 521次阅读
    如何利用<b class='flag-5'>LLM</b>做多模态任务?

    如何利用LLM做多模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口并且不会透露任何模型上
    的头像 发表于 05-11 17:09 682次阅读
    如何利用<b class='flag-5'>LLM</b>做多模态任务?