0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒

人工智能与大数据技术 来源:新智元 2023-10-18 15:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】大模型上下文从此不再受限!港中文贾佳亚团队联手MIT发布了全新超长文本扩展技术LongLoRA,只需2行代码,让LLM看小说,读论文,轻松拿捏。

中途迷失、模型偷懒、上下文越长大模型越笨……

体验过LLM的人,多少都会对文本输入长度带来的限制有所感触:

想和大模型讨论一些稍长的内容,就需要拆分输入,而前面输入的要点,很快就会被大模型忘记。

实际上,这些都是典型的大语言模型对话缺陷。就像先天有注意力缺陷的儿童,难以专注看完一本新书。而缺陷的关键,在于模型缺乏长文本处理能力。

如今,这个局面已经被打破了!

就在近日,由贾佳亚团队联合MIT发布的新技术和新模型,悄然登上各大开源网站的热榜:

Hugging Face热榜第一、Papers With Code热度第一,Github全部Python项目热度第五、Github Stars一周内破千,Twitter上的相关技术帖子浏览量近18万。..。..

0f7c3d5e-6d58-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/abs/2309.12307

代码和Demo地址:https://github.com/dvlab-research/LongLoRA

0f8c40e6-6d58-11ee-939d-92fbcf53809c.png

GitHub Stars已达1.3k

0f9797d4-6d58-11ee-939d-92fbcf53809c.png

Twitter上的相关技术帖子浏览量近18万

这项名为LongLoRA的技术实用但却简单得令人惊讶:

只需两行代码、一台8卡A100机器,便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens。

同时,该研究团队还发布了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。

全球首个70B长文本大语言模型发布

LongLoRA的提出,让全球大语言模型的对话缺陷第一次得到解决,自此,几十页的论文、几百页的报告、鸿篇巨制不再成为大模型盲区。

对此,有专业人士激动地表示,LongLoRA是大语言模型迷宫中的希望之灯!

它代表着业界对长文本大语言模型的重新思考和关注,有效扩展了大语言模型的上下文窗口,允许模型考虑和处理较长的文本序列,是大语言模型的革新性发明。

0fa3aa1a-6d58-11ee-939d-92fbcf53809c.png

除了技术革新外,大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。

为此,研究团队特意收集了9k条长文本问答语料对,包含针对名著、论文、深度报道甚至财务报表的各类问答。

光会回答长问题还不够,该团队又挑选了3k的短问答语料与9K的长问答语料混合训练,让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为LongAlpaca-12k,目前已经开源。

在LongAlpaca-12k数据集基础上,研究团队对不同参数大小7B、13B、70B进行了训练和评测,开源模型包括LongAlpaca-7B、LongAlpaca-13B和LongAlpaca-70B。

看小说、改论文、指点经济堪称全能王

话不多说,盲选几个demo,一起看看应用了LongLoRA技术叠加12K问答语料的大模型LongAlpaca效果。

0fad40ca-6d58-11ee-939d-92fbcf53809c.png

让系统新读一篇论文,并根据ICLR的审查指南,对其提出修改意见,从而提升该论文的接收率:

LongAlpaca的意见是:通过更精确地阐明新颖性,提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向,重点呈现关键贡献和影响,论文被接受的机会将得到提高。

0fcaaae8-6d58-11ee-939d-92fbcf53809c.png

现在,让系统读两篇新的不同的论文,让LongAlpaca概括ICLR和CVPR两个会议之间的风格区别:

LongAlpaca总结认为,CVPR论文倾向更具结构性和实验性的风格,专注于实用性和技术性。而ICLR的论文风格更加灵活,侧重关键的理论分析和数学推导,而非标准格式。

可以看出,经过训练的LongAlpaca模型已经可以很轻松地接受新的长篇学术论文,在学术相关问题的回答上相当精准。

接下来,再看看LongAlpaca模型在颇高阅读和理解门槛的经济领域的解读表现。

0fd011c2-6d58-11ee-939d-92fbcf53809c.png

0fe03494-6d58-11ee-939d-92fbcf53809c.png

根据国际货币基金组织从2012年到2023年的全球经济展望的概述合集,对经济形势进行逐年总结以及对未来经济趋势进行预测:

LongAlpaca告诉我们,2023年全球经济形势不明朗,跟2022年相比,增长预计放缓;未来几年,全球经济扩张速度偏温和并将低于预期,而地缘政治紧张、金融市场波动等大的挑战依然存在,需通过多边合作和结构性改革小心应对。

此外,LongAlpaca还可以读新的长篇小说,读完后对内容进行分析。

下面选取的对比模型是13B参数的LongAlpaca和Llama2,且看各自表现。

0fe4e098-6d58-11ee-939d-92fbcf53809c.png

名著《西游记》中,为什么孙悟空在大闹天宫时很厉害,但取经路上却屡屡受挫?

LongAlpaca给出了5点原因,大概可总结为:「孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移,他获得了智慧、经验和战友,使他最终战胜了最强大的敌人。」

而Llama2并没有给出正确答案:「虽然他确实大闹天宫,但说他代表着不败的力量并不一定准确。事实上,他最终在西游记中被强大的唐三藏打败。」

0ff7dff4-6d58-11ee-939d-92fbcf53809c.png

这一次让系统新读一次《三体》,然后问第一部中,叶文洁为什么要联系外星人,而后期又为什么后悔?

LongAlpaca认为,叶文洁最初接触外星人是出于理想主义和复仇,但随着时间的推移,她对人类的看法发生了变化,意识到自己可能给全人类带来的危险,她的悔恨与日俱增。回答得十分清晰。

而Llama2的回答则是,「通过与外星人的互动,她希望能更深入地了解宇宙的本质,以及自己在宇宙中的位置。叶文洁逐渐意识到,外星人和他们的技术并不能解决她的问题。」回答笼统,之后开始对小说整体进行评论,答非所问。

从模型给出的答案可发现,一些模型如Llama2[2]可能在预训练过程中见过相关小说,但如果在提问时进行仅根据小说题目进行短文本提问的话,回答并不理想。

两个模型的回答对比,高下立见。LongAlpaca改学术论文、点评全球经济大势和读小说,都是一把好手,完胜Llama2。

两行代码和三个关键结论

Llama2可以说是AI社区内最强大的开源大模型之一,行业位置领先,LongAlpaca居然可以完胜。其背后的LongLoRA技术成功引起网友们的注意,到底是怎么做到的?

原来大语言模型对长文本处理过程中,计算量的主要开销集中在自注意力机制(self-attention),其开销随着文本长度成平方次地增加。

针对这个问题,研究团队提出LongLoRA技术,并用分组和偏移的方式来对全局自注意力机制进行模拟

100e3a7e-6d58-11ee-939d-92fbcf53809c.png

简单来说,就是将长文本对应的tokens拆分成不同的组,在每组内部做自注意力计算,而分组的方式在不同注意力头(attention head)上有所偏移。

这样的方式既可以大幅度节约计算量,又可以维持全局感受野的传递。

而且,这个实现方法也非常简洁,仅两行代码即可完成!

10135b12-6d58-11ee-939d-92fbcf53809c.png

除此之外,LongLoRA还探索了低秩训练的方式。

原有的低秩训练方式,如LoRA[5],无法在文本长度迁移上取得良好的效果。

而LongLoRA在低秩训练的基础上,引入嵌入层(Embedding layer和 Normalization layers)进行微调,从而达到可以和全参数微调(Full fine-tune)逼近的效果。

101f5340-6d58-11ee-939d-92fbcf53809c.png

进行不同长度文本扩展和训练时,LongLoRA、LoRA和全参数微调不同技术的具体效果如何,可以参考三个维度表现:

在Perplexity-困惑度上,原有LoRA方法的性能在不断恶化,而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果;

在显存消耗上,相比于全参数微调,LongLoRA和原有LoRA都有大幅度的节省。例如,对于8k长度的模型训练,相比于全参数微调,LongLoRA将显存消耗从46.3GB降低到25.6GB。

在训练时间上,对于64k长度的模型训练,相比于常规LoRA,LongLoRA将训练时间从90~100小时左右降低到52.4小时,而全参数微调超过1000小时。

极简的训练方法、极少的计算资源和时间消耗,以及极佳的准确性,令LongLoRA大规模推广成为可能。

目前,相关技术与模型已全部开源,感兴趣的用户们可以自己部署感受。

值得一提的是,这是贾佳亚团队继8月9日发布的「可以分割一切」的多模态大模型LISA后的又一力作。

相距不过短短两个月,不得不说,这研究速度和能力跟LongLoRA一样惊人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    573

    浏览量

    11341
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394

原文标题:2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Google正式发布LLM评测基准Android Bench

    LLM 在 Android 开发任务中的表现。现在,我们发布了 Android Bench 的首个版本,这是 Google 官方专门针对 Android 开发打造的 LLM 排行榜。
    的头像 发表于 03-14 16:00 1865次阅读
    Google正式<b class='flag-5'>发布</b><b class='flag-5'>LLM</b>评测基准Android Bench

    广州团队研制出机器人“触觉皮肤”

    应用的无限可能。 日前,科大(广州)訾云龙教授团队在国际顶尖期刊《先进材料》(《AdvancedMaterials》)上发表了最新研究成果,成功研制出全球首个毫米级分辨率的双模态触觉传感器阵列。据悉,该前沿
    的头像 发表于 03-11 15:43 1727次阅读

    新品 | LLM-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN标准嵌入式开发板

    LLM-8850Card基于AxeraAX8850SoC,采用M.2M-Key2242规格,在袖珍体积下即可提供高达24TOPS@INT8的算力,能够高效扩展多模态大模型推
    的头像 发表于 01-30 16:11 1356次阅读
    新品 | <b class='flag-5'>LLM</b>-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN标准嵌入式开发板

    广汽埃安UT在香港维多利亚港畔正式上市

    12月19日,广汽埃安UT在香港维多利亚港畔正式上市。埃安UT作为广汽面向全球市场打造的精品小车,不仅为香港用户带来了高科技、高品质的出行选择,更标志着广汽“One GAC 2.0”全球化战略下
    的头像 发表于 12-28 11:00 794次阅读

    【CIE全国RISC-V创新应用大赛】+ 一种基于LLM的可通过图像语音控制的元件库管理工具

    一种基于LLM的可通过图像语音控制的元件库管理工具 项目概述 ​ 库存管理在我们的生活中几乎无处不在,在许多小型的库存当中,比如实验室中的库存管理,往往没有人去专职维护,这就会导致在日积月累中逐渐
    发表于 11-12 19:32

    解密 IXE 离子捕捉剂:日本东亚合成如何破解电子行业的 “离子魔咒”?

    在电子技术向高密度、高可靠性升级的过程中,“离子魔咒” 始终如影随形 —— 银离子迁移导致 PCB 短路、氯离子腐蚀芯片布线、钠离子影响材料稳定性,这些隐形故障让无数电子工程师头疼不已。而日本东亚
    的头像 发表于 11-12 16:12 698次阅读
    解密 IXE 离子捕捉剂:日本东亚合成如何破解电子行业的 “离子<b class='flag-5'>魔咒</b>”?

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    ,TensorRT LLM 还承担着推理领域新技术载体的角色,通过将前沿创新引入 LLM 推理生态,持续提升整个生态系统合作伙伴的技术能力。
    的头像 发表于 10-21 11:04 1389次阅读

    中国团队成功创制纳米级关键材料

    据科技日报报道;安徽师范大学传来好消息,安徽师范大学校长熊宇杰教授联合中国科学技术大学相关科研团队,在温和条件下利用激光辐照所激发的等离激元光热效应和热电子效应,成功创制出纳米级高熵合金,这一
    的头像 发表于 10-20 15:58 780次阅读

    广和通发布端侧情感对话大模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端侧情感对话大模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端场景提供“情感理解-情感响应”一体化能力,推动终端人工智能向更具人性化、情感化的方向演进。
    的头像 发表于 09-26 13:37 2013次阅读

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    。 从技术内核看,它通过 “视觉编码器 + LLM + 对话管家” 的模块化设计,平衡了推理性能与开发灵活性:W4A16 量化方案让 30 亿参数模型适配 6 TOPS 算力,KV-Cache 动态
    发表于 09-05 17:25

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3604次阅读
    3万字<b class='flag-5'>长文</b>!深度解析大语言模型<b class='flag-5'>LLM</b>原理

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    了精准的方言及小语种大语言模型 (LLM)。此举成功解决了数据稀缺、语言复杂及计算效率等挑战,为全球数以百万计、缺乏数字化资源的语言使用者提供了技术支持。
    的头像 发表于 08-20 14:21 1010次阅读

    佛瑞如何通过信息技术推动业务增长

    在数字化、信息化的浪潮下,信息技术已经不仅是后台工具,更成为驱动企业发展的关键力量。本期Women Inspiring Mobility,我们采访了佛瑞中国区信息技术总监马瑛,了解她和团队
    的头像 发表于 07-29 14:00 1032次阅读

    LM Studio使用NVIDIA技术加速LLM性能

    随着 AI 使用场景不断扩展(从文档摘要到定制化软件代理),开发者和技术爱好者正在寻求以更 快、更灵活的方式来运行大语言模型(LLM)。
    的头像 发表于 06-06 15:14 1420次阅读
    LM Studio使用NVIDIA<b class='flag-5'>技术</b>加速<b class='flag-5'>LLM</b>性能

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。https
    的头像 发表于 04-30 18:34 1439次阅读
    小白学大模型:从零实现 <b class='flag-5'>LLM</b>语言模型