0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LoRA继任者ReLoRA登场,通过叠加多个低秩更新矩阵实现更高效大模型训练效果

深度学习自然语言处理 来源:将门创投 2023-08-25 17:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文是一篇专注于减轻大型Transformer语言模型训练代价的工作。作者提出了一种基于低秩更新的ReLoRA方法。过去十年中深度学习发展阶段中的一个核心原则就是不断的“堆叠更多层(stack more layers),因此作者希望探索能否同样以堆叠的方式来提升低秩适应的训练效率,实验结果表明,ReLoRA在改进大型网络的训练方面更加有效。

c080cd7c-4323-11ee-a2ef-92fbcf53809c.png

论文链接: https://arxiv.org/abs/2307.05695 代码仓库: https://github.com/guitaricet/peft_pretraining

一段时间以来,大模型(LLMs)社区的研究人员开始关注于如何降低训练、微调和推理LLMs所需要的庞大算力,这对于继续推动LLMs在更多的垂直领域中发展和落地具有非常重要的意义。目前这一方向也有很多先驱工作,例如从模型结构上创新的RWKV,直接替换计算量较大的Transformer架构,改用基于RNN范式的新架构。还有一些方法从模型微调阶段入手,例如在原有LLMs中加入参数量较小的Adapter模块来进行微调。还有微软提出的低秩自适应(Low-Rank Adaptation,LoRA)方法,LoRA假设模型在任务适配过程中对模型权重的更新量可以使用低秩矩阵进行估计,因而可以用来间接优化新加入的轻量级适应模块,同时保持原有的预训练权重不变。目前LoRA已经成为大模型工程师必备的一项微调技能,但本文作者仍然不满足于目前LoRA所能达到的微调效果,并进一步提出了一种可叠加的低秩微调方法,称为ReLoRA。

本文来自马萨诸塞大学洛厄尔分校的研究团队,作者团队将ReLoRA应用在具有高达350M参数的Transformer上时,展现出了与常规神经网络训练相当的性能。此外,本文作者还观察到ReLoRA的微调效率会随着模型参数规模的增加而不断提高,这使得其未来有可能成为训练超大规模(通常超过1B参数)LLMs的新型手段。

一、引言虽然目前学术界和工业界都在不断推出自家的各种基座模型,但不可否认的是,完全预训练一个具有初等推理能力的LLMs仍然需要非常庞大的算力,例如大家熟知的LLaMA-6B模型[1]就需要数百个GPU才能完成训练,这种规模的算力已经让绝大多数学术研究小组望而却步了。在这种背景下,参数高效微调(PEFT)已经成为了一个非常具有前景的LLMs研究方向。具体来说,PEFT方法可以在消费级GPU(例如RTX 3090或4090)上对十亿级语言或扩散模型进行微调。因此本文重点关注PEFT中的低秩训练技术,尤其是LoRA方法。作者思考到,过去十年中深度学习发展阶段中的一个核心原则就是不断的“堆叠更多层(stack more layers)”,例如ResNet的提出可以使我们将卷积神经网络的深度提升到100层以上,并且也获得了非常好的效果。因此本文探索能否同样以堆叠的方式来提升低秩适应的训练效率呢?

c0a6266c-4323-11ee-a2ef-92fbcf53809c.png

本文提出了一种基于低秩更新的ReLoRA方法,来训练和微调高秩网络,其性能优于具有相同可训练参数数量的网络,甚至能够达到与训练100M+规模的完整网络类似的性能,对比效果如上图所示。具体来说,ReLoRA方法包含(1)初始化全秩训练、(2)LoRA 训练、(3)参数重新启动、(4)锯齿状学习率调度(jagged learning rate schedule)和(5)优化器参数部分重置。作者选择目前非常火热的自回归语言模型进行实验,并且保证每个实验所使用的GPU计算时间不超过8天。二、本文方法作者首先从两个矩阵之和的秩入手,通常来说,矩阵相加的后秩的上界会比较紧凑,对于矩阵,,然后存在矩阵,,使得矩阵之和的秩高于或。作者希望利用这一特性来制定灵活的参数高效训练方法,然后从LoRA算法开始入手,LoRA可以将模型权重的更新量 分解为一组低秩矩阵乘积 ,如下式所示,其中 是固定缩放因子。

c0cbdf24-4323-11ee-a2ef-92fbcf53809c.png

在具体操作时,LoRA通常是加入新的可学习参数 和 来实现,这些参数可以在训练后合并回原始参数中。因此,尽管上述方程允许我们在训练阶段中实现总参数更新量高于任意单个矩阵的秩,但其仍然受到的限制。因此作者想到通过不断叠加这一过程来突破限制达到更好的训练效果。这首先需要对LoRA过程进行重新启动,就可以在训练阶段不断合并每次得到的 和 来得到累加的权重更新量,计算公式如下:但是,想要对已经完成的LoRA过程重新启动并不容易,这需要对优化器进行精细的调整,如果调整不到位,会导致模型在重启后立即与之前的优化方向出现分歧。例如Adam优化器在更新时主要由先前步骤中所累积梯度的一阶矩和二阶矩引导。实际上,梯度矩平滑参数 和 通常非常高,因而在重新启动时的秩上界为 ,相应的梯度矩 和 都是满秩的,在合并参数后就会使用先前的旧梯度来优化 朝向与 相同的子空间方向。 为了解决这个问题,作者提出了ReLoRA方法,ReLoRA在合并和重新启动期间可以对优化器进行部分重置,并在随后的预热中过程中将学习率设置为0。具体来说,作者提出了一种锯齿状学习率调度算法,如下图所示,在每次对ReLoRA参数进行重置时,都会将学习率设置为零,并执行快速(50-100 步)学习率预热使其回到与重置前相同的水平范围内。

c0e31cb6-4323-11ee-a2ef-92fbcf53809c.png

ReLoRA通过序列叠加的方式仅训练一小组参数就可以实现与全秩训练相当的性能,并且遵循LoRA方法的基础原则,即保持原始网络的冻结权重并添加新的可训练参数。乍一看,这种方式可能显得计算效率低下,但我们需要清楚的是,这种方法可以通过减小梯度和优化器状态的大小,来显著提高显存效率。例如Adam优化器状态消耗的显存通常是模型权重占用的两倍。通过大幅减少可训练参数的数量,ReLoRA可以在相同的显存条件下使用更大的batchsize大小,从而最大限度地提高硬件效率,ReLoRA的整体操作细节如下图所示。

c0eb4382-4323-11ee-a2ef-92fbcf53809c.png

三、实验效果为了清晰的评估ReLoRA方法的性能,作者将其应用在各种规模大小(60M、130M、250M 和 350M)的Transformer模型上,并且都在C4数据集上进行训练和测试。为了展现ReLoRA方法的普适性,作者重点考察NLP领域的基础语言建模任务。模型架构和训练超参数设置基本与LLaMA模型保持一致。与LLaMA不同的是,作者在实验中将原始的注意力机制(使用float32进行 softmax计算)替换为了Flash注意力[2],并且使用bfloat16精度进行计算,这样操作可以将训练吞吐量提高50-100%,且没有任何训练稳定性问题。此外,使用ReLoRA方法训练的模型参数规模相比LLaMA要小得多,最大的模型参数才仅有350M,使用8个RTX4090上训练了一天时间就可以完成。 下图展示了本文方法与其他方法的性能对比效果,可以看到ReLoRA显着优于低秩LoRA方法,证明了我们提出的修改的有效性。此外,ReLoRA还实现了与满秩训练(Full training)相当的性能,并且我们可以观察到,随着网络规模的增加,性能差距逐渐缩小。有趣的是,ReLoRA 唯一无法超过的基线模型是仅具有60M参数的最小模型。这一观察结果表明,ReLoRA在改进大型网络的训练方面更加有效,这与作者最开始研究探索一种改进大型网络训练方法的目标是一致的。

c10991c0-4323-11ee-a2ef-92fbcf53809c.png

此外,为了进一步判断ReLoRA是否能够通过迭代低秩更新来实现相比LoRA更高的秩更新训练,作者绘制了ReLoRA、LoRA和全秩训练的热启动权重与最终权重之间差异的奇异值谱。如下图所示,下图说明了LoRA和ReLoRA之间对于 、、 和 奇异值的显著差异,可以看到ReLoRA在所有四个矩阵参数上均得到了最小的奇异值。

c12dc658-4323-11ee-a2ef-92fbcf53809c.png

四、总结本文是一篇专注于减轻大型Transformer语言模型训练代价的工作,作者选取了一条非常具有前景的方向,即低秩训练技术,并且从最朴素的低秩矩阵分解 (LoRA) 方法出发,利用多个叠加的低秩更新矩阵来训练高秩网络,为了实现这一点,作者精心设计了包含参数重新启动、锯齿状学习率调度算法和优化器参数重置等一系列操作,这些操作共同提高了ReLoRA算法的训练效率,在某些情况下甚至能够达到与全秩训练相当的性能,尤其实在超大规模的Transformer网络中。作者通过大量的实验证明了ReLoRA的算法可行性和操作有效性,不知ReLoRA是否也会成为大模型工程师一项必备的算法技能呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108175
  • 深度学习
    +关注

    关注

    73

    文章

    5607

    浏览量

    124629
  • LoRa
    +关注

    关注

    355

    文章

    1917

    浏览量

    238418
  • 大模型
    +关注

    关注

    2

    文章

    3771

    浏览量

    5271

原文标题:LoRA继任者ReLoRA登场,通过叠加多个低秩更新矩阵实现更高效大模型训练效果

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI大模型微调企业项目实战课

    )技术 直接全量微调大模型依然面临显存爆炸的风险。实战课会深入剖析以 LoRA自适应)为代表的 PEFT 技术。它如同给大模型外挂了一
    发表于 04-16 18:48

    【2025夏季班正课】大模型Agent智能体开发实战 课分享

    关键一环,通过在输入端与输出端植入基于规则或小模型的过滤机制,确保智能体在极端情况下依然能够保持安全与合规,防止提示注入攻击与有害内容的生成。 再者,体系化方法要求实现从“模型驱动”向
    发表于 03-29 16:12

    迈向吉瓦级AI工厂的能源变革:英伟达Rubin平台电源架构解析

    随着人工智能(AI)模型参数量突破万亿级别,从大语言模型(LLM)的训练向推理、以及更高级的代理型AI(Agentic AI)演进,数据中心正在经历一场从“计算集群”向“AI工厂”的根
    的头像 发表于 01-15 17:42 962次阅读
    迈向吉瓦级AI工厂的能源变革:英伟达Rubin平台电源架构解析

    LoRa扩频技术应用

    信道受干扰,仍可通过其他信道完成通信,大幅提升通信成功率与系统稳定性。 2. 远距高穿透,覆盖广泛 相比传统FSK调制,LoRa在相同功耗下可实现更远的传输距离与更强的障碍物穿透能力,轻松应对复杂环境
    发表于 12-15 14:26

    Lora基站作用

    ,可以实现对物联网设备的远程监测和控制。   2. 网络连接  Lora基站可以将Lora节点连接到互联网,实现物联网设备的远程管理和控制。Lora
    发表于 12-04 07:45

    LoRa基站与网关概念

    对设备的控制和管理。 LoRa基站通常具有较高的发射功率和接收灵敏度,可以实现长距离通信。同时,LoRa基站还可以连接多个物联网设备,从而实现
    发表于 12-02 08:30

    Lora技术应用领域

    1. 物联网应用:Lora技术的远距离传输特性使其在物联网应用中得到广泛应用。通过Lora技术,可以实现智能城市、智能家居、智能农业等多种物联网应用,为人们的生活带来便利和舒适。 2.
    发表于 11-26 08:10

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    , batch_size=512, epochs=20)总结 这个核心算法中的卷积神经网络结构和训练过程,是用来对MNIST手写数字图像进行分类的。模型将图像作为输入,通过卷积和池化层提取图像的特征,然后
    发表于 10-22 07:03

    LORA无线通信模块怎么组网

    LoRa无线通信模块的组网通过低功耗广域网络(LPWAN)协议,允许在远距离、低功耗的条件下实现设备间的数据通信。LoRa网络通常采用星型拓扑结构,所有
    的头像 发表于 10-20 14:49 1225次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    运算符用于编码器层和解码器层。 ②LightSeq2采用了混合精度更新进行训练。 ③LightSeq2推出了加速整个Transformer训练过程的方案。 4、基于FPGA的大模型计算
    发表于 09-12 17:30

    利用自压缩实现大型语言模型高效缩减

    随着语言模型规模日益庞大,设备端推理变得越来越缓慢且耗能巨大。一个直接且效果出人意料的解决方案是剪除那些对任务贡献甚微的完整通道(channel)。我们早期的研究提出了一种训练阶段的方法——自压
    的头像 发表于 07-28 09:36 653次阅读
    利用自压缩<b class='flag-5'>实现</b>大型语言<b class='flag-5'>模型</b><b class='flag-5'>高效</b>缩减

    【Sipeed MaixCAM Pro开发板试用体验】 + 04 + 机器学习YOLO体验

    的 优点就是精度更高 , 拥有更多可选择的训练模型 ,其次就是不用担心因为 训练人数过多而导致的时长增加问题 ,缺点就是 搭建成本更高
    发表于 07-24 21:35

    SC11 FP300 MLA算子融合与优化

    ,降低推理过程中需要的KVcache,提升推理效率。MLA对attention过程中的Query也进行了压缩,可以减少训练过程中激活的内存。大模型的推理分为两阶
    的头像 发表于 06-27 14:32 1734次阅读
    SC11 FP300 MLA算子融合与优化

    运行kmodel模型验证一直报错怎么解决?

    我这运行kmodel模型验证一直报错,所以没法做kmodel模型好坏验证,不知道怎么解决这个问题,重新训练一个kmodel模型会和拿相同pt训练
    发表于 06-10 08:02

    海思SD3403边缘计算AI数据训练概述

    模型,将模型转化为嵌入式AI模型模型升级AI摄像机,进行AI识别应用。 AI训练模型是不断迭
    发表于 04-28 11:11