0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

北大&华为提出:多模态基础大模型的高效微调

CVer 来源:CVer 2023-11-08 16:20 次阅读

很荣幸我们近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023录用!

0a78a91c-7d2c-11ee-939d-92fbcf53809c.png

https://arxiv.org/abs/2305.08381

这是我们第一篇拓展至多模态领域的高效微调的工作,在该工作中我们首次采用模式逼近(mode apprximation)的方法来进行大模型的轻量化高效微调,仅需训练预训练大模型0.04%的参数。同时我们设计了两个启发性模块来增强高效微调时极低参数条件下的模态对齐。实验上,我们在六大跨模态基准测试集上进行全面评估显示,我们的方法不仅超越当前的sota, 还在一些任务上优于全量微调方法。

论文的相关代码也会开源在这个GitHub项目:

github.com/WillDreamer/Aurora

大模型的高效微调是一个非常新且日渐繁荣的task,欢迎小伙伴们一起学习交流~

一、背景

深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显缺点。第一,它带来巨大的计算和物理存储成本,使预训练和迁移变得非常昂贵。第二,微调限制了预训练知识在小规模数据量的下游任务中的应用效果。这两点阻碍了大模型从特定数据集扩展到更广泛场景。

为缓解预训练大模型的高昂成本,一系列参数高效微调方法相继提出。其通用范式是冻结大模型的骨干网络,并引入少量额外参数。最近,一些工作开始关注多模态领域的高效微调任务,例如UniAdapter、VL-Adapter和MAPLE。但是,它们的通用思路是将自然语言处理领域的现有架构用于多模态模型并组合使用,然后直接在单模态和多模态分支的骨干网络中插入可训练参数以获得良好表现。直接、简单的设计无法将参数高效迁移的精髓融入多模态模型。此外,还有两个主要挑战需要面对: (1)如何在极轻量级高效微调框架下进行知识迁移;(2)在极低参数环境下如何提高各模态间的对齐程度。

0a83d436-7d2c-11ee-939d-92fbcf53809c.jpg

图1:与现有主流的高效微调方法的对比

在这篇文章中,我们尝试解决这两种挑战,贡献可以总结为:

介绍了名为Aurora的多模态基础大模型高效微调框架,它解决了当前大规模预训练和微调策略的局限性。

提出了模式近似(mode approximation)方法来生成轻量级可学习参数,并提出了两个启发性模块来更好地增强模态融合。

通过六个跨模态任务和两个零样本任务进行实验验证,结果显示Aurora相比其他方法取得了最先进的性能,同时也只使用最少的可学习参数。

二、高效微调的轻量化架构的设计

0a9c301c-7d2c-11ee-939d-92fbcf53809c.png

0aa7d0e8-7d2c-11ee-939d-92fbcf53809c.jpg

Aurora的整体过程示意图。

三、高效微调的模态对齐的设计

3.1 Informative Context Enhancement

该模块的目标是为了实现更好的模态对齐,在交叉注意力模块后的融合特征中提供提示文本来更好的激活。受“上下文学习”这一领域的进步启发,我们意识到为提示词提供示范模板是很重要的。最直观的方法是对图像与文本对进行对齐,以获得更多跨模态上下文信息。但是,即使与相关图像区域匹配,描述这些区域的文本可能还是有多个选择。一些文本可能准确概括图像内容,而另一些可能不行。在没有事先匹配文本信息的先验情况下,我们决定引入上下文增强模块来涵盖各个方面的可能的文本信息。

0ab5ae84-7d2c-11ee-939d-92fbcf53809c.png

四、实验结果

4.1 实验设置

数据集与基准比较。我们在六个跨模态任务领域的benchmark上评估了Aurora,这些任务包括图片文本检索、问答(QA)、视频文本检索和视频QA。我们将Aurora与两类方法进行比较:完全微调后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多细节请参阅附录。

实现细节。我们的实现基于Salesforce开源代码库。与UniAdapter一致,我们使用BLIP-base作为所有多模态下游任务的视觉语言初始化权重。我们使用PyTorch在8台NVIDIA V100 GPU(32G)设备上实现所有实验。我们使用AdamW优化器,设置权重衰减为0.05,学习率通过网格搜索得到为1e-4。需要注意的是,在微调过程中,参数组只更新交叉注意模块的权重, backbone初始化权重不更新。

4.2 实验结果

0ac0ab9a-7d2c-11ee-939d-92fbcf53809c.jpg

Image-Text Retrieval

0acbc44e-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text Retrieval

0ae334da-7d2c-11ee-939d-92fbcf53809c.jpg

VQA

0aee2c1e-7d2c-11ee-939d-92fbcf53809c.jpg

实验气泡图

4.3 消融实验

0b151b8a-7d2c-11ee-939d-92fbcf53809c.jpg

How Rank of CP Decomposition Affects Aurora?

0b2deebc-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Informative Context Enhancement

0b4231f6-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Gated Query Transformation?

0b467522-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Parameter Sharing?

4.4 可视化分析

0b59e8a0-7d2c-11ee-939d-92fbcf53809c.jpg

参数分布可视化

0b694610-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text retrieval cases on MSRVTT

0b74c512-7d2c-11ee-939d-92fbcf53809c.jpg

Video Question Answering cases on MSRVTT-QA

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 框架
    +关注

    关注

    0

    文章

    297

    浏览量

    17045
  • 深度学习
    +关注

    关注

    73

    文章

    5239

    浏览量

    119910
  • 大模型
    +关注

    关注

    2

    文章

    1529

    浏览量

    1116

原文标题:NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    c语言编程规范--华为+北大青鸟

    c语言编程规范--华为+北大青鸟
    发表于 05-09 15:01

    Altera & 华为5G竞赛

    `Altera & 华为5G竞赛已经全面开始报名了,即日起至6月11日截止。三大算法:1SCMA 稀疏码址接入2F-OFDM 基础波形3Polar Code高性能纠错
    发表于 05-15 14:55

    简单的模型进行流固耦合的模态分析

      本次分享,对一个简单的模型进行流固耦合的模态分析,有限元科技小编主要给大家演示如何使用Hypermesh与Nastran对流固耦合的结构进行模态分析,以及了解声腔对结构模态的影响。
    发表于 07-07 17:15

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    发表于 04-14 08:52 0次下载
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    发表于 04-14 08:55 0次下载
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    发表于 06-17 15:53 0次下载
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    发表于 06-17 15:55 2次下载
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    存储类&amp;作用域&amp;生命周期&amp;链接属性

    目录前言一、存储类&amp;amp;作用域&amp;amp;生命周期&amp;amp;链接属性的
    发表于 12-09 15:51 5次下载
    存储类&<b class='flag-5'>amp</b>;作用域&<b class='flag-5'>amp</b>;生命周期&<b class='flag-5'>amp</b>;链接属性

    如何区分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先给i赋值为0,如果i大于10,并且i++等于1,则输出“错误”和i的值。否则输出“正确”和i的值。分别用&amp;和&amp;&amp;运行,观察运行结果的不同。
    的头像 发表于 02-24 10:46 1224次阅读
    如何区分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    if(a==1 &amp;amp;&amp;amp; a==2 &amp;amp;&amp;amp; a==3),为true,你敢信?

    接下来咱们来尝试解决这个问题。假设 if(a==1&amp;&amp;a==12)是等于 true的,那么a肯定不可能是一个“普通的变量”。它势必要有能力在执行的时候能够动态改动值。
    的头像 发表于 05-08 11:01 754次阅读
    if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),为true,你敢信?

    HarmonyOS &amp;amp;amp;amp;润和HiSpark 实战开发,“码”上评选活动,邀您来赛!!!

    润和HiHope社区与华为开发者联盟 诚邀各位技术大咖与开发实力派 来show出你们的开发成果 HarmonyOS &amp;amp; 润和HiSpark 实战开发,&amp;l
    的头像 发表于 04-11 15:33 829次阅读
    HarmonyOS &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;润和HiSpark 实战开发,“码”上评选活动,邀您来赛!!!

    云上有「医」靠:同云科技携手拓维信息&amp;amp;amp;华为云推动基层医疗信息化

    云上有「医」靠:同云科技携手拓维信息&amp;华为云推动基层医疗信息化
    的头像 发表于 02-22 11:18 539次阅读
    云上有「医」靠:同云科技携手拓维信息&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>华为</b>云推动基层医疗信息化

    单张消费级显卡微调模态模型

    把大模型的训练门槛打下来!我们在单张消费级显卡上实现了多模态模型(LaVIN-7B, LaVIN-13B)的适配和训练
    的头像 发表于 06-30 10:43 1364次阅读
    单张消费级显卡<b class='flag-5'>微调</b>多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    摄像机&amp;amp;amp;雷达对车辆驾驶的辅助

    摄像机&amp;amp;雷达担负着可辅助驾驶员安全驾驶的、高级驾驶辅助系统的传感功能。尼得科正在进一步推进摄像机&amp;amp;雷达的高性能化进程。
    的头像 发表于 11-26 10:02 520次阅读
    摄像机&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;雷达对车辆驾驶的辅助

    中科大&amp;amp;字节提出UniDoc:统一的面向文字场景的多模态模型

    如上图所示,UniDoc基于预训练的视觉大模型及大语言模型,将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务,通过多模态指令
    的头像 发表于 08-31 15:29 1078次阅读
    中科大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;字节<b class='flag-5'>提出</b>UniDoc:统一的面向文字场景的多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>