0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

领域迁移一种简单而有效的方法Alter

深度学习自然语言处理 来源:哈工大SCIR 作者:朱海潮 2022-04-07 09:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1. 介绍

机器阅读理解旨在根据给定上下文来回答相关问题,近年来在工业界与学术界均得到了广泛的关注,目前最先进的系统都是基于预训练模型构建的。即便如此,仍然需要大量标注数据才能达到比较理想的结果,对于一些缺乏大规模有标注数据领域和场景,现有模型的迁移效果往往并不令人满意。相关工作[1,2]探索利用无标注的目标领域文本进行领域迁移,但这种方法无法使模型对目标领域的问题进行有效建模。在本文中,我们利用少量的标注数据,通过对在大规模有标注领域上训练过的模型进行迁移,来提高在目标领域上的表现。另一方面,基于Transformer的预训练模型通常包含至少上亿个参数,如BERT Base的大小为110M。鉴于目标领域只有少量的标注数据,调整全部参数以适应目标领域非常困难,而且也是不必要的。另外,有研究[6]表明大规模稠密的神经网络模型有过参数化(over-parameterized)的趋势。我们探索只利用一小部分参数进行领域迁移,这些参数对应原稠密神经网络模型中的一个稀疏子网络。此外,我们还引入对自注意力模块的分析,来找到更具迁移性的稀疏子网络。最后,我们在多个目标领域上进行了实验,取得超过多种基线方法的效果,我们还对提出的方法进行了仔细的分析。

f28744a0-b60b-11ec-aa7f-dac502259ad0.png

图1. 基于稀疏子网络的领域迁移方法

2. 背景

2.1 Transformer架构

如图2所示,Transformer模型一般由输入嵌入层、输出层和若干结构相同的Transformer层堆叠组成。更具体地,每层由一个多头自注意力模块和前馈模块组成,共包含6个参数矩阵。

f29ce2c4-b60b-11ec-aa7f-dac502259ad0.png

图2. Transformer模型

2.2 自注意力分析

有许多工作[3,4]尝试分析解释Transformer模型的行为,最近,Hao[5]等人提出一种新的分析方法AttAttr可以估计每个自注意力头对模型输出的贡献。本文采用此方法对在不同阅读理解领域数据集上微调过的BERT模型进行分析,如图3所示,我们发现重要的注意力头在不同的领域上呈强正相关分布,即在一个领域上重要的自注意力头,也极有可能在其它领域上也非常重要。基于这一发现,我们提出了本文的面向阅读理解任务的少样本领域迁移方法。

f2b2e966-b60b-11ec-aa7f-dac502259ad0.png

图3. (a)在SQuADv1.1上的自注意力头重要性分布。(b)-(d)不同领域上的自注意力头相关性分析。每个点对应同一个自注意力头在两个对应的领域上的重要性。

3. 方法

我们在大规模标注数据的源领域上训练过的Transformer模型迁移到只有少量标注数据的目标领域上。在迁移时,我们通过减枝来识别只包含少量参数的稀疏子网络,并只对子网络的参数进行更新来适应目标领域,在寻找子网络时,通过引入自注意力归因,来同时考虑参数的结构化与非结构化的重要性。

3.1 子网络识别

Magnitude Pruning是一种简单有效的非结构化减枝方法,这个方法根据参数的绝对值大小进行减值。我们以该方法为基础,通过迭代的方式分若干步来逐渐删减参数到目标数量,并且每次删减部分参数后,都会对网络进行一定步数的训练,恢复模型在源领域上的效果,然后再进行下一步的参数删减。在本文中,我们只对每层Transformer层中的6个参数矩阵进行删减,其余的参数矩阵和偏置完全保留。

此外,在进行参数的重要性比较以选择要删减的参数时,通常有两种策略,一种是所有参数一起进行全局比较,另一种是只在参数矩阵内部进行局部比较。在我们对参数矩阵的分析中发现,不同的参数矩阵的绝对值均值分布有较大的差异,若采用全局减枝,最后的结果会很大程度上被均值差异影响,而局部比较则最后所有参数矩阵具有相同的稀疏度,并且忽略了参数矩阵本身的所在模块的重要性。所以,我们提出一种分组比较策略,根据不同参数矩阵的均值进行分组,在组内进行全局比较,具体地,将均值相当的参数矩阵分为一组,最后划分为三组。

根据之前对阅读理解任务的自注意力分析发现,Transformer中的不同自注意力头对于模型最后的预测并不是同等重要的,并且重要性的分布在不同的领域上高度正相关。所以,我们引入自注意力归因来补充Magnitude Pruning,以期得到能够更好的迁移到目标领域的子网络。具体地,在进行每一步减枝时,我们先估计出当前模型中不同注意力的重要性得分并进行归一化,以此作为对参数绝对值进行缩放,需要注意的是,同一个注意力头中的参数矩阵共享同一个重要性得分。此外,还通过超参数来控制归因得分对最后参数重要性的影响。总体来说,通过这种方式,我们同时考虑到了参数的非结构化与结构化重要性,整体算法如图4所示。

f2d9b8ca-b60b-11ec-aa7f-dac502259ad0.png

图4. 稀疏子网络识别算法

3.2 子网络迁移

通过上述步骤后,最后剩下的参数即为找到的子网络的结构,在进行领域适应时,我们保留得到的结构,但将参数回滚到减枝前,即源领域模型上的状态,在后续的参数更新时只更新子网络对应的参数,其余参数不进行梯度更新。但需要注意的是,所有的参数均参与前向计算过程。

4. 实验及分析

4.1 数据集

在我们的实验中,以SQuAD为源领域数据集,通过对五个目标领域数据集采样来模拟少样本领域迁移的场景,具体的领域数据集信息如表1所示。

表1. 数据集特征及统计信息

f31fc306-b60b-11ec-aa7f-dac502259ad0.png

4.2 基线方法

Zero-Shot 不进行迁移,直接在目标领域上进行预测。

Fine-tuning 微调源领域模型的全部参数进行领域适应。

EWC(Elastic Weight Consolidation) 一种正则化算法,使得参数在更新时不至大幅偏离原始参数。

Layer Freeze 只调整Tranformer模型接近输出层的若干层的参数,其余参数则保持不动。

Adapter 保持源领域模型的参数不动,通过添加并调整额外的adapter模块来进行领域适应。

4.3 实验结果与分析

如表2所示,当使用1024条目标领域标注数据,并将用于领域迁移的参数数量限定在21M时,本文提出的Alter在4个目标领域上取得了超过基线方法的效果。其中,我们的方法和Layer Freeze还有Adapter调整数量相当的参数量来进行领域适应。在NQ数据集上,当使用42M参数时,我们的方法与Fine-tuning表现相当。进一步地,当不对参数数量进行限制时的实验结果如图5-8所示,除NQ外我们的方法也均取得了超过基线方法的效果,并且通常只需要完整模型的20%-30%的参数即可。

表2. 使用1024条目标领域标注数据时的EM与F1得分

f3391a86-b60b-11ec-aa7f-dac502259ad0.png

f3530f9a-b60b-11ec-aa7f-dac502259ad0.png

图5. NewsQA实验结果

f36ce8c0-b60b-11ec-aa7f-dac502259ad0.png

图6. TriviaQA实验结果

f38a0284-b60b-11ec-aa7f-dac502259ad0.png

图7. TweetQA实验结果

f3ad3b96-b60b-11ec-aa7f-dac502259ad0.png

图8. NQ实验结果

图9展示了引入自注意力头来帮助寻找稀疏子网络的结果,通过对比可以发现,在使用不同数量的目标领域标注数据及不同规模的参数进行领域迁移时,自注意力头均能够帮助找到迁移效果更好的子网络。

f3ca33d6-b60b-11ec-aa7f-dac502259ad0.png

图9. 引入自注意力归因与否的领域迁移结果

为了探究不同的子网络识别方法得到的结构对迁移效果的影响,我们进行尝试了以下四种候选方法:

Random 随机选取目标数量的参数

Magnitude 只根据参数的绝对值大小进行选择

Salvage 采用与本文提出的相同的流程,但采用相反的策略选择参数,即使用原本被减掉的参数进行迁移

AttrHead 采用结构化减枝的方式得到,将若干自注意力头的参数整体剪掉,对于前馈层的参数则仍采用非结构化的方式减枝

实验结果如表3所示,使用不同方法得到的子网络大小一致,不同的方法的效果差别并不明显,但均超过了调整全部参数的方法。对比Salvage和Alter,我们发现使用对模型输出影响更大的参数的效果更好。通过与AttrHead方法进行比较,我们可以发现,重要性得分较低的自注意力头中绝对值较大的参数对领域迁移也有用。

表3. 不同子网络识别方法的领域迁移结果

f3e6d00e-b60b-11ec-aa7f-dac502259ad0.png

5. 结论

在本文中,我们针对少样本阅读理解领域迁移提出了一种简单而有效的方法Alter,该方法只使用过参数化的源领域模型中的一部分参数进行目标领域迁移,我们还引入了自注意力归因来识别子网络以取得更好的迁移效果,通过进一步探索不同的子网络识别方法,发现除了使用更少的参数以外,子网络的结构也非常重要。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6817

原文标题:6. 参考文献

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新型超快速单脉冲技术解决传统迁移率测量挑战

    沟道有效迁移率 (µeff) 通过载流子速度和驱动电流影响MOSFET性能。它是互补金属氧化物半导体的关键参数之 (CMOS) 技术。 随着新型介电材料的出现,传统的迁移率评估测量技
    的头像 发表于 11-17 13:58 2955次阅读
    新型超快速单脉冲技术解决传统<b class='flag-5'>迁移</b>率测量挑战

    指令集测试的一种纠错方法

    本文描述在进行指令集测试的一种纠错方法 1.打开测试指令集对应的dump文件 dump文件是指由汇编文件进行反汇编之后,可以供人阅读指令的反汇编文件。其包含了每条指令的具体操作的信息。指令集测试
    发表于 10-24 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    、浪费资源与破坏环境 二、用小模型代替大模型 1、强化学习 2、指令调整 3、合成数据 三、终身学习与迁移学习 1、终身学习 终身学习是一种模仿人类行为的AI算法,旨在构建一种能不断适应新环境、在不断接收
    发表于 09-14 14:04

    一种新的无刷直流电机反电动势检测方法

    无位置传感器无刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用无刷直流电机的数学模型,根据反电动势检测原理,提出了一种新的线反电动势检测方法
    发表于 08-07 14:29

    一种新的无刷直流电机反电动势检测方法

    无位置传感器无刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用无刷直流电机的数学模型,根据反电动势检测原理,提出了一种新的线反电动势检测方法
    发表于 08-04 14:59

    一种无序超均匀固体器件的网格优化方法

    近日,天津大学精密仪器与光电子工程学院的光子芯片实验室研发了一种无序超均匀固体器件的网格优化方法,成果获中国发明专利(ZL202410659505.2)授权。
    的头像 发表于 07-28 16:10 742次阅读
    <b class='flag-5'>一种</b>无序超均匀固体器件的网格优化<b class='flag-5'>方法</b>

    汉思新材料取得一种PCB板封装胶及其制备方法的专利

    汉思新材料取得一种PCB板封装胶及其制备方法的专利汉思新材料(深圳市汉思新材料科技有限公司)于2023年取得了项关于PCB板封装胶及其制备方法的发明专利(专利号:CN20231015
    的头像 发表于 06-27 14:30 452次阅读
    汉思新材料取得<b class='flag-5'>一种</b>PCB板封装胶及其制备<b class='flag-5'>方法</b>的专利

    载流子迁移率提高技术详解

    在高k金属栅之外,另一种等效扩充的方法是增加通过器件沟道的电子或空穴的迁移率。表2.5列举了些提高器件载流子迁移率的手段及其对 PMOS或
    的头像 发表于 05-30 15:19 1044次阅读
    载流子<b class='flag-5'>迁移</b>率提高技术详解

    如何精准提取MOSFET沟道迁移

    沟道有效迁移率(µeff)是CMOS器件性能的关键参数。传统测量方法在高k介质、漏电介质与高速应用中易出现误差。本文介绍了UFSP(Ultra-Fast Single Pulse)技术如何准确提取
    的头像 发表于 05-19 14:28 1413次阅读
    如何精准提取MOSFET沟道<b class='flag-5'>迁移</b>率

    电机控制器出现的一种偶发故障排查与分析

    通信方式传输信息,控制器接收总控系统发出的电机启动和转速指令,同时向总控系统反馈电机的工作状态,包括电压、电流、转速、转向等信息。纯分享帖,需要者可点击附件获取完整资料~~~*附件:电机控制器出现的一种
    发表于 04-14 21:32

    请问将项目从RT1024迁移到RT1064的最快方法是什么?

    我正在将我的项目从基于 RT1024 迁移到基于 RT1064 的下代产品,是否有快速的方法,或者我只能手动完成? 谢谢!
    发表于 03-31 06:15

    一种永磁电机用转子组件制作方法

    一种永磁电机所使用的转子组件,是由磁钢与芯轴组装而成,产品工作转速80 000 r /mi n,磁钢相对于芯轴的同轴度要小于O.015 mm。现有的装配方法是:先在芯轴两端面制作中心孔,然后直接
    发表于 03-25 15:20

    KVM主机迁移方法

    vm1运行了1台kvm 虚机,vm2采用nfs挂载vm1共享的虚机磁盘路径,当我在vm1进行热迁移后,在vm2启动发现磁盘损坏,而当我在vm3创建nfs共享磁盘给vm1,vm2挂载后,创建的虚机,在vm1和vm2之间进行迁移是完全不会发生磁盘问题,同样在冷
    的头像 发表于 03-12 15:59 718次阅读
    KVM主机<b class='flag-5'>迁移</b><b class='flag-5'>方法</b>

    AKI跨语言调用库神助攻C/C++代码迁移至HarmonyOS NEXT

    )开发框架。它极大地简化了JS与C/C++之间的跨语言访问,为开发者提供了一种边界性编程体验友好的解决方案。通过AKI,开发者可以使用让代码更易读的语法糖,实现JS与C/C++之间的无障碍跨语言互调
    发表于 01-02 17:08

    一种降低VIO/VSLAM系统漂移的新方法

    本文提出了一种方法,通过使用点到平面匹配将VIO/VSLAM系统生成的稀疏3D点云与数字孪生体进行对齐,从而实现精确且全球致的定位,无需视觉数据关联。所提方法为VIO/VSLAM系
    的头像 发表于 12-13 11:18 1183次阅读
    <b class='flag-5'>一种</b>降低VIO/VSLAM系统漂移的新<b class='flag-5'>方法</b>