0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于对抗自注意力机制的预训练语言模型

深度学习自然语言处理 来源:ICLR 2022 作者:曾伟豪 2022-07-08 16:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Introduction

本文提出了 Adversarial Self-Attention 机制(ASA),利用对抗训练重构 Transformer 的注意力,使模型在被污染的模型结构中得到训练。 尝试解决的问题:

大量的证据表明,自注意力可以从 allowing bias 中获益,allowing bias 可以将一定程度的先验(如 masking,分布的平滑)加入原始的注意力结构中。这些先验知识能够让模型从较小的语料中学习有用的知识。但是这些先验知识一般是任务特定的知识,使得模型很难扩展到丰富的任务上。

adversarial training 通过给输入内容添加扰动来提升模型的鲁棒性。作者发现仅仅给 input embedding 添加扰动很难 confuse 到 attention maps. 模型的注意在扰动前后没有发生变化。

为了解决上述问题,作者提出了 ASA,具有以下的优势:

最大化 empirical training risk,在自动化构建先验知识的过程学习得到biased(or adversarial)的结构。

adversial 结构是由输入数据学到,使得 ASA 区别于传统的对抗训练或自注意力的变体。

使用梯度反转层来将 model 和 adversary 结合为整体。

ASA 天然具有可解释性。

Preliminary

表示输入的特征,在传统的对抗训练中, 通常是 token 序列或者是 token 的 embedding, 表示 ground truth. 对于由 参数化的模型,模型的预测结果可以表示为 。

2.1 Adversarial training

对抗训练的目的是旨在通过推近经过扰动的模型预测和目标分布之间的距离来提升模型的鲁棒性:

d5da9fe0-fe9b-11ec-ba43-dac502259ad0.png

其中 代表经过对抗扰动 扰动后的模型预测, 表示模型的目标分布。 对抗扰动 通过最大化 empirical training risk 获得:

d5ee5a76-fe9b-11ec-ba43-dac502259ad0.png

其中 是对 做出的约束,希望在 较小的情况下给模型造成较大的扰动。上述的两个表示展示的就是对抗的过程。

2.2General Self-Attention

定义自注意力的表达式为:

d5fd9c52-fe9b-11ec-ba43-dac502259ad0.png

在最普通的自注意力机制中 代表全等矩阵,而之前的研究中, 代表的是用来平滑注意力结构的输出分布的一定程度的先验知识。 作者在本文将 定义为元素为 的 binary 矩阵。

Adversarial Self-Attention Mechanism

3.1 Optimization

ASA 的目的是掩盖模型中最脆弱的注意力单元。这些最脆弱的单元取决于模型的输入,因此对抗可以表示为由输入学习到的“meta-knowledge”:,ASA 注意力可以表示为:

d619c8b4-fe9b-11ec-ba43-dac502259ad0.png

与对抗训练类似,模型用来最小化如下的 divergence:

d62c9c14-fe9b-11ec-ba43-dac502259ad0.png

通过最大化 empirical risk 估计得到 :

d63a855e-fe9b-11ec-ba43-dac502259ad0.png

其中 表示的是 的决策边界,用来防止 ASA 损害模型的训练。

考虑到 以 attention mask 的形式存在,因此更适合通过约束 masked units 的比例来约束。由于很难测量 。 的具体数值,因此将 hard constraint 转化为具有惩罚的 unconstraint:

d64eab74-fe9b-11ec-ba43-dac502259ad0.png

其中 t 用来控制对抗的程度。

3.2 Implementation

作者提出了 ASA 的简单且快速的实现。

d663af10-fe9b-11ec-ba43-dac502259ad0.png

对于第 自注意力层, 可以由输入的隐层状态获得。具体而言,使用线性层将隐层状态转化为 以及 ,通过点乘获得矩阵 ,再通过重参数化技巧将矩阵 binary 化。 由于对抗训练通常包括 inner maximization 以及 outer minimization 两个目标,因此至少需要两次 backward 过程。因此为了加速训练,作者采用了 Gradient Reversal Layer(GRL)将两个过程合并。

3.3 Training

训练目标如下所示:

d677006a-fe9b-11ec-ba43-dac502259ad0.png

表示 task- specific 损失, 表示加上 ASA 对抗后的损失, 表示对于对于 的约束。

Experiments

4.1Result

d697f5f4-fe9b-11ec-ba43-dac502259ad0.png

从上表可以看出,在微调方面,ASA 支持的模型始终在很大程度上超过了原始的BERT 和 RoBERTa. 可以看到,ASA 在小规模数据集比如说 STS-B,DREAM 上表现优异(一般认为这些小规模数据集上更容易过拟合)同时在更大规模的数据集上如 MNLI,QNLI 以及 QQP 上仍然有较好的提升,说明了 ASA 在提升模型泛化能力的同时能提升模型的语言表示能力。 如下表所示,ASA 在提升模型鲁棒性上具有较大的作用。

d6b2e4c2-fe9b-11ec-ba43-dac502259ad0.png

4.2 分析实验

1. VS. Naive smoothing 将 ASA 与其他注意力平滑方式进行比较。

d6c547e8-fe9b-11ec-ba43-dac502259ad0.png

2. VS. Adversial training 将 ASA 与其他对抗训练方式进行比较

d6d7050a-fe9b-11ec-ba43-dac502259ad0.png

4.3Visualization

1. Why ASA improves generalization 对抗能够减弱关键词的注意力而让非关键词接受更多的注意力。ASA 阻止了模型的懒惰预测,但敦促它从被污染的线索中学习,从而提高了泛化能力。

d6efa628-fe9b-11ec-ba43-dac502259ad0.png

2. Bottom layers are more vulnerable 可以看到 masking 占比随着层数由底层到高层逐渐降低,更高的 masking 占比意味着层的脆弱性更高。

d715222c-fe9b-11ec-ba43-dac502259ad0.png

Conclusion

本文提出了 Adversarial Self-Attention mechanism(ASA)来提高预训练语言模型的泛化性和鲁棒性。大量实验表明本文提出的方法能够在预训练和微调阶段提升模型的鲁棒性。

·审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动化
    +关注

    关注

    30

    文章

    5886

    浏览量

    89255
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11255

原文标题:ICLR2022 | 基于对抗自注意力机制的预训练语言模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自然场景下注意力如何耳周脑电可靠监测

    HUIYING自然听觉注意力概述听觉注意力是大脑在复杂听觉场景中选择相关信息、抑制无关信息的重要认知功能。传统研究多在实验室内使用笨重设备与人工刺激进行,限制了其生态效度。本研究采用语音包络跟踪、被
    的头像 发表于 12-05 18:03 2次阅读
    自然场景下<b class='flag-5'>注意力</b>如何耳周脑电可靠监测

    语言模型如何处理上下文窗口中的输入

    本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
    的头像 发表于 12-03 13:48 185次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>如何处理上下文窗口中的输入

    小白学大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架构中,注意力机制的计算复杂度与序列长度(即文本长度)呈平方关系()。这意味着,当模型需要处理更长的文本时(比如从几千个词到几万个词),计算时间和所需的内存会急剧增加。最开始
    的头像 发表于 09-10 09:28 4322次阅读
    小白学大<b class='flag-5'>模型</b>:大<b class='flag-5'>模型</b>加速的秘密 FlashAttention 1/2/3

    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE),其显著提升了大语言
    的头像 发表于 08-12 15:19 3812次阅读
    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    用PaddleNLP为GPT-2模型制作FineWeb二进制训练数据集

    作者:算魔方创始人/英特尔创新大使刘 《用PaddleNLP在4060单卡上实践大模型训练技术》发布后收到读者热烈反响,很多读者要求进
    的头像 发表于 03-21 18:24 3828次阅读
    用PaddleNLP为GPT-2<b class='flag-5'>模型</b>制作FineWeb二进制<b class='flag-5'>预</b><b class='flag-5'>训练</b>数据集

    ​VLM(视觉语言模型)​详细解析

    支持生成式任务。 多模态融合 :通过跨模态注意力机制、投影层(如CLIP将图像文本映射到同一空间)或适配器
    的头像 发表于 03-17 15:32 7580次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    从Open Model Zoo下载的FastSeg大型公共训练模型,无法导入名称是怎么回事?

    从 Open Model Zoo 下载的 FastSeg 大型公共训练模型。 运行 converter.py 以将 FastSeg 大型模型转换为中间表示 (IR): pyth
    发表于 03-05 07:22

    小白学大模型训练语言模型的深度指南

    在当今人工智能飞速发展的时代,大型语言模型(LLMs)正以其强大的语言理解和生成能力,改变着我们的生活和工作方式。在最近的一项研究中,科学家们为了深入了解如何高效地训练大型
    的头像 发表于 03-03 11:51 1210次阅读
    小白学大<b class='flag-5'>模型</b>:<b class='flag-5'>训练</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的深度指南

    用PaddleNLP在4060单卡上实践大模型训练技术

    作者:算魔方创始人/英特尔创新大使刘 之前我们分享了《从零开始训练一个大语言模型需要投资多少钱》,其中高昂的
    的头像 发表于 02-19 16:10 2134次阅读
    用PaddleNLP在4060单卡上实践大<b class='flag-5'>模型</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>技术

    DeepSeek推出NSA机制,加速长上下文训练与推理

    近日,DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍,NSA旨在与现代硬件实现高度一致,并且具备本机可训练
    的头像 发表于 02-19 14:01 919次阅读

    腾讯公布大语言模型训练新专利

    近日,腾讯科技(深圳)有限公司公布了一项名为“大语言模型训练方法、装置、计算机设备及存储介质”的新专利。该专利的公布,标志着腾讯在大语言模型
    的头像 发表于 02-10 09:37 715次阅读

    如何使用MATLAB构建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任务,如机器翻译。Transformer 通过引入注意力机制使得处理长距离依赖关系时变得高效。因此 Vaswani 等人的论文强调“
    的头像 发表于 02-06 10:21 5725次阅读
    如何使用MATLAB构建Transformer<b class='flag-5'>模型</b>

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    今天学习<基于大模型的RAG应用开发与优化>这本书。大模型微调是深度学习领域中的一项关键技术,它指的是在已经训练好的大型深度学习模型
    发表于 01-14 16:51

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    的应用。MAML算法通过二阶优化找到对任务变化敏感的模型参数,实现了快速适应。上下文学习则引入了注意力机制,使模型能够根据当前场景动态调整行为策略。在
    发表于 12-24 15:03

    KerasHub统一、全面的训练模型

    深度学习领域正在迅速发展,在处理各种类型的任务中,训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名,始终处于这一动向的前沿。Keras 拥有专用的内容库,如用
    的头像 发表于 12-20 10:32 773次阅读