0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于对抗自注意力机制的预训练语言模型

深度学习自然语言处理 来源:ICLR 2022 作者:曾伟豪 2022-07-08 16:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Introduction

本文提出了 Adversarial Self-Attention 机制(ASA),利用对抗训练重构 Transformer 的注意力,使模型在被污染的模型结构中得到训练。 尝试解决的问题:

大量的证据表明,自注意力可以从 allowing bias 中获益,allowing bias 可以将一定程度的先验(如 masking,分布的平滑)加入原始的注意力结构中。这些先验知识能够让模型从较小的语料中学习有用的知识。但是这些先验知识一般是任务特定的知识,使得模型很难扩展到丰富的任务上。

adversarial training 通过给输入内容添加扰动来提升模型的鲁棒性。作者发现仅仅给 input embedding 添加扰动很难 confuse 到 attention maps. 模型的注意在扰动前后没有发生变化。

为了解决上述问题,作者提出了 ASA,具有以下的优势:

最大化 empirical training risk,在自动化构建先验知识的过程学习得到biased(or adversarial)的结构。

adversial 结构是由输入数据学到,使得 ASA 区别于传统的对抗训练或自注意力的变体。

使用梯度反转层来将 model 和 adversary 结合为整体。

ASA 天然具有可解释性。

Preliminary

表示输入的特征,在传统的对抗训练中, 通常是 token 序列或者是 token 的 embedding, 表示 ground truth. 对于由 参数化的模型,模型的预测结果可以表示为 。

2.1 Adversarial training

对抗训练的目的是旨在通过推近经过扰动的模型预测和目标分布之间的距离来提升模型的鲁棒性:

d5da9fe0-fe9b-11ec-ba43-dac502259ad0.png

其中 代表经过对抗扰动 扰动后的模型预测, 表示模型的目标分布。 对抗扰动 通过最大化 empirical training risk 获得:

d5ee5a76-fe9b-11ec-ba43-dac502259ad0.png

其中 是对 做出的约束,希望在 较小的情况下给模型造成较大的扰动。上述的两个表示展示的就是对抗的过程。

2.2General Self-Attention

定义自注意力的表达式为:

d5fd9c52-fe9b-11ec-ba43-dac502259ad0.png

在最普通的自注意力机制中 代表全等矩阵,而之前的研究中, 代表的是用来平滑注意力结构的输出分布的一定程度的先验知识。 作者在本文将 定义为元素为 的 binary 矩阵。

Adversarial Self-Attention Mechanism

3.1 Optimization

ASA 的目的是掩盖模型中最脆弱的注意力单元。这些最脆弱的单元取决于模型的输入,因此对抗可以表示为由输入学习到的“meta-knowledge”:,ASA 注意力可以表示为:

d619c8b4-fe9b-11ec-ba43-dac502259ad0.png

与对抗训练类似,模型用来最小化如下的 divergence:

d62c9c14-fe9b-11ec-ba43-dac502259ad0.png

通过最大化 empirical risk 估计得到 :

d63a855e-fe9b-11ec-ba43-dac502259ad0.png

其中 表示的是 的决策边界,用来防止 ASA 损害模型的训练。

考虑到 以 attention mask 的形式存在,因此更适合通过约束 masked units 的比例来约束。由于很难测量 。 的具体数值,因此将 hard constraint 转化为具有惩罚的 unconstraint:

d64eab74-fe9b-11ec-ba43-dac502259ad0.png

其中 t 用来控制对抗的程度。

3.2 Implementation

作者提出了 ASA 的简单且快速的实现。

d663af10-fe9b-11ec-ba43-dac502259ad0.png

对于第 自注意力层, 可以由输入的隐层状态获得。具体而言,使用线性层将隐层状态转化为 以及 ,通过点乘获得矩阵 ,再通过重参数化技巧将矩阵 binary 化。 由于对抗训练通常包括 inner maximization 以及 outer minimization 两个目标,因此至少需要两次 backward 过程。因此为了加速训练,作者采用了 Gradient Reversal Layer(GRL)将两个过程合并。

3.3 Training

训练目标如下所示:

d677006a-fe9b-11ec-ba43-dac502259ad0.png

表示 task- specific 损失, 表示加上 ASA 对抗后的损失, 表示对于对于 的约束。

Experiments

4.1Result

d697f5f4-fe9b-11ec-ba43-dac502259ad0.png

从上表可以看出,在微调方面,ASA 支持的模型始终在很大程度上超过了原始的BERT 和 RoBERTa. 可以看到,ASA 在小规模数据集比如说 STS-B,DREAM 上表现优异(一般认为这些小规模数据集上更容易过拟合)同时在更大规模的数据集上如 MNLI,QNLI 以及 QQP 上仍然有较好的提升,说明了 ASA 在提升模型泛化能力的同时能提升模型的语言表示能力。 如下表所示,ASA 在提升模型鲁棒性上具有较大的作用。

d6b2e4c2-fe9b-11ec-ba43-dac502259ad0.png

4.2 分析实验

1. VS. Naive smoothing 将 ASA 与其他注意力平滑方式进行比较。

d6c547e8-fe9b-11ec-ba43-dac502259ad0.png

2. VS. Adversial training 将 ASA 与其他对抗训练方式进行比较

d6d7050a-fe9b-11ec-ba43-dac502259ad0.png

4.3Visualization

1. Why ASA improves generalization 对抗能够减弱关键词的注意力而让非关键词接受更多的注意力。ASA 阻止了模型的懒惰预测,但敦促它从被污染的线索中学习,从而提高了泛化能力。

d6efa628-fe9b-11ec-ba43-dac502259ad0.png

2. Bottom layers are more vulnerable 可以看到 masking 占比随着层数由底层到高层逐渐降低,更高的 masking 占比意味着层的脆弱性更高。

d715222c-fe9b-11ec-ba43-dac502259ad0.png

Conclusion

本文提出了 Adversarial Self-Attention mechanism(ASA)来提高预训练语言模型的泛化性和鲁棒性。大量实验表明本文提出的方法能够在预训练和微调阶段提升模型的鲁棒性。

·审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动化
    +关注

    关注

    31

    文章

    6012

    浏览量

    90837
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11370

原文标题:ICLR2022 | 基于对抗自注意力机制的预训练语言模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度发布文心5.1:训练成本降至行业6%

    5月9日,百度正式发布新一代基础大模型文心5.1。该模型基于百度研的"多维弹性训练"技术,在大幅压缩参数规模的同时,实现了基础能力的显著
    的头像 发表于 05-09 11:05 633次阅读

    《多模态大模型 前沿算法与实战应用 第一季》精品课程简介

    ;语境下会生成不同的向量表示。 音频模态 :Mel频谱图或Wav2Vec等模型将声波转换为时频特征矩阵,捕捉音调、节奏等语音信息。 2. 跨模态对齐:建立模态间关联 通过对比学习或注意力机制实现模态对齐
    发表于 05-01 17:46

    零基础手写大模型资料2026

    。这种矩阵运算模式贯穿整个模型,包括注意力计算、前馈网络等核心组件。 2. 注意力机制:动态权重分配 Transformer的核心创新在于
    发表于 05-01 17:44

    AI Ceph 分布式存储教程资料大模型学习资料2026

    昂贵的算资源浪费。传统的 NAS 或 SAN 存储通常基于元数据管理与文件锁机制,在面对海量小文件(如图片、文本片段)和超大文件(如模型 Checkpoint)混合负载时,IOPS(每秒读写次数)和吞吐量
    发表于 05-01 17:35

    HM博学谷狂野AI大模型第四期

    ”式的学习路径。学员将深入源码层级,剖析注意力机制是如何通过矩阵运算捕捉序列特征,位置编码是如何注入时序信息,以及前馈神经网络与残差连接是如何层层堆叠构建起深度的特征提取空间。通过这种源码级的拆解
    发表于 05-01 17:30

    云天励飞完成DeepSeek-V4系列模型关键机制适配验证

    4月24日,DeepSeek-V4 系列模型发布。围绕该模型 CSA/HCA 混合注意力机制带来的新型计算需求,云天励飞依托研 GPNPU
    的头像 发表于 04-30 17:09 5254次阅读

    Transformer 入门:从零理解 AI 大模型的核心原理

    字 │└─────────────────────────────────┘│ │↓│ │┌─────────────────────────────────┐│ ││2️⃣ Transformer Block(×12) ││← 理解语义关系 ││• 注意力机制││ ││
    发表于 02-10 16:33

    训练到推理:大模型需求的新拐点已至

    在大模型产业发展的早期阶段,行业焦点主要集中在大模型训练所需的算投入。一个万亿参数大模型训练
    的头像 发表于 02-05 16:07 1111次阅读
    从<b class='flag-5'>训练</b>到推理:大<b class='flag-5'>模型</b>算<b class='flag-5'>力</b>需求的新拐点已至

    什么是大模型,智能体...?大模型100问,快速全面了解!

    ,LLM)是大模型中最主要的一类,专门用于处理和生成人类语言。大语言模型通过“阅读”海量的文本数据(如书籍、网页、文章等)进行
    的头像 发表于 02-02 16:36 1195次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    自然场景下注意力如何耳周脑电可靠监测

    HUIYING自然听觉注意力概述听觉注意力是大脑在复杂听觉场景中选择相关信息、抑制无关信息的重要认知功能。传统研究多在实验室内使用笨重设备与人工刺激进行,限制了其生态效度。本研究采用语音包络跟踪、被
    的头像 发表于 12-05 18:03 4380次阅读
    自然场景下<b class='flag-5'>注意力</b>如何耳周脑电可靠监测

    语言模型如何处理上下文窗口中的输入

    本博客介绍了五个基本概念,阐述了大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍了多个与上下文窗口有关的基本概念,如词元化、序列长度和注意力等。
    的头像 发表于 12-03 13:48 851次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>如何处理上下文窗口中的输入

    小白学大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架构中,注意力机制的计算复杂度与序列长度(即文本长度)呈平方关系()。这意味着,当模型需要处理更长的文本时(比如从几千个词到几万个词),计算时间和所需的内存会急剧增加。最开始
    的头像 发表于 09-10 09:28 5041次阅读
    小白学大<b class='flag-5'>模型</b>:大<b class='flag-5'>模型</b>加速的秘密 FlashAttention 1/2/3

    基于大规模人类操作数据训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得
    的头像 发表于 08-21 09:56 1290次阅读
    基于大规模人类操作数据<b class='flag-5'>预</b><b class='flag-5'>训练</b>的VLA<b class='flag-5'>模型</b>H-RDT

    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE),其显著提升了大语言
    的头像 发表于 08-12 15:19 4602次阅读
    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    网络的“神经突触”:AI互联技术如何重构分布式训练范式

      电子发烧友网综合报道 随着AI技术迅猛发展,尤其是大型语言模型的兴起,对于算的需求呈现出爆炸性增长。这不仅推动了智算中心的建设,还对网络互联技术提出了新的挑战。   在AI大模型
    的头像 发表于 06-08 08:11 7878次阅读
    算<b class='flag-5'>力</b>网络的“神经突触”:AI互联技术如何重构分布式<b class='flag-5'>训练</b>范式