0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自监督学习与Transformer相关论文

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-11-02 15:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

导读

国际表示学习大会(TheInternationalConference onLearningRepresentations)是致力于人工智能领域发展的国际知名学术会议之一。ICLR 2021 将在明年5月4日举行,目前,本次大会投稿已经结束,最后共有3013篇论文提交。ICLR 采用公开评审机制,任何人都可以提前看到这些论文。

为了分析最新研究动向,我们精选了涵盖自监督学习、Transformer、图神经网络、自然语言处理、模型压缩等热点领域,将分多期为大家带来系列论文解读。

本期的关注焦点是自监督学习与Transformer。

自监督学习

Self-Supervised Variational Auto-Encoders

变分自编码器(VAE)往往通过假设先验分布为高斯分布来简化计算过程,实际上真实数据的分布往往较为复杂,该假设会导致模型的过正则化并影响模型对真实分布的拟合能力;本文通过利用多个简单分布对复杂真实分布进行建模,并采用自监督方法对这些分布之间进行约束,进而提升VAE模型最终的效果。

论文链接:https://openreview.net/forum?id=zOGdf9K8aC

Self-Supervised Learning from a Multi-View Perspective

即使自监督学习已经取得了很好的效果,现有的方法依旧并不清楚自监督学习带来增益的主要原因;本文基于信息空间的考虑,认为自监督学习通过减少不相关信息来帮助收敛;此外本文还提出将自监督任务的两个经典方法——对比学习和预测学习任务进行合并,结合两者优点以增强自监督学习的效果。

论文链接:https://openreview.net/forum?id=-bdp_8Itjwp

Contrast to Divide: Self-Supervised Pre-Training for Learning with Noisy Labels

现有的噪声数据学习策略往往基于loss的噪声识别与再过滤的框架,其需要模型在warm-up阶段既能学习到足够好的特征信息,同时不至于过分拟合噪声数据的分布;改目的与对比学习任务非常契合,本文提出在warm-up阶段采用对比学习帮助进行特征学习,并基于对比学习策略帮助区分噪声数据。

论文链接:https://openreview.net/forum?id=uB5x7Y2qsFR

Improving Self-Supervised Pre-Training via a Fully-Explored Masked Language Model

现有的BERT等模型往往采用masked language model进行自监督学习,但是其往往采用随机的方法确定mask的word或者span;本文提出不合适的mask会导致梯度方差变大,并影响模型的效果,并分析原因在于同时mask的word之间具有一定的相似度;故本文提出一种特殊的mask机制,其考虑增大被mask的word之间的差异,进而削弱梯度方差大带来的影响。

论文链接:https://openreview.net/forum?id=cYr2OPNyTz7

Bi-Tuning of Pre-Trained Representations

随着预训练模型的快速发展,现有方法主要关注于如何进行pre-train,但是很少关注如何进行fine-tune;本文认为在fine-tune时模型很容易忘记预训练的信息并过拟合到当前任务,因此提出了一种特殊的Bi-tune策略,即利用对比学习作为正则项约束模型的收敛情况,进而帮助提升模型的效果。

论文链接:https://openreview.net/forum?id=3rRgu7OGgBI

Erasure for Advancing: Dynamic Self-Supervised Learning for Commonsense Reasoning

为了解决预训练模型很难学习到更精准的 question-clue pairs 问题,本文提出DynamIcSelf-sUperviSedErasure (DISUSE)。其中包含 erasure sampler 和 supervisor,分别用于擦出上下文和问题中的多余线索,以及使用 self-supervised manner 进行监督。

论文链接:https://openreview.net/forum?id=WfY0jNndSn3

Transformer

Addressing Some Limitations of Transformers with Feedback Memory

Transformer结构因其并行计算的特性有很高的计算效率,但是这种特性限制了Transformer发掘序列信息的能力,这体现在底层表示无法获得高层表示信息。作者提出一种Feedback Memory结构,将所有历史的底层和高层表示信息传递给未来表示。

论文链接:https://openreview.net/forum?id=OCm0rwa1lx1

Not All Memories are Created Equal: Learning to Expire

Attention机制往往需要长期的记忆,但是实际上并不是所有历史信息都是重要的。因此,作者提出一种Expire-Span机制,动态地决定每一个时刻信息存活的时间长短,从而减少模型进行Attention操作耗费的空间开销。

论文链接:https://openreview.net/forum?id=ZVBtN6B_6i7

Memformer: The Memory-Augmented Transformer

目前大部分Transformer变体模型在处理长序列时都会存在效率问题。作者提出一种利用Memory机制来编码和保存历史信息,使得时间复杂度下降到线性时间,空间复杂度变为常数。

论文链接:https://openreview.net/forum?id=_adSMszz_g9

Non-iterative Parallel Text Generation via Glancing Transformer

本文提出了一种基于 glancing language model 的 Glancing Transformer,通过 one-iteration 的生成方式提升 NAT 的性能。其中 Glancing language model,可以通过两次 decoding 来降低学习难度以及加快生成速度。另外这种方法同样可以应用于其他基于 NAT 的任务。

论文链接:https://openreview.net/forum?id=ZaYZfu8pT_N

责任编辑:xj

原文标题:【ICLR2021必读】 【自监督学习】 & 【Transformer】相关论文

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49739

    浏览量

    261549
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123907
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6817

原文标题:【ICLR2021必读】 【自监督学习】 & 【Transformer】相关论文

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    趋势: 无监督学习普及 当前工业场景中80%的缺陷检测项目面临\"OK样本充足而NG样本稀缺\"的困境,传统监督学习方案难以落地。课程第11系列(无监督缺陷检测篇)提供无需标注即可
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    23.5%。本次团购旨在帮助工程师把握三大技术趋势: 无监督学习普及 当前工业场景中80%的缺陷检测项目面临\"OK样本充足而NG样本稀缺\"的困境,传统监督学习方案难以落地。课程
    发表于 12-03 13:50

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时可以将这些重要信息有效地关联起来。
    的头像 发表于 11-19 18:17 1905次阅读

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,强化学习没有一一对应的“正确答案”给它看,而是靠与环境交互、自我探索来发现
    的头像 发表于 10-23 09:00 329次阅读
    自动驾驶中常提的“强化<b class='flag-5'>学习</b>”是个啥?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    彻底改变了自然语义处理的研究和应用。它引入了注意机制和位置编码,能够有效的捕捉输入序列中的关联信息,实现更好的上下文理解和建模。 Transformer 模型由一个编码器和一个解码器组成,是一种
    发表于 09-12 17:30

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3917次阅读
    自动驾驶中<b class='flag-5'>Transformer</b>大模型会取代深度<b class='flag-5'>学习</b>吗?

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    的基本理论。了解监督学习、无监督学习和强化学习的基本原理。例如,在监督学习中,理解如何通过标注数据来训练模型进行分类或回归任务,像通过大量的猫和狗的图片标注数据来训练一个图像分类模型,
    发表于 07-08 17:44

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 824次阅读
    <b class='flag-5'>Transformer</b>架构中编码器的工作流程

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 956次阅读
    <b class='flag-5'>Transformer</b>架构概述

    使用MATLAB进行无监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1178次阅读
    使用MATLAB进行无<b class='flag-5'>监督学习</b>

    美报告:中国芯片研究论文全球领先

    据新华社报道,美国乔治敦大学“新兴技术观察项目(ETO)”3日在其网站发布一份报告说,2018年至2023年间,在全球发表的芯片设计和制造相关论文中,中国研究人员的论文数量远超其他国家,中国在高被
    的头像 发表于 03-05 14:32 1720次阅读

    如何使用MATLAB构建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任务,如机器翻译。Transformer 通过引入注意力机制使得处理长距离依赖关系时变得高效。因此 Vaswani 等人的论文强调“注意力是所需的一切”。
    的头像 发表于 02-06 10:21 5733次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

    transformer专用ASIC芯片Sohu说明

    2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第一个用于transformer(ChatGPT中的“T”)的专用芯片。 将transformer
    的头像 发表于 01-06 09:13 1677次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明

    港大提出SparX:强化Vision Mamba和Transformer的稀疏跳跃连接机制

    本文分享香港大学计算和数据科学学院俞益洲教授及其研究团队发表于 AAAI 2025 的论文——SparX,一种强化 Vision Mamba 和 Transformer 的稀疏跳跃连接机制,性能强大
    的头像 发表于 01-03 09:28 1800次阅读
    港大提出SparX:强化Vision Mamba和<b class='flag-5'>Transformer</b>的稀疏跳跃连接机制

    【面试题】人工智能工程师高频面试题汇总:Transformer篇(题目+答案)

    ,或者深度学习的框架,还有怎么优化模型,Transformer的一些知识,这些都是加分项,能有效提高面试通过率。本篇小编整理了一些高频的Transformer方面的面
    的头像 发表于 12-13 15:06 2389次阅读
    【面试题】人工智能工程师高频面试题汇总:<b class='flag-5'>Transformer</b>篇(题目+答案)