0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

万用NLP模型Transformer的升级版

DPVg_AI_era 来源:lq 2019-02-11 09:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

谷歌官方博客今天发文,详细解释了万用NLP模型Transformer的升级版——Transformer-XL,该模型利用两大技术,在5个数据集中都获得了强大的结果。

要正确理解一篇文章,有时需要参考出现在几千个单词后面的一个单词或一个句子。

这是一个长期依赖性(long-range dependence)的例子,这是序列数据中常见的现象,处理许多现实世界的任务都必须理解这种依赖。

虽然人类很自然地就会这样做,但是用神经网络建模长期依赖关系仍然很具挑战性。基于Gating的RNN和梯度裁剪(gradient clipping)技术提高了对长期依赖关性建模的能力,但仍不足以完全解决这个问题。

应对这个挑战的一种方法是使用Transformers,它允许数据单元之间直接连接,能够更好地捕获长期依赖关系。

Transformer 是谷歌在 17 年做机器翻译任务的 “Attention is all you need” 论文中提出的,引起了相当大的反响,业内有“每一位从事 NLP 研发的同仁都应该透彻搞明白 Transformer”的说法。

参考阅读:

Transformer一统江湖:自然语言处理三大特征抽取器比较

然而,在语言建模中,Transformers目前使用固定长度的上下文来实现,即将一个长的文本序列截断为几百个字符的固定长度片段,然后分别处理每个片段。

vanillaTransformer模型在训练时具有固定长度上下文

这造成了两个关键的限制:

算法无法建模超过固定长度的依赖关系。

被分割的片段通常不考虑句子边界,导致上下文碎片化,从而导致优化低效。即使是对于长期依赖性不显著的较短序列,这也是特别麻烦的。

为了解决这些限制,谷歌提出一个新的架构:Transformer-XL,它使自然语言的理解超出了固定长度的上下文。

Transformer-XL由两种技术组成:片段级递归机制(segment-level recurrence mechanism)和相对位置编码方案(relative positional encoding scheme)。

论文:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(https://arxiv.org/abs/1901.02860)

论文详细解读:谷歌、CMU重磅论文:Transformer升级版,评估速度提升超1800倍!

Segment-level的递归机制

在训练期间,为前一个segment计算的representation被修复并缓存,以便在模型处理下一个新的segment时作为扩展上下文重新利用。

这个额外的连接将最大可能依赖关系长度增加了N倍,其中N表示网络的深度,因为上下文信息现在可以跨片段边界流动。

此外,这种递归机制还解决了上下文碎片问题,为新段前面的token提供了必要的上下文。

在训练期间具有segment-level recurrence的Transformer-XL

相对位置编码

然而,天真地应用 segment-level recurrence是行不通的,因为当我们重用前面的段时,位置编码是不一致的。

例如,考虑一个具有上下文位置[0,1,2,3]的旧段。当处理一个新的段时,我们将两个段合并,得到位置[0,1,2,3,0,1,2,3],其中每个位置id的语义在整个序列中是不连贯的。

为此,我们提出了一种新的相对位置编码方案,使递归机制成为可能。

此外,与其他相对位置编码方案不同,我们的公式使用具有learnable transformations的固定嵌入,而不是earnable embeddings,因此在测试时更适用于较长的序列。

当这两种方法结合使用时,在评估时, Transformer-XL比vanilla Transformer模型具有更长的有效上下文。

在计算时具有固定长度上下文的vanilla Transformer

在评估期间具有segment-level 递归的Transformer-XL

此外,Transformer-XL能够在不需要重新计算的情况下处理新段中的所有元素,从而显著提高了速度(将在下面讨论)。

结果

Transformer-XL在各种主要的语言建模(LM)基准测试中获得新的最优(SoTA)结果,包括长序列和短序列上的字符级和单词级任务。实验证明, Transformer-XL 有三个优势:

Transformer-XL学习的依赖关系比RNN长约80%,比vanilla Transformers模型长450%,尽管后者在性能上比RNN好,但由于固定长度上下文的限制,对于建模长期依赖关系并不是最好的。

由于不需要重复计算,Transformer-XL在语言建模任务的评估期间比vanilla Transformer快1800+倍。

由于建模长期依赖关系的能力,Transformer-XL在长序列上具有更好的困惑度(Perplexity, 预测样本方面更准确),并且通过解决上下文碎片化问题,在短序列上也具有更好的性能。

Transformer-XL在5个数据集上的结果

Transformer-XL在5个数据集上都获得了强大的结果:在enwiki8上将bpc/perplexity的最新 state-of-the-art(SoTA)结果从1.06提高到0.99,在text8上从1.13提高到1.08,在WikiText-103上从20.5提高到18.3,在One Billion Word上从23.7提高到21.8,在Penn Treebank上从55.3提高到54.5。

研究人员展望了Transformer-XL的许多令人兴奋的潜在应用,包括但不限于改进语言模型预训练方法(例如BERT),生成逼真的、长篇的文章,以及在图像和语音领域的应用。

论文中使用的代码、预训练模型和超参数都已全部开源:

https://github.com/kimiyoung/transformer-xl

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器翻译
    +关注

    关注

    0

    文章

    141

    浏览量

    15466
  • 数据集
    +关注

    关注

    4

    文章

    1231

    浏览量

    26050
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23193

原文标题:谷歌升级版Transformer官方解读:更大、更强,解决长文本问题(开源)

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    什么是数字万用表?

    电子设备的状况需要使用测量仪器来确定。对于无法目测来确定状态的电子设备,建议使用数字万用表进行测量。本节将详细介绍诸如“数字万用表是什么?”“数字万用表与模拟万用表有区别吗?”等数字
    的头像 发表于 08-18 10:00 1922次阅读
    什么是数字<b class='flag-5'>万用</b>表?

    数字万用表是什么?七位半数字万用表/多用表的核心指标应用及技术趋势?

    ‌ 数字万用表(DMM) ‌ ‌ 数字万用表(Digital Multimeter, DMM) ‌ 是一种电子测量仪器,用于测量电压(AC/DC)、电流(AC/DC)、电阻、电容、频率、温度等电学
    的头像 发表于 07-16 18:04 1774次阅读
    数字<b class='flag-5'>万用</b>表是什么?七位半数字<b class='flag-5'>万用</b>表/多用表的核心指标应用及技术趋势?

    如何正确选择理想万用

    万用表是专业工具箱中不可或缺的工具,适用于广泛的电气测试任务。从进行彻底的连续性检查和二极管测试到精确的温度测量和全面的数据记录,万用表在维护电气系统健康方面至关重要。
    的头像 发表于 04-09 17:15 1099次阅读

    如何使用MATLAB构建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在论文《Attentionis All You Need》中首次提出。其设计初衷是为了解决自然语言处理(Nature
    的头像 发表于 02-06 10:21 5758次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    指针式万用表测量电压技巧

    在电子维修和电气工程领域,准确测量电压是至关重要的。指针式万用表因其直观的读数和可靠性而广受欢迎。 1. 了解指针式万用表 在开始测量之前,了解万用表的基本构造和功能是必要的。指针式万用
    的头像 发表于 01-23 09:32 2583次阅读

    指针式万用表与数字万用表对比

    在电子维修和测试领域,万用表是不可或缺的工具。它们能够测量电压、电流、电阻等多种电气参数。市场上主要有两种类型的万用表:指针式万用表和数字万用表。 指针式
    的头像 发表于 01-23 09:31 4061次阅读

    指针式万用表使用注意事项

    指针式万用表是一种常用的电子测量工具,它可以用来测量电压、电流、电阻等多种电气参数。在使用指针式万用表时,需要注意以下几个方面以确保测量的准确性和安全性: 了解万用表的基本构造和功能 在使用前,应
    的头像 发表于 01-23 09:29 1935次阅读

    如何选择适合的指针式万用

    指针式万用表(Analog Multimeter)是一种常用的电子测量工具,它能够测量电压、电流、电阻等多种电气参数。尽管数字万用表因其精确性和易用性而越来越受欢迎,但指针式万用表因其直观的读数
    的头像 发表于 01-23 09:26 1869次阅读

    指针式万用表功能介绍

    在电子工程和电气维修领域,万用表是不可或缺的工具之一。它能够快速测量电路中的电压、电流和电阻等参数,帮助工程师和技术人员诊断和修复电路问题。 指针式万用表的基本原理 指针式万用表的工作原理
    的头像 发表于 01-23 09:12 4009次阅读

    指针式万用表读数技巧

    1. 了解指针式万用表的基本构造 在使用指针式万用表之前,了解其基本构造是非常重要的。指针式万用表主要由表头、量程选择旋钮、插孔和表盘组成。表头是测量的核心部分,它通过指针的偏转来显示测量结果。量程
    的头像 发表于 01-22 18:20 2771次阅读

    指针式万用表和数字万用表哪个好

    在电子测量领域,万用表是工程师和技术人员不可或缺的工具。它们能够测量电压、电流、电阻等多种电气参数。市场上主要有两种类型的万用表:指针式万用表和数字万用表。 1. 指针式
    的头像 发表于 01-22 17:28 7880次阅读

    指针式万用表使用指南

    一、指针式万用表简介 指针式万用表是一种传统的电子测量工具,因其表头指针的摆动来显示测量结果而得名。与数字万用表相比,指针式万用表在某些情况下能提供更直观的读数,尤其是在测量快速变化的
    的头像 发表于 01-22 17:25 3303次阅读

    指针式万用表测量精度比较

    指针式万用表的核心是一个可变电阻器(分压器)和一个可动的指针。当测量电压或电流时,通过分压器的电阻值会改变,从而改变通过指针的电流,使指针在刻度盘上移动。指针的位置对应于被测量的参数值。 指针式
    的头像 发表于 01-22 17:23 2387次阅读

    安捷伦34461A 万用

    安捷伦34461A万用表 以***的方式显示数字万用表测量结果 * 彩色图形显示屏与内置条形图、直方图、趋势图、数学和统计功能 * I/O:USB、LAN/LXI、GPIB(可选) * 借助数字
    的头像 发表于 12-17 09:35 960次阅读