0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌将AutoML应用于Transformer架构,翻译结果飙升!

DPVg_AI_era 来源:YXQ 2019-06-16 11:29 次阅读

为了探索AutoML在序列域中的应用是否能够取得的成功,谷歌的研究团队在进行基于进化的神经架构搜索(NAS)之后,使用了翻译作为一般的序列任务的代理,并找到了Evolved Transformer这一新的Transformer架构。Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能。

自几年前推出以来,Google的Transformer架构已经应用于从制作奇幻小说到编写音乐和声的各种挑战。重要的是,Transformer的高性能已经证明,当应用于序列任务(例如语言建模和翻译)时,前馈神经网络可以与递归神经网络一样有效。虽然用于序列问题的Transformer和其他前馈模型越来越受欢迎,但它们的架构几乎完全是手动设计的,与计算机视觉领域形成鲜明对比。AutoML方法已经找到了最先进的模型,其性能优于手工设计的模型。当然,我们想知道AutoML在序列域中的应用是否同样成功。

在进行基于进化的神经架构搜索(NAS)之后,我们使用翻译作为一般的序列任务的代理,我们找到了Evolved Transformer,这是一种新的Transformer架构,它展示了对各种自然语言处理(NLP)任务的有希望的改进。Evolved Transformer不仅实现了最先进的翻译结果,而且与原始的Transformer相比,它还展示了语言建模的改进性能。我们是将此新模型作为Tensor2Tensor的部分发布,它可用于任何序列问题。

开发技术

要开始进化NAS,我们有必要开发新技术,因为用于评估每个架构的“适应性”的任务——WMT'14英语-德语翻译——计算量很大。这使得搜索比在视觉领域中执行的类似搜索更加昂贵,这可以利用较小的数据集,如CIFAR-10。

这些技术中的第一种是温启动——在初始进化种群中播种Transformer架构而不是随机模型。这有助于在我们熟悉的搜索空间区域中进行搜索,从而使其能够更快地找到更好的模型。

第二种技术是我们开发的一种称为渐进动态障碍(PDH)(Progressive Dynamic Hurdles)的新方法,这种算法增强了进化搜索,以便为最强的候选者分配更多的资源,这与先前的工作相反,其中NAS的每个候选模型被分配相同的评估时的资源量。如果模型明显不好,PDH允许我们提前终止对模型的评估,从而使有前途的架构获得更多资源。

Evolved Transformer简介

使用这些方法,我们在翻译任务上进行了大规模的NAS,并发现了Evolved Transformer(ET)。与大多数序列到序列(seq2seq)神经网络体系结构一样,它有一个编码器,将输入序列编码为嵌入,解码器使用这些嵌入构造输出序列;在翻译的情况下,输入序列是要翻译的句子,输出序列是翻译。

演化变压器最有趣的特征是其编码器和解码器模块底部的卷积层,在两个地方都以类似的分支模式添加(即输入在加到一起之前通过两个单独的卷积层)。

Evolved Transformer与原始Transformer编码器架构的比较。注意模块底部的分支卷积结构,它独立地在编码器和解码器中形成。

这一点特别有趣,因为在NAS期间编码器和解码器架构不共享,因此独立发现该架构对编码器和解码器都很有用,这说明了该设计的优势。虽然最初的Transformer完全依赖于自我关注,但Evolved Transformer是一种混合体,利用了自我关注和广泛卷积的优势。

对Evolved Transformer的评估

为了测试这种新架构的有效性,我们首先将它与我们在搜索期间使用的英语-德语翻译任务的原始Transformer进行了比较。我们发现在所有参数尺寸下,Evolved Transformer具有更好的BLEU和 perplexity performance,拥有最大增益与移动设备兼容(约700万个参数),证明了参数的有效使用。在更大的尺寸上,Evolved Transformer在WMT'14 En-De上达到了最先进的性能,BLEU得分为29.8,SacreBLEU得分为29.2。

不同尺寸的WMT'14 En-DeEvolved Transformer与原Transformer的比较。性能的最大提高发生在较小的尺寸上,而ET在较大的尺寸上也显示出强度,优于最大的Transformer,参数减少37.6%(要比较的模型用绿色圈出)。

为了测试普遍性,我们还在其他NLP任务上将ET与Transformer进行了比较。首先,我们研究了使用不同语言对的翻译,发现ET表现提升,其边缘与英语-德语相似;再次,由于其有效使用参数,对于中型模型观察到了最大的提升。我们还比较了使用LM1B进行语言建模的两种模型的解码器,并且看到性能提升近2个perplexity。

未来工作

这些结果是探索体系结构搜索在前馈序列模型中应用的第一步。Evolved Transformer作为Tensor2Tensor的一部分已开源,在那里它可以用于任何序列问题。为了提高可重复性,我们还开源了我们用于搜索的搜索空间,以及实施渐进动态障碍的Colab。我们期待着看到研究团体用新模型做了什么,并希望其他人能够利用这些新的搜索技术!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5858

    浏览量

    103251
  • 开源
    +关注

    关注

    3

    文章

    2985

    浏览量

    41716

原文标题:谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一文详解Transformer神经网络模型

    Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中,通过试错来学习最优的行为策略。
    发表于 02-20 09:55 2022次阅读
    一文详解<b class='flag-5'>Transformer</b>神经网络模型

    Transformer压缩部署的前沿技术:RPTQ与PB-LLM

    随着人工智能技术的迅速发展,Transformer在自然语言处理、机器翻译、问答系统等领域取得了显著的性能提升。
    的头像 发表于 01-24 14:05 357次阅读
    <b class='flag-5'>Transformer</b>压缩部署的前沿技术:RPTQ与PB-LLM

    基于Transformer的多模态BEV融合方案

    由于大量的相机和激光雷达特征以及注意力的二次性质,将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。
    发表于 01-23 11:39 222次阅读
    基于<b class='flag-5'>Transformer</b>的多模态BEV融合方案

    浅谈网络变压器(Network Transformer

    网络变压器(Network Transformer)是一种用于信号转换和传输的电子设备,广泛应用于网络设备中,如路由器、交换机、网卡等。网络变压器的主要作用有以下几点。
    的头像 发表于 11-24 09:31 511次阅读

    如何正确的8009应用于反相放大电路中?

    左右(正相饱和),但是我使用multisim仿真是没有问题的,请问应如何正确的8009应用于反相放大电路中?如果不能用于反相放大电路请问如何通过手册鉴别?其中的机理是什么? 仿真输出波形 通道A
    发表于 11-21 07:07

    一种应用于智能家电嵌入式软件的框架构件规范

    电子发烧友网站提供《一种应用于智能家电嵌入式软件的框架构件规范.pdf》资料免费下载
    发表于 11-17 10:56 1次下载
    一种<b class='flag-5'>应用于</b>智能家电嵌入式软件的框<b class='flag-5'>架构</b>件规范

    关于深度学习模型Transformer模型的具体实现方案

    Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。
    发表于 11-17 10:34 314次阅读
    关于深度学习模型<b class='flag-5'>Transformer</b>模型的具体实现方案

    龙芯LoongArch架构2K0500开发板应用于车辆管理和控制系统解决方案

    龙芯LoongArch架构2K0500开发板应用于车辆管理和控制系统解决方案
    的头像 发表于 08-28 15:26 702次阅读
    龙芯LoongArch<b class='flag-5'>架构</b>2K0500开发板<b class='flag-5'>应用于</b>车辆管理和控制系统解决方案

    BEV人工智能transformer

    BEV人工智能transformer  人工智能Transformer技术是一种自然语言处理领域的重要技术,广泛应用于自然语言理解、机器翻译、文本分类等任务中。它通过深度学习算法从大规
    的头像 发表于 08-22 15:59 617次阅读

    Transformers是什么意思?人工智能transformer怎么翻译

    转换成目标语言并实现各种自然语言处理任务,例如文本分类、文本生成、机器翻译和命名实体识别等。该技术最近在各种自然语言处理任务中表现出色,比传统的技术方法实现更高的准确性和更高的处理速度。 在电气工程中,transformer通常指的是一种
    的头像 发表于 08-22 15:59 2219次阅读

    掌握基于Transformer的目标检测算法的3个难点

    Transformer来源于自然语言处理领域,首先被应用于机器翻译。后来,大家发现它在计算机视觉领域效果也很不错,而且在各大排行榜上碾压CNN网络。
    的头像 发表于 08-22 14:52 450次阅读
    掌握基于<b class='flag-5'>Transformer</b>的目标检测算法的3个难点

    使用 Vision Transformer 和 NVIDIA TAO,提高视觉 AI 应用的准确性和鲁棒性

    Transformer 架构应用于视觉数据的机器学习模型。相比基于 CNN 的同类模型具有一些优势,并能够并行处理大规模输入的数据。
    的头像 发表于 08-04 17:40 364次阅读
    使用 Vision <b class='flag-5'>Transformer</b> 和 NVIDIA TAO,提高视觉 AI 应用的准确性和鲁棒性

    RetNet架构Transformer架构对比分析

    微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks (RetNet)[1,4],该架构相对于 Transformer 架构的优势是同时具备:训练
    发表于 07-26 10:44 972次阅读
    RetNet<b class='flag-5'>架构</b>和<b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>对比分析

    是否可以900/1800天线用于ESP?

    为了增加 ESP8266 的 wi-fi 范围,我打算使用外部橡皮鸭天线。我在谷歌上搜索了“ ”。在结果产品中,我注意到规格中提到的频率是 900/1800。但是 ESP wi-fi 在 2400
    发表于 05-12 06:39

    笙泉BLDC MCU: 应用于FOC无感控制

    的无感MDSF40 / MDRFD0系列可应用于新风机系统、低压吊扇、高转速风筒…等,亦提供完整的参考设计予客户。 MDSF40 简易架构: MDRFD0 简易架构: 3相PMSM/BLDC FOC 无感MCU
    发表于 05-08 12:39