0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌Transformer大进化 机翻最强王者上线

DR2b_Aiobservat 来源:yxw 2019-06-18 10:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

谷歌Evolved Transformer通过AutoML技术进行特定任务定制,在编码器和解码器模块底部的卷积层以分支模式运行,提高了语言建模的性能,目前在机器翻译领域可以达到最先进的结果。

Transformer是一种AI架构,最早是在2017年Google的科学家合著的论文《Attention Is All You Need》中介绍的,它比较擅长撰写散文和产品评论、合成声音、以古典作曲家的风格制作和声。

但是,谷歌的一个研究小组认为它可以更进一步使用AutoML技术,根据特定任务进行定制翻译。在一篇新发表的论文和博客中,研究人员描述了工作成果:与原始的Transformer相比,现在的Transformer既达到了最先进的翻译结果,也提高了语言建模的性能。

目前,他们已经发布了新的模型Evolved Transformer——开放源代码的AI模型和数据集库,来作为Tensor2Tensor(谷歌基于tensorflow新开源的深度学习库,该库将深度学习所需要的元素封装成标准化的统一接口,在使用其做模型训练时可以更加的灵活)的一部分。

一般意义上,AutoML方法是从控制器训练和评估质量的随机模型库开始,该过程重复数千次,每次都会产生新的经过审查的机器学习架构,控制器可以从中学习。最终,控制器开始为模型组件分配高概率,以便这些组件在验证数据集上更加准确,而评分差的区域则获得较低的概率。

研究人员称,使用AutoML发现Evolved Transformer需要开发两种新技术,因为用于评估每种架构性能的任务WMT'14英德语翻译的计算成本很高。

第一种是通过暖启动(warm starting)的方式,将初始模型填充为Transformer架构进行播种,而不采用随机模型,有助于实现搜索。第二种渐进式动态障碍(PDH)则增强了搜索功能,以便将更多的资源分配给能力最强的候选对象,若模型“明显不良”,PDH就会终止评估,重新分配资源。

通过这两种技术,研究人员在机器翻译上进行大规模NAS,最终找到了Evolved Transformer。

(Evolved Transformer架构)

那么Evolved Transformer有什么特别之处呢?

与所有深度神经网络一样,Evolved Transformer包含神经元(函数),这些神经元从输入数据中传输“信号,并缓慢调整每个连接的突触强度(权重),这是模型提取特征和学习进行预测的方式。此外,Evolved Transformer还能使每个输出元件连接到每个输入元件,并且动态地计算它们之间的权重。

与大多数序列到序列模型一样,Evolved Transformer包含一个编码器,它将输入数据(翻译任务中的句子)编码为嵌入(数学表示)和一个解码器,同时使用这些嵌入来构造输出(翻译)。

但研究人员也指出,Evolved Transformer也有一些部分与传统模型不同:在编码器和解码器模块底部的卷积层以分支模式运行,即在合并到一起时,输入需要通过两个单独的的卷积层。

虽然最初的Transformer仅仅依赖于注意力,但Evolved Transformer是一种利用自我关注和广泛卷积的优势的混合体。

(原始Transforme与Evolved Transformer的性能对比)

在测试中,研究人员将Evolved Transformer与原始Transformer在模型搜索期间使用的英德翻译任务进行了比较,发现前者在BLEU(评估机器翻译文本质量的算法)和Perplexity(衡量概率分布预测样本的程度)上性能更好。

在较大的数据中,Evolved Transformer达到了最先进的性能,BLEU得分为29.8分。在涉及不同语言对和语言建模的翻译实验中,Evolved Transformer相比于原始Transformer的性能提升了两个Perplexity。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6259

    浏览量

    111992
  • AI
    AI
    +关注

    关注

    91

    文章

    41295

    浏览量

    302667
  • 机器翻译
    +关注

    关注

    0

    文章

    141

    浏览量

    15555
  • Transformer
    +关注

    关注

    0

    文章

    156

    浏览量

    6962

原文标题:谷歌Transformer大进化,机翻最强王者上线

文章出处:【微信号:Aiobservation,微信公众号:人工智能观察】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    电子工程师视角下的SAFETY ISOLATING TRANSFORMER

    电子工程师视角下的SAFETY ISOLATING TRANSFORMER 一、产品概述 在电子设备的设计中,安全始终是重中之重。今天要介绍的这款SAFETY ISOLATING
    的头像 发表于 04-08 16:20 111次阅读

    Transformer 入门:从零理解 AI 大模型的核心原理

    │ │ 456 │→ │ 25 │ └─────────┘│ 36 │ (2×3) └─────────┘ (3×2) 记忆技巧:想象沿着对角线折叠纸张。 在 Transformer 中的应用:计算注意力分数
    发表于 02-10 16:33

    Transformer如何让自动驾驶大模型获得思考能力?

    在谈及自动驾驶时,Transformer一直是非常关键的技术,为何Transformer在自动驾驶行业一直被提及?
    的头像 发表于 02-01 09:15 4411次阅读

    谷歌评论卡,碰一碰即可完成谷歌评论 #谷歌评论卡 #NFC标签 #nfc卡

    谷歌
    深圳市融智兴科技有限公司
    发布于 :2026年01月15日 17:02:00

    谷歌XR生态加速落地:Galaxy XR上线月入60+应用,Project Aura明年发售

    电子发烧友网报道(文/莫婷婷)自从5月的谷歌2025 Google I/O开发者大会后,估计再次于12月9日召开了“The Android Show”活动,在这场时长约为半个小时的活动上,谷歌披露
    的头像 发表于 12-11 10:18 1.5w次阅读
    <b class='flag-5'>谷歌</b>XR生态加速落地:Galaxy XR<b class='flag-5'>上线</b>月入60+应用,Project Aura明年发售

    Gemini AI 再进化谷歌联合XREAL发布Project Aura, 打开“看见世界”的新能力

    [2025年12月9日,美国加利福尼亚州山景城] —— 在今日举行的 The Android Show 上,谷歌首次公布了 Project Aura产品和 Android XR系统的关键细节,该产品
    发表于 12-09 11:06 1450次阅读
    Gemini AI 再<b class='flag-5'>进化</b>:<b class='flag-5'>谷歌</b>联合XREAL发布Project Aura, 打开“看见世界”的新能力

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时可以将这些重要信息有效地关联起来。
    的头像 发表于 11-19 18:17 2472次阅读

    谷歌云发布最强自研TPU,性能比前代提升4倍

    电子发烧友网报道(文/李弯弯)近日,谷歌云在官方博客上正式宣布,公司成功推出第七代TPU(张量处理器)“Ironwood”,该芯片预计在未来几周内正式上市。   “Ironwood”由谷歌自主
    的头像 发表于 11-13 07:49 9027次阅读
    <b class='flag-5'>谷歌</b>云发布<b class='flag-5'>最强</b>自研TPU,性能比前代提升4倍

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4382次阅读
    自动驾驶中<b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    AlphaEvolve有望革新AI玩具芯片设计,算法进化驱动能效与成本双突破

    电子发烧友网综合报道,近期,谷歌 DeepMind发布了一款AlphaEvolve,是一款通用科学AI代理,基于大语言模型Gemini系列与进化计算框架,专注于算法发现与优化。可以支持数百行代码
    的头像 发表于 06-18 00:09 3988次阅读

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 1220次阅读
    <b class='flag-5'>Transformer</b>架构中编码器的工作流程

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 1455次阅读
    <b class='flag-5'>Transformer</b>架构概述

    日立建MES制造执行系统正式上线

    日前,日立建(中国)有限公司MES制造执行系统上线动员大会在安徽合肥隆重召开。日立建中国区管理层、项目关键用户及湃睿科技项目团队共同出席了本次会议。系统于2025年5月20日正式运行,开启智能管理新征程。
    的头像 发表于 06-04 14:10 1202次阅读

    快手上线鸿蒙应用高性能解决方案:数据反序列化性能提升90%

    近日,快手在Gitee平台上线了鸿蒙应用性能优化解决方案“QuickTransformer”,该方案针对鸿蒙应用开发中广泛使用的三方库“class-transformer”进行了深度优化,有效提升
    发表于 05-15 10:01

    快手上线鸿蒙应用高性能解决方案

    近日,快手在Gitee平台上线了鸿蒙应用性能优化解决方案“QuickTransformer”,该方案针对鸿蒙应用开发中广泛使用的三方库“class-transformer”进行了深度优化,有效提升
    的头像 发表于 05-14 09:11 1305次阅读
    快手<b class='flag-5'>上线</b>鸿蒙应用高性能解决方案