0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在没有大量标记数据的情况下,让计算机也学会翻译?

电子工程师 来源:未知 作者:李倩 2018-09-05 09:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

神经机器翻译(NMT)关注的是通过 AI 在不同人类语言之间进行翻译的过程。2015 年,蒙特利尔学习算法研究所的研究人员开发出了一项新的算法模型,最终让机器给出了对应的翻译。一夜之间,像谷歌翻译这样的翻译软件质量得到了大幅度提升。

尽管此次改进非常显著,但它仍需要两种语言的句子对,例如:“I like to eat”和“me gusta comer”分别为英语和法语中的“我想要吃”。对于从乌尔都语到英语等没有句子对的语言翻译而言,翻译系统则显得无能为力。从那时起,研究人员就开始构建无需句子对也能翻译的系统,无监督神经机器翻译(UNMT)就是其一。

去年 10 月末,来自西班牙圣塞巴斯蒂安巴斯克大学(UPV)和互联网科技公司 Facebook 人工智能研究院(FAIR)的两支团队,向2018ICLR分别递交了各自的最新研究成果——无监督神经网络翻译模型。

当时,两篇论文共同表明,神经网络可以在没有平行文本的情况下学习翻译。

这意味着该模型将突破原有的神经机器翻译(NMT)需要足够大的平行语料库的限制,创造了一种可以使用单语语料库进行训练的翻译模型,并克服了平行语料库不足的问题。从社会学的角度讲,这将有助于我们翻译一些语言已经丢失了的文字,或者让机器去实时翻译一些稀有语言,如斯瓦西里语和白俄罗斯语。

过去一年间,不断有研究人员试图通过无监督学习用大量无标记数据训练以进一步提高系统的翻译能力。Facebook、纽约大学、巴斯克大学、索邦大学的研究团队成果显著,成功让机器在不知道“house”的西班牙对应词是“casa”的情况下翻译出来。

近日,Facebook 人工智能实验室再次公布了有关无监督神经网络翻译的最新模型,相当于用 10 万个参考译文训练过的监督模型。“在机器翻译领域,这是一个重大的发现,尽管世界上有超过 6500 种语言,但可利用的翻译训练资源池要么不存在、要么就是太小不足以运用在现有系统中。”

为了证明这一进步的价值,研究人员给出了以下陈述:“ 1 个 BLEU 点(判断机器翻译准确度的常用指标)的进步被视为该领域一项了不起的成就。我们的方法相当于有 10 个 BLEU 点的进步。” 实际上,该项研究使得很多没有平行文本的语言翻译变得更为容易,如从乌尔都语到英语的翻译。

▌研究原理

1、字节对编码:不像此前为系统提供完整单词的方式,只给系统提供单词的一部分。例如,单词“hello”可拆分为四部分,分别是“he”“l”“l”“o”。这意味系统可以学习“he”的译词,尽管系统此前从来没有见过该词。

2、语言模型:训练神经网路学习生成在语言中“听起来不错”的句子。例如,这个神经网络可能会将句子“您好嘛”改为“您好吗”。

3、反向翻译:这是神经网络学习向后翻译的另一个技巧。例如,如果想将西班牙语翻译称英语,就需要先教会神经网络从英语翻译成西班牙语,然后用它来生成合成数据,从而增加已有的数据量。

▌逐字翻译

让系统学习双语词典,将一个单词与其他语言的合理翻译联系起来,即系统学习每种语言中的单词嵌入。

训练嵌入词以预测跟给定上下文中单词近似的单词,可以发现很多有趣的语义结构。例如,“kitty”的近义词是“cat”,而“kitty”的嵌入词与“animal”相近,却与“rocket”相差很远。

此外,不同语言的嵌入词有相似的领域结构,这在于世界各地的人都拥有相同的物理环境。例如,英语中的单词“cat”和“furry”之间的关系类似于它们在西班牙语中的相应翻译(“gato”和“peludo”),因为这些单词的频率和其上下文是相似的。

鉴于这些相似之处,研究人员建议使用对抗训练,以推导出一个相当准确的双语词典,无需访问任何平行文本,便可实现逐字翻译。

▌句子修正

不过,研究人员还是建议无监督的方式进行逐字翻译,也有可能造成单词丢失,或无序甚至是错误。所以,接下来,需要在已知大量单词数据的基础上进行编辑,对不流畅或不符合语法结构的句子进行修正。

另外,研究人员还给出以下两种方法,一个是基于神经网络的系统(NMT),一个是基于短语的系统(PBSMT)。虽然任何一种方法都可以提高翻译质量,但二者并用将产生更新的显著效果。

据了解,PBSMT(Facebook统计机器翻译)是 FAIR 此前的研究成果。该系统学习每种语言中短语的概率分布,并教会另一个系统旋转第二组的数据点以匹配第一组的数据点。

以一个比较形象的方式展示:假设有两个图像,一个是杯子与盖子彼此相邻,另一个是盖子在杯子上。该系统将学习如何在没有盖子的情况下,在图像周围移动像素以生成有盖子的图像。

目前,Facebook 人工智能实验室将免费开放代码,方便开发者获取搭建系统。

▌写在最后

要知道,多数现有的 AI 模型是通过“监督学习”训练而成的,这也意味着必须耗费大量的人力对样本数据进行标记与分类。尽管强化学习与生成式对抗网络的出现从一定程度上解决了这一问题,但数据标记仍是目前阻碍 AI 系统发展的最大障碍。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106819
  • 人工智能
    +关注

    关注

    1813

    文章

    49752

    浏览量

    261625
  • 机器翻译
    +关注

    关注

    0

    文章

    141

    浏览量

    15466

原文标题:翻译们又要失业?Facebook最新无监督机器翻译成果,BLEU提升10个点!

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    龙芯中科斩获2025中国工业计算机大会两项殊荣

    近日,2025中国工业计算机大会(CCF ICCC 2025)在云南昆明召开。本次大会由中国计算机学会主办,中国计算机学会工业控制
    的头像 发表于 11-10 17:35 463次阅读

    利尔达受邀出席第十九届中国计算机学会物联网大会(CWSN 2025)

    //9月6日至7日,第十九届中国计算机学会物联网大会(CWSN2025)在杭州成功召开。本届大会由中国计算机学会主办,汇聚了来自政府、企业、学术界及行业组织的专家与从业者代表,围绕智能
    的头像 发表于 09-11 18:02 819次阅读
    利尔达受邀出席第十九届中国<b class='flag-5'>计算机</b><b class='flag-5'>学会</b>物联网大会(CWSN 2025)

    何在“SD 卡 NAND 闪存”的情况下使用 Non-OS NVTFAT?

    何在“SD 卡 NAND 闪存”的情况下使用 Non-OS NVTFAT
    发表于 09-01 07:58

    四维图新荣获陕西省计算机学会“科技进步一等奖”

    近日,陕西省计算机学会公布了2025年度计算机领域科学技术奖获奖名单。其中,由西安电子科技大学牵头,联合四维图新等单位共同申报的“面向安全驾驶的车路云协同环境感知技术及应用”项目荣获“科技进步奖一等奖”。
    的头像 发表于 08-29 16:53 1231次阅读

    当不同的数据放在同一个Flash页面上时,请问如何在不影响其他数据情况下更改一些单独的数据

    当不同的数据放在同一个Flash页面上时,如何在不影响其他数据情况下更改一些单独的数据
    发表于 08-22 06:25

    何在没有 NuLink 编程器的情况下执行 SWD 解锁序列?

    我迫切需要知道如何在没有 NuLink 编程器的情况下执行 SWD 解锁序列。
    发表于 08-18 07:04

    工业计算机的重要性

    于管理用于产品检查、数据记录和数据分析的运动控制系统,以提高制造生产率。例如,汽车行业从工业边缘计算机中受益匪浅,这些计算机用于自动化制造汽车所涉及的各种过程。工业边
    的头像 发表于 07-28 16:07 401次阅读
    工业<b class='flag-5'>计算机</b>的重要性

    CYUSB3014在不关机的情况下用USB 2.0的线连接电脑,计算机无法识别FX3,这种情况正常吗?

    我正在使用自供电模式的 CYUSB3014。我先用USB 3.0的线传输数据,然后再不关机的情况下用USB 2.0的线连接电脑。计算机无法识别 FX3。这种情况正常吗?和USB传输协议
    发表于 07-28 06:25

    自动化计算机经过加固后有什么好处?

    让我们讨论一部署坚固的自动化计算机的一些好处。1.温度范围宽自动化计算机经过工程设计,配备了支持宽温度范围的组件,使自动化计算解决方案能够在各种不同的极端环境中运行。自动化
    的头像 发表于 07-21 16:44 431次阅读
    自动化<b class='flag-5'>计算机</b>经过加固后有什么好处?

    自动化计算机的功能与用途

    工业自动化是指利用自动化计算机来控制工业环境中的流程、机器人和机械,以制造产品或其部件。工业自动化的目的是提高生产率、增加灵活性,并提升制造过程的质量。工业自动化在汽车制造中体现得最为明显,其中许多
    的头像 发表于 07-15 16:32 535次阅读
    自动化<b class='flag-5'>计算机</b>的功能与用途

    工业计算机与商用计算机的区别有哪些

    工业计算机是一种专为工厂和工业环境设计的计算系统,具有高可靠性和稳定性,能够应对恶劣环境的自动化、制造和机器人操作。其特点包括无风扇散热技术、无电缆连接和防尘防水设计,使其在各种工业自动化场景中
    的头像 发表于 07-10 16:36 526次阅读
    工业<b class='flag-5'>计算机</b>与商用<b class='flag-5'>计算机</b>的区别有哪些

    NVIDIA助力全球最大量子研究超级计算机

    NVIDIA 宣布将开设量子-AI 技术商业应用全球研发中心(G-QuAT),该中心部署了全球最大量计算研究专用超级计算机 ABCI-Q。
    的头像 发表于 05-22 09:44 686次阅读

    LPC1227FBD48如何在没有SDK的情况下配置FreeRTOS?

    我想在基于 LPC1227FBD48 系列的现有项目中使用 FreeRTOS,但我们没有可用于控制器的 SDK。我们如何在没有 SDK 的情况下配置 FreeRTOS。
    发表于 04-02 06:33

    杰和科技工业计算机AF208|防尘+静音+全天候运行

    ,无惧尘埃杰和科技工业计算机AF208采用紧固耐用的外壳材质,无风扇设计,表壳为鳍型设计,能在无风扇设计的情况下最大程度散热,营造出极致安静的工作和使用环境,使设
    的头像 发表于 03-03 11:04 606次阅读
    杰和科技工业<b class='flag-5'>计算机</b>AF208|防尘+静音+全天候运行

    云端超级计算机使用教程

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的计算服务。下面,AI部落小编为
    的头像 发表于 12-17 10:19 963次阅读