0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google翻译出现“水逆”,是员工的恶作剧?

电子工程师 来源:未知 作者:胡薇 2018-07-31 08:22 次阅读

最近,一些网友使用的 Google 翻译“水逆”了。

在Reddit上,有网友截图显示,在 Google 翻译中当某些语种的词汇翻译成英语时,输出的却是毫无由头的宗教语言。比如键入 19 个 dog,将其从毛利语翻译成英语时,输出的却是“距离十二点的世界末日时钟还差三分钟,我们正在经历世界上的人物和戏剧性发展,这预示着我们正在无线接近末日,耶稣回归时日将近。”

但这只是众多无厘头翻译的其中之一。还有网友放出了很多“不详”的翻译内容。例如,在索马里语中,“ag”这个词被翻译成了“Gershon 的儿子(sons of Gershon)”,“耶和华的名字(name of the LORD)”,并且会引用圣经里的“cubits”(计量单位)和Deuteronomy(《申命记》)。

有网友留言称其为“恶魔”或者“幽灵”,猜测这是 Google 员工的恶作剧,也有人建议设置“建议编辑”功能,让用户可以进行修改为正确内容。Google 发言人 Justin Burr 在一封电子邮件中称:这只是一个将无意义的话语输入系统然后产生无意义输出的功能。

不过 Justin Burr 并未透露 Google 翻译使用的训练数据是否有宗教文本。但上述诡异输出内容很可能已被 Google 翻译修正,AI科技大本营编辑输入上述相同内容后也并未发现异常。

但人们对探讨 Google 翻译出现如此结果的背后原因热情不减,更专业的声音在不断发出。哈佛大学助理教授 Andrew Rush 认为,这很可能与 2 年前 Google 翻译技术的改变有关,它目前使用了的是“神经机器翻译(NMT)”的技术。

BBN Technologies 的科学家 Sean Colbath 从事机器翻译工作,他同意奇怪的输出可能是由于 Google 翻译的算法试图在混乱中寻找秩序。他还指出,索马里语、夏威夷语以及毛利语等产生最奇怪结果的语言,它们用于训练的翻译文本比英语或汉语等更广泛使用的语言要少很多。所以他认为,Google 可能会使用像圣经等被翻译成多种语言的宗教文本来训练小语种的模型,这也解释了为什么会最终输出宗教内容。

前 Google 员工 Delip Rao 在其博客上则指出,当谈到平行语料库时,宗教文本是最低层次的共同标准资源,像“圣经”和“古兰经”这样的主要宗教文本有各种语言版本。

比如,如果你为政府部署一个 Urdu-to-English (乌尔都语——英语)的机器翻译系统,那么很容易将一堆已经翻译成乌尔都语的宗教文本组合在一起。因此,可以合理地假设 Google 的平行语料库中包含所有的宗教文本,而对于许多资源不足的语言,它们不只是训练语料库中微不足道的部分。

那么,为什么我们看到 Google 翻译会输出宗教文本,尤其是以那些资源不足的语言对作为输入时 ,如上文中的毛利语?一种解释是,因为宗教文本包含许多只会在宗教文本中出现的罕见词,而这些词在其他任何地方都不会出现。因此,罕见的词语可能会触发解码器中的宗教情境,尤其是当这些文本的比例很大时。另一种解释是该模型对输入的内容没有太多的统计支持,而输出也只是解码器模型的无意义采样。

更重要的是,他想要指出现在的神经机器翻译 (NMT) 真正存在的问题。

他特意总结了2017 年 Philipp Koehn 和 Rebecca Knowles 撰写的一篇论文,内容如下:

1.NMT 在域外数据上表现很差:像 Google 翻译这样的通用 MT 系统在法律或金融等专业领域的表现尤其糟糕。此外,与基于短语的翻译系统等传统方法相比,NMT 系统的效果更差。到底有多糟糕?如下图所示,其中非对角线元素表示域外结果,绿色是 NMT 的结果,蓝色是基于短语的翻译系统的结果。

MT 系统在一个域 (行) 上训练并在另一个域 (列) 上进行测试。蓝色表示基于短语翻译系统的表现,而绿色表示 NMT 的表现。

2.NMT 在小数据集上的表现很差:虽然这算是机器学习的通病,但这个问题在 NMT 中体现尤其明显。相比基于短语的 MT 系统,虽然 NMT 随着数据量的增加能进行更好地概括 ,但在小数据量情况下 NMT 的表现确实更糟糕。

引用作者的话来说,“在资源较少的情况下,NMT 会产生与输入无关的输出,尽管这些输出是流畅的。”这可能也是 Motherboard 那篇文章中探讨 NMT 表现怪异的另一个原因。

3.Subword NMT 在罕见词汇上的表现很糟糕:虽然它的表现仍然要好过基于短语的翻译系统,但对于罕见或未见过的词语,NMT 的表现不佳。例如,那些系统只观察到一次的单词就会被 drop 掉。像 byte-pair encoding 这样的技术对解决这个问题有所帮助,但我们有必要对此进行更详细的研究。

我们可以看到图中像土耳其语 (Turkish) 这样的语言,遇到词的变形形式是很常见的。

4.长句:以长句编码并产生长句,这仍然是一个开放的、值得研究的话题。在法律等领域,冗长复杂的句子是很常见的。MT 系统的性能将随句子长度而降级,而 NMT 系统亦是如此。引入注意力机制可能会有所帮助,但问题还远未解决。

5.注意力机制 != 对齐:这是一个非常微妙但又很重要的问题。在传统的 SMT 系统中,如基于短语的翻译系统,语句对齐能够提供有用的调试信息来检查模型。但即便论文中经常将软注意力机制视为“软对齐”,注意力机制并不是传统意义上的对齐。在 NMT 系统中,除了源域中的动词外,目标中的动词也可以作为主语和宾语。

6.难以控制翻译质量:每个单词都有多种翻译,并且典型的 MT 系统对源句的翻译好于lattice of possible translations。为了保持后者的大小合理,我们使用集束搜索 (beam search)。通过改变波束的宽度,来找到低概率但正确的翻译。而对于 NMT 系统,调整集束尺寸似乎没有任何不利影响。

当你拥有大量数据时,NMT 系统的翻译性能依然还是难以被击败的,而且它们仍然在大量地被使用。关于通常我们所说的神经网络模型的黑盒性,也有待进一步说明,如今的 NMT 模型 (基于 LSTM 和 Transformer 模型) 也都受此影响。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1713

    浏览量

    56790
  • 翻译
    +关注

    关注

    0

    文章

    47

    浏览量

    10528

原文标题:输出不详宗教预言,Google翻译为何“水逆”了?

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌解雇28名员工,因参与云合同抗议

    Google表示,由于员工消极抵抗其与以色列政府签署的云计算合同,已经解雇了28位员工。该公司在声明中强调,抵制行为严重干扰了正常工作秩序,并且违反了其企业政策。
    的头像 发表于 04-19 12:17 174次阅读

    特斯拉安保扫描工牌解雇员工,超10%员工遭解雇

    周日晚间,特斯拉向全体员工发出邮件,宣布将裁员超过10%。而据五位现任或前任员工透露,部分员工直至周一上班时才得知自己失业。
    的头像 发表于 04-16 14:25 231次阅读

    STM32cubeMX设置USB编译出现Undefined symbol错误的原因?

    STM32cubeMX 设置USB 编译出现Undefined symbol 错误。 勾选STM32CUBEMX中的USB_device 设置FS IP的VPC,默认配置,用keil软件编译就出现以下截图报错。
    发表于 04-01 07:44

    第二届大会回顾第11期 | 面向万物智联的可信连接关键技术研究

    OpenHarmony技术俱乐部主任,中国计算机学会高级会员。研究方向为可信计算、信息系统安全、安全测评等。主持国家自然科学基金项目、华为鲲鹏众智项目等项目10余项,在国内外期刊及会议上发表学术论文50余篇,翻译出版译著2部,参与学术著作6部。 视频回顾  打开哔哩哔哩APP,观
    的头像 发表于 02-25 17:55 361次阅读
    第二届大会回顾第11期 | 面向万物智联的可信连接关键技术研究

    谷歌广告团队裁员数百人,员工转向中等级别客户服务

    目前有多位相关员工透露,谷歌正逐步将更多员工从大型客户销售团队(LCS)调配至服务中等规模客户的 Google 客户解决方案团队(GCS)。同时,谷歌也尝试借助人工智能技术让性能优化系统等产品实现更多自动化操作。
    的头像 发表于 01-17 10:42 307次阅读

    AI数字员工出现:不是取代,而是让技术更好地服务于人类

    在人工智能技术迅猛发展的今天,AI数字员工出现成为了企业和组织关注的热点。与传统观念中的机器人或自动化设备不同,AI数字员工是集成了最新AI技术,如自然语言处理、机器学习和情感分析等功能的虚拟助手
    的头像 发表于 12-29 10:27 167次阅读
    AI数字<b class='flag-5'>员工</b>的<b class='flag-5'>出现</b>:不是取代,而是让技术更好地服务于人类

    抓住最后机会,探索更多 Google DevFest 精彩内容!

    活动。DevFest 为参与者提供一个与 Google 员工、GDE 谷歌开发者专家、社区 KOL、行业开发者和问题解决者面对面交流的机会。 今年,中国区的 DevFest 2023 系列活动已如火如荼地进行中
    的头像 发表于 11-27 18:40 321次阅读

    使用TouchGFX二进制翻译(Binary Translation)功能实现动态更新翻译

    电子发烧友网站提供《使用TouchGFX二进制翻译(Binary Translation)功能实现动态更新翻译.pdf》资料免费下载
    发表于 09-19 16:48 1次下载
    使用TouchGFX二进制<b class='flag-5'>翻译</b>(Binary Translation)功能实现动态更新<b class='flag-5'>翻译</b>

    GD32VF103编译时出现ram错误怎么解决?

    译出现错误,如下图,哪位大神帮忙一下,万分感谢!!!!
    发表于 08-15 06:44

    人工智能会取代翻译

    在某些场景下,如翻译普通商务文档、新闻报道以及其他非技术性的文章等,机器翻译的正确率已经非常接近人类翻译了。然而,在涉及到一些重要的领域,例如法律、药学甚至是文学等相关领域,机器翻译
    的头像 发表于 08-14 14:29 762次阅读

    机器翻译研究进展

    机器翻译使用计算机将一种语言翻译成另一种语言,具有低成本、高效率和高翻译质量等优势,在语音翻译、同声传译自动化等许多领域得到广泛应用。 随着双语语料库的不断建设和完善,基于语料库的机器
    的头像 发表于 07-06 11:19 415次阅读
    机器<b class='flag-5'>翻译</b>研究进展

    将数据发送到Google表格时出错怎么解决?

    我已经按照教程将数据从 NodeMcu 加载到 Google 表格 Google 表格并且脚本编辑器工作正常 NodeMcu 代码抛出错误: Temp = 19.50 HUM = 62.80
    发表于 06-05 10:08

    如何使用Google Maps API进行自我定位?

    从使用 Google Maps API 的 ESP 自我定位的简单概念验证实施开始。如果扫描本地可见的 SSID,则将请求格式化为 Google Maps Web Service 并接收其当前位置
    发表于 05-23 08:25

    Google Drive推荐的图像尺寸是多少?

    发布图片时我看到的都是;未登录时,是一个小图标,图标旁边带有“图像”。 尝试过使用 Google Drive 托管图片;登录或未登录均无效。另外,尝试过附加文件,然后复制链接地址并在图像标签之间粘贴我也尝试过调整图像大小。 包含图像的过程是什么?推荐的图像尺寸是多少?
    发表于 05-11 08:11