0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何为Google翻译上的性别中性词提供女性化和男性化两种翻译结果的技术原理

电子工程师 来源:lq 2018-12-12 09:44 次阅读

如何消除 AI 带来的性别偏见是个令人头疼的问题,那究竟有没有方法去解决?

12 月 6 日,Google 宣布他们迈出了减少 Google 翻译中性别偏见的第一步,并且还详细介绍了如何为 Google 翻译上的性别中性词提供女性化和男性化两种翻译结果的技术原理。

过去几年,Google 翻译通过使用基于端到端的神经网络系统大大提高了翻译质量,但与此同时,模型的翻译结果呈现出了社会偏见,尤其是性别偏见。具体而言,由于 Google 翻译的结果一直都是从网上数以亿计的已翻译数据中学习得到,这造成的后果是,即使翻译结果可能具有女性化或男性化形式的倾向,但它也只为查询提供一种翻译。因而,这无可避免地复制了已有的性别偏见。例如,像“强壮”或“医生”这样的词语,它会生成偏向于男性化的翻译结果,而对于“护士”或“美丽”等词汇,则会生成偏向于女性化的翻译。

现在,Google 翻译解决了上述问题。当你把诸如“外科医生”这样的单字从英语翻译成法语、意大利语、葡萄牙语或西班牙语时,会得到的男性化和女性化的两种翻译结果。另外,当把短语和句子从土耳其语翻译成英语时,你也会得到这两类翻译,比如你用土耳其语输入“o bir doktor”,就会得到“she is a doctor”和“he is a doctor”这两种按性别翻译的结果。

Google 翻译中有特定性别的翻译

Google 团队是如何做的?

要知道,支持单字查询的特定性别翻译涉及到用性别属性丰富 Google 的底层词库。支持较长(短语和句子)查询的性别翻译尤其具有挑战性,这甚至需要对翻译框架进行部分重构。对于这些较长的查询,他们最初将重点放在从土耳其语到英文的翻译上。总体而言,他们制订了三步法来解决土耳其语中性别中立查询的问题,即同时提供英文的男性化和女性化翻译结果。

检测性别中立查询

许多土耳其语中提到人的句子都是性别中立的,但并不是全部都这样。检测哪些查询符合特定性别的翻译是一个难题,由于土耳其语在形态学上的很复杂,这意味着指代一个人可以是明确的性别中立代词(例如 O,Ona)或隐式编码。例如,“Biliyor mu?”没有明确的性别中立代名词,可以翻译为“她知道吗?”或“他知道吗?”这种复杂性导致我们不能使用简单的性别中性代词列表来检测性别中立的土耳其语查询,另外我们还需要一个机器学习系统。Google 团队估计大约有 10% 的土耳其语的翻译查询含糊不清,能同时符合女性化和男性化翻译的条件。

为了检测这些查询,他们使用了最先进的文本分类算法(与他们的云自然语言 API 中使用的算法相同)来构建一个系统,该系统能够检测给定的土耳其语查询何时是性别中立的。这就导致在翻译前新增了一个步骤,所以他们必须平衡模型在延迟时的复杂性。Google 团队对数千个土耳其人进行系统培训,要求这些人判断出一个给定的例子是否是性别中立的。而他们最终的分类系统是卷积神经网络,以此可以准确检测出需要按性别翻译的查询。

生成特定性别翻译

随后,Google 团队增强了基础神经机器翻译(NMT)系统,以便在需要时生成女性化和男性化翻译。当没有要求区分性别时,训练模型生成的是默认翻译。这主要包括:

识别并将平行训练数据划分为具有女性化词语、男性化词语和性别不明词语。

在句子的开头添加一个新增的输入标记,以指定要翻译的所需性别,类似于已构建的多语言 NMT 系统的方式:

<2MALE> O bir doktor→他是一名医生

<2FEMALE> O bir doktor→她是一名医生

训练增强的 NMT 模型对女性、男性和性别中立数据源的影响。他们对这些来源进行了各种混合比试验,使模型在这三个任务中的表现同样出色。

如果确定用户查询是性别中立的,他们会在翻译请求中添加性别前缀。对于这些要求,他们的最终 NMT 模型可以在 99% 情况下生成可靠的女性化和男性化性别的翻译结果。此外,系统在没有性别前缀的查询中还能保持翻译质量。

检查准确性

最后的一个步骤决定是否显示特定性别的翻译结果。由于产生男性化翻译的训练数据与产生女性化翻译的训练数据不同,因此在与性别无关的两种翻译间可能存在差异。如果确定特定性别的翻译质量低,则只显示单一的默认翻译。为了确定特定性别的句子翻译质量,他们进行以下验证:

要求的女性翻译是女性化的;

要求的男性化翻译是男性化的;

除了与性别相关的变化,如果女性化和男性化翻译完全相同,即使翻译结果间的措辞发生微小变化也会被系统过滤掉。

男性化和女性化翻译仅在性别方面有所不同,即“he”和“his”与“she”和“her”。因此,他们展示了特定性别的翻译。底部:男性化和女性化翻译在性别方面有所不同,即“he”与“she”。但是,从“really”到“actually”的变化与性别无关。因此,系统将过滤特定性别的翻译并显示默认翻译结果。

如果将所有内容放在一起,输入句子首先会通过分类器,分类器检测它们是否可以进行特定性别翻译。如果分类器说“是”,系统则向增强型 NMT 模型发送三个请求:女性化翻译请求、男性化翻译请求和性别中立翻译请求。最后一步考虑了所有的三个答案,并决定是否显示特定性别翻译或单个默认翻译。Google 团队认为,这一步仍然相当保守,为了最大限度提高所显示的特定性别的翻译质量,因此系统的整体召回率仅为 60% 左右。

对 Google来说,这只是他们解决机器翻译系统中性别偏见的第一步,未来,他们计划将特定性别的翻译扩展到更多语言,并解决自动完成查询等功能中的性别偏见问题。此外,他们已经在考虑如何在翻译中解决非二元性别的问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1713

    浏览量

    56789
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98716
  • 机器翻译
    +关注

    关注

    0

    文章

    138

    浏览量

    14793

原文标题:“男医生,女护士?”消除偏见,Google有大招

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NXT4559SIM卡接口级翻译器产品介绍

    电子发烧友网站提供《NXT4559SIM卡接口级翻译器产品介绍.pdf》资料免费下载
    发表于 01-03 16:30 0次下载
    NXT4559SIM卡接口级<b class='flag-5'>翻译</b>器产品介绍

    TooliP - 智能专利文件翻译工具,节省80%翻译时间

    在面对专利文件的独特要求,如高度严谨的术语和精准度时,其他普通翻译工具往往显得乏力。TooliP赋予用户简化流程并显著节约时间的机会,平均能节省约80%的翻译时间。
    的头像 发表于 12-20 14:48 504次阅读

    教你Python自制屏幕翻译工具

    1. 场景 大家如果平常遇到不认识的英文,相信大部分的人都会复制内容后,使用翻译软件,或者拷贝到网站上去执行翻译。 当然,对于 IDE、浏览器可以装一些插件来翻译,有道也有划词翻译
    的头像 发表于 11-02 16:02 345次阅读
    教你Python自制屏幕<b class='flag-5'>翻译</b>工具

    仿真人类的微软AI翻译系统

    从历史上看,曾经主流的机器学习技术在行业中应用是统计机器翻译 (SMT)。SMT 使用先进的统计分析,从一句话中上下文的几个词中来估计最佳可能的翻译。SMT自20 世纪中期以来的为所有主要翻译
    的头像 发表于 10-11 15:27 554次阅读

    使用TouchGFX二进制翻译(Binary Translation)功能实现动态更新翻译

    电子发烧友网站提供《使用TouchGFX二进制翻译(Binary Translation)功能实现动态更新翻译.pdf》资料免费下载
    发表于 09-19 16:48 1次下载
    使用TouchGFX二进制<b class='flag-5'>翻译</b>(Binary Translation)功能实现动态更新<b class='flag-5'>翻译</b>

    ICOM 2720说明书部分中文翻译参考

    电子发烧友网站提供《ICOM 2720说明书部分中文翻译参考.pdf》资料免费下载
    发表于 08-30 17:42 0次下载

    Transformers是什么意思?人工智能transformer怎么翻译

    Transformers是什么意思?transformer怎么翻译?人工智能transformer怎么翻译? Transformers是一个包含自然语言处理中的基础技术的深度神经网络。它可以将源语言
    的头像 发表于 08-22 15:59 2218次阅读

    人工智能会取代翻译

    在某些场景下,如翻译普通商务文档、新闻报道以及其他非技术性的文章等,机器翻译的正确率已经非常接近人类翻译了。然而,在涉及到一些重要的领域,例如法律、药学甚至是文学等相关领域,机器
    的头像 发表于 08-14 14:29 762次阅读

    Armv8-A地址翻译技术解读

    Armv8-A使用一个虚拟内存系统,其中代码使用的地址(虚拟地址)是 转换成物理地址,供存储系统使用。这个翻译是 由处理器中称为内存管理单元(MMU)的部分执行。mmu的 Arm架构使用存储在内存中
    发表于 08-02 17:29

    机器翻译研究进展

    机器翻译使用计算机将一种语言翻译成另一种语言,具有低成本、高效率和高翻译质量等优势,在语音翻译、同声传译自动化等许多领域得到广泛应用。 随着双语语料库的不断建设和完善,基于语料库的机器
    的头像 发表于 07-06 11:19 413次阅读
    机器<b class='flag-5'>翻译</b>研究进展

    e-AI翻译机V1.4.0使用说明

    e-AI翻译机V1.4.0使用说明
    发表于 07-05 18:51 0次下载
    e-AI<b class='flag-5'>翻译</b>机V1.4.0使用说明

    e-AI翻译机V2.2.0 用户手册

    e-AI翻译机V2.2.0 用户手册
    发表于 06-30 20:55 1次下载
    e-AI<b class='flag-5'>翻译</b>机V2.2.0 用户手册

    e-AI翻译机V2.3.0 用户手册

    e-AI翻译机V2.3.0 用户手册
    发表于 06-30 18:46 0次下载
    e-AI<b class='flag-5'>翻译</b>机V2.3.0 用户手册

    PyTorch教程10.5之机器翻译和数据集

    电子发烧友网站提供《PyTorch教程10.5之机器翻译和数据集.pdf》资料免费下载
    发表于 06-05 15:14 0次下载
    PyTorch教程10.5之机器<b class='flag-5'>翻译</b>和数据集

    NB-IOT与LoRa未来两种技术在国内的发展究竟如何呢?

    备受争议,但随着广电,铁塔及互联网巨头腾讯,阿里相继加入LoRa阵营,无疑又为LoRa在国内的发展注入一支“强心剂”。那未来两种技术在国内的发展究竟如何呢?   NB-IOT( Narrow Band
    发表于 05-11 10:14