0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何为Google翻译上的性别中性词提供女性化和男性化两种翻译结果的技术原理

电子工程师 来源:lq 2018-12-12 09:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如何消除 AI 带来的性别偏见是个令人头疼的问题,那究竟有没有方法去解决?

12 月 6 日,Google 宣布他们迈出了减少 Google 翻译中性别偏见的第一步,并且还详细介绍了如何为 Google 翻译上的性别中性词提供女性化和男性化两种翻译结果的技术原理。

过去几年,Google 翻译通过使用基于端到端的神经网络系统大大提高了翻译质量,但与此同时,模型的翻译结果呈现出了社会偏见,尤其是性别偏见。具体而言,由于 Google 翻译的结果一直都是从网上数以亿计的已翻译数据中学习得到,这造成的后果是,即使翻译结果可能具有女性化或男性化形式的倾向,但它也只为查询提供一种翻译。因而,这无可避免地复制了已有的性别偏见。例如,像“强壮”或“医生”这样的词语,它会生成偏向于男性化的翻译结果,而对于“护士”或“美丽”等词汇,则会生成偏向于女性化的翻译。

现在,Google 翻译解决了上述问题。当你把诸如“外科医生”这样的单字从英语翻译成法语、意大利语、葡萄牙语或西班牙语时,会得到的男性化和女性化的两种翻译结果。另外,当把短语和句子从土耳其语翻译成英语时,你也会得到这两类翻译,比如你用土耳其语输入“o bir doktor”,就会得到“she is a doctor”和“he is a doctor”这两种按性别翻译的结果。

Google 翻译中有特定性别的翻译

Google 团队是如何做的?

要知道,支持单字查询的特定性别翻译涉及到用性别属性丰富 Google 的底层词库。支持较长(短语和句子)查询的性别翻译尤其具有挑战性,这甚至需要对翻译框架进行部分重构。对于这些较长的查询,他们最初将重点放在从土耳其语到英文的翻译上。总体而言,他们制订了三步法来解决土耳其语中性别中立查询的问题,即同时提供英文的男性化和女性化翻译结果。

检测性别中立查询

许多土耳其语中提到人的句子都是性别中立的,但并不是全部都这样。检测哪些查询符合特定性别的翻译是一个难题,由于土耳其语在形态学上的很复杂,这意味着指代一个人可以是明确的性别中立代词(例如 O,Ona)或隐式编码。例如,“Biliyor mu?”没有明确的性别中立代名词,可以翻译为“她知道吗?”或“他知道吗?”这种复杂性导致我们不能使用简单的性别中性代词列表来检测性别中立的土耳其语查询,另外我们还需要一个机器学习系统。Google 团队估计大约有 10% 的土耳其语的翻译查询含糊不清,能同时符合女性化和男性化翻译的条件。

为了检测这些查询,他们使用了最先进的文本分类算法(与他们的云自然语言 API 中使用的算法相同)来构建一个系统,该系统能够检测给定的土耳其语查询何时是性别中立的。这就导致在翻译前新增了一个步骤,所以他们必须平衡模型在延迟时的复杂性。Google 团队对数千个土耳其人进行系统培训,要求这些人判断出一个给定的例子是否是性别中立的。而他们最终的分类系统是卷积神经网络,以此可以准确检测出需要按性别翻译的查询。

生成特定性别翻译

随后,Google 团队增强了基础神经机器翻译(NMT)系统,以便在需要时生成女性化和男性化翻译。当没有要求区分性别时,训练模型生成的是默认翻译。这主要包括:

识别并将平行训练数据划分为具有女性化词语、男性化词语和性别不明词语。

在句子的开头添加一个新增的输入标记,以指定要翻译的所需性别,类似于已构建的多语言 NMT 系统的方式:

<2MALE> O bir doktor→他是一名医生

<2FEMALE> O bir doktor→她是一名医生

训练增强的 NMT 模型对女性、男性和性别中立数据源的影响。他们对这些来源进行了各种混合比试验,使模型在这三个任务中的表现同样出色。

如果确定用户查询是性别中立的,他们会在翻译请求中添加性别前缀。对于这些要求,他们的最终 NMT 模型可以在 99% 情况下生成可靠的女性化和男性化性别的翻译结果。此外,系统在没有性别前缀的查询中还能保持翻译质量。

检查准确性

最后的一个步骤决定是否显示特定性别的翻译结果。由于产生男性化翻译的训练数据与产生女性化翻译的训练数据不同,因此在与性别无关的两种翻译间可能存在差异。如果确定特定性别的翻译质量低,则只显示单一的默认翻译。为了确定特定性别的句子翻译质量,他们进行以下验证:

要求的女性翻译是女性化的;

要求的男性化翻译是男性化的;

除了与性别相关的变化,如果女性化和男性化翻译完全相同,即使翻译结果间的措辞发生微小变化也会被系统过滤掉。

男性化和女性化翻译仅在性别方面有所不同,即“he”和“his”与“she”和“her”。因此,他们展示了特定性别的翻译。底部:男性化和女性化翻译在性别方面有所不同,即“he”与“she”。但是,从“really”到“actually”的变化与性别无关。因此,系统将过滤特定性别的翻译并显示默认翻译结果。

如果将所有内容放在一起,输入句子首先会通过分类器,分类器检测它们是否可以进行特定性别翻译。如果分类器说“是”,系统则向增强型 NMT 模型发送三个请求:女性化翻译请求、男性化翻译请求和性别中立翻译请求。最后一步考虑了所有的三个答案,并决定是否显示特定性别翻译或单个默认翻译。Google 团队认为,这一步仍然相当保守,为了最大限度提高所显示的特定性别的翻译质量,因此系统的整体召回率仅为 60% 左右。

对 Google来说,这只是他们解决机器翻译系统中性别偏见的第一步,未来,他们计划将特定性别的翻译扩展到更多语言,并解决自动完成查询等功能中的性别偏见问题。此外,他们已经在考虑如何在翻译中解决非二元性别的问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1801

    浏览量

    60255
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106777
  • 机器翻译
    +关注

    关注

    0

    文章

    141

    浏览量

    15466

原文标题:“男医生,女护士?”消除偏见,Google有大招

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    视美泰发布AI即时翻译机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    在全球深入推进与AI技术规模商用的双重驱动下,跨语言沟通需求正迎来爆发式增长。近日,视美泰正式发布AI即时翻译机解决方案,以“核心硬件+智能算法+多模态交互”的完整
    的头像 发表于 12-03 10:50 509次阅读
    视美泰发布AI即时<b class='flag-5'>翻译</b>机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    智能“翻译官”:MODBUS转PROFIBUS网关,解锁搅拌站无人装载新纪元

    智能“翻译官”:MODBUS转PROFIBUS网关,解锁搅拌站无人装载新纪元 在工业自动的浪潮中,数据协议的“语言不通”常常成为系统联通的绊脚石。在一家现代搅拌站内,就上演了这样一场精彩的“沟通
    的头像 发表于 11-21 14:38 88次阅读
    智能“<b class='flag-5'>翻译</b>官”:MODBUS转PROFIBUS网关,解锁搅拌站无人装载新纪元

    亮亮视野AR翻译眼镜闪耀2025进博会国际论坛

    11月6日,“进博会·北京亦庄开放合作论坛”在上海举行。亮亮视野 Leion Hey2 作为论坛指定的 AR 翻译眼镜,提供现场翻译技术服务。同时,Leion Hey2 亮相国家展中国
    的头像 发表于 11-11 10:02 326次阅读

    亮亮视野AR翻译眼镜亮相HICOOL 2025全球创业者峰会

    、IASP世界大会和京台科技论坛独家提供AR翻译技术服务之后,亮亮视野再次亮相大型国际论坛,旗下AR翻译眼镜逐渐成为北京文化科技新符号,也是北京打造“全球创新创业生态之都”的最新实例。
    的头像 发表于 10-23 17:34 946次阅读

    声智科技AI翻译耳机重塑智能听觉体验

    在日益紧密的全球浪潮中,跨语言沟通的障碍正在被前沿的声学AI技术逐步瓦解。声智AI翻译耳机,凭借深厚的声学AI积累,率先实现了“跨语种音色与情感复刻技术”在实时
    的头像 发表于 10-21 15:28 606次阅读
    声智科技AI<b class='flag-5'>翻译</b>耳机重塑智能听觉体验

    亮亮视野AR翻译眼镜亮相2025北京文化论坛

    近日,2025北京文化论坛在北京隆重开幕。源自北京科创土壤的国家级“专精特新小巨人”企业亮亮视野,成为论坛指定AR翻译眼镜技术服务商,为主论坛等重要环节提供实时翻译服务。这是继日前为北
    的头像 发表于 09-30 11:14 853次阅读

    国庆出国游,时空壶新T1翻译机,首个端侧模型突破助力跨语言交流

    国庆将至,众多游客计划出国旅行,跨语言交流的顺畅与否成为影响旅行体验的重要因素。时空壶新T1翻译机作为行业技术领先产品,凭借其独特优势,为游客在海外的沟通交流保驾护航。新T1作为时空壶翻译机品类中
    的头像 发表于 09-12 12:20 825次阅读
    国庆出国游,时空壶新T1<b class='flag-5'>翻译</b>机,首个端侧模型突破助力跨语言交流

    翻译失去网络,时空壶新T1翻译机开创首个离线模型赋能全球沟通新体验

    在全球交流日益紧密的当下,跨语言沟通工具的重要性愈发凸显。近日,时空壶推出的T1翻译机凭借其强大的离线模型与便捷应用,成为市场焦点,为人们在跨国交流场景中带来前所未有的便利。时空壶T1翻译机搭载了
    的头像 发表于 09-08 16:52 904次阅读
    当<b class='flag-5'>翻译</b>失去网络,时空壶新T1<b class='flag-5'>翻译</b>机开创首个离线模型赋能全球沟通新体验

    CC-Link IE 转 Modbus TCP,阀门通讯的“双语翻译官”

    。这就好比一位说“高速实时语”的PLC,要和只会“经典通用语”的阀门对话,此时,一位可靠的“双语翻译官”——耐达讯通信技术协议转换网关,就显得至关重要了。 协议转换网关的核心工作原理就是“翻译”。它在 CC-Link IE 网络
    的头像 发表于 07-09 09:46 373次阅读

    时空壶 T1 离线翻译机:解锁无网生活沟通自由

    在全球浪潮席卷之下,跨国交流已然成为现代人生活的重要组成部分。无论是出国旅行、商务洽谈,还是文化体验,语言障碍始终是横亘在人们面前的一道难题。而网络覆盖的局限性,更是让依赖在线翻译的设备在关键时刻
    的头像 发表于 06-05 10:30 683次阅读
    时空壶 T1 离线<b class='flag-5'>翻译</b>机:解锁无网生活沟通自由

    Ethercat转Profinet网关如何用“协议翻译术”打通自动产线任督二脉

    Ethercat转Profinet网关如何用“协议翻译术”打通自动产线任督二脉
    的头像 发表于 05-10 14:42 414次阅读
    Ethercat转Profinet网关如何用“协议<b class='flag-5'>翻译</b>术”打通自动<b class='flag-5'>化</b>产线任督二脉

    EtherCAT转Profinet网关:纺织业设备互联的“翻译官”

    EtherCAT转Profinet网关不仅是纺织车间设备互联的“翻译官”,更是推动生产模式革新的“加速器”。其价值在于打破协议壁垒的同时,为纺织业的精益、柔性化生产提供了可落地的技术
    的头像 发表于 04-28 15:39 794次阅读
    EtherCAT转Profinet网关:纺织业设备互联的“<b class='flag-5'>翻译</b>官”

    女性机器人能否代替女性

          在探讨“女性机器人能否代替女性”这一议题时,我们首先需要明确几个核心概念:何为女性机器人?何为替代?以及这一替代是基于何种维度和
    的头像 发表于 02-08 15:49 2862次阅读

    AI助力实时翻译耳机

    是一能够实时将一语言翻译成另一语言的耳机设备。它通常由一个耳机和一个配套的应用程序组成,用户可以通过应用程序选择需要翻译的语言,并通过
    的头像 发表于 01-24 11:14 3263次阅读
    AI助力实时<b class='flag-5'>翻译</b>耳机

    LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

    应用案例 aicode.llmworld.net 案例一 阅读复杂算法,将计算机语言翻译成自然语言和伪代码,快速帮助用户理解算法实现逻辑。 Input(C++): 正弦波信号进行傅里叶变换,并输出其频域结果的C++
    的头像 发表于 12-09 11:11 1599次阅读
    LLMWorld上线代码<b class='flag-5'>翻译</b>新工具——问丫·码语<b class='flag-5'>翻译</b>侠,快来体验!