0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google遵循AI原则减少机器翻译的性别偏见

硬件三人行 来源:TensorFlow 作者:Romina Stella 2021-08-24 10:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

得益于神经机器翻译 (NMT) 的进步,译文更加自然流畅,但与此同时,这些译文也反映出训练数据存在社会偏见和刻板印象。因此,Google 持续致力于遵循 AI 原则,开发创新技术,减少机器翻译中的性别偏见。

神经机器翻译

https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html

其中一个研究领域是利用句子或段落等上下文,来提高性别表述的准确性。传统 NMT 方法是单独翻译句子,但单独的句子中并不是总能带有对性别信息的明确说明,因此这无疑会带来挑战。例如,在下方西班牙语(该语言并不总是明确提及主语 (Null-subject language))段落中,第一句话明确将 Marie Curie 视为主语,但第二句话没有明确提及主语。孤立来看,第二句话可以指任何性别的人。然而,在翻译成英语时,需要选择一个代词,而翻译准确所需的信息就在第一句话中。

西班牙语文本 英语译文
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades. Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties.

如果想推动翻译技术,让其不止步于单句翻译,则需要新指标来衡量进展,并且需要新数据集,其中包括最常见的上下文错误。翻译性别错误(如选择正确的代词或性别一致)可能直接涉及到人及自我认同方式,因此尤其敏感。而这一点则进一步加剧了挑战。

为应对上下文翻译的常见挑战(如代词省略、性别一致和准确使用所有格),我们发布了 Translated Wikipedia Biographies(维基百科传记译本)数据集,可用于评估翻译模型的性别偏见。发布此数据集的目的在于提供衡量模型改变前后的翻译准确性的基准,从而对翻译中代词和性别的 ML 系统进行长期改进。

Translated Wikipedia Biographies(维基百科传记译本)

https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html

常见翻译错误的来源

“维基百科传记 (Wikipedia:Biographies of living persons) ”经过精心撰写,涵盖多个地域,包含多个句子,并以第三人称指代主语(所以包含大量代词)。因此极有可能出现性别相关的翻译错误。当文章在段落前几句中明确提及某人,但在后面的句子中没有明确提及时,通常会出现性别相关的翻译错误。一些示例如下:

翻译错误 文本 译文
西班牙语→英语中的代词省略
(Pro-drop language)
Marie Curie nació en Varsovia.
Recibió el Premio
Nobel en 1903 y en 1911.
Marie Curie
was born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911.
西班牙语→英语中的中性所有格(Possessive determiner) Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia. Marie Curie
was born in Warsaw.Hisprofessional career was developed
in France.
英语→德语中的性别一致(Grammatical gender) Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curiewurde in Varsovia geboren.DerangeseheneWissens-
chaftlererhielt1903 und 1911den
Nobelpreis.
英语→西班牙语中的性别一致
(Grammatical gender)
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911.

构建数据集

如上文所示,Translated Wikipedia Biographies(维基百科传记译本)数据集旨在分析机器翻译中常见的性别表述错误。该数据集中的每个实例代表个人(在传记中被认为是女性或男性)、摇滚乐队或运动队(被视为性别无关)。每个实例都均由 8 到 15 个相互关联的句子组成的长文本翻译来表示,且这些句子中会提到中心主语(人、摇滚乐队或运动队)。文章撰写的源语言为英语,并由专业人士处理,翻译成西班牙语和德语。我们已针对代词省略,对西班牙语译文进行优化,因此可以使用相同的集合来分析代词省略(西班牙语→英文)和性别一致(英语→西班牙语)。

我们选择一组在不同地域和性别之间具有同等代表性的实例构建该数据集。为此,我们根据职业、专业、工作和/或活动,从维基百科中提取传记。为了确保职业选择的公平性,我们根据维基百科的统计数据,选择了九种职业。这些职业代表了一系列刻板的性别联想(女性、男性或两者都不是)。为了减轻任何基于地域的偏见,之后我们根据不同地域来划分所有这些实例。对于每个职业类别,我们希望每个地区(使用 census.gov 中的地区作为不同地域的代表)都有一名人选。在关联实例与地区时,我们会检查被选者是否与指定地区的国家具有相关性(国籍、出生地、长期居住之地等等)。该数据集使用此标准,包含了来自世界 90 多个国家和所有地区的个人条目。

虽然性别并非二元化,但我们专注于令“女性”和“男性”实体具有同等代表性。值得一提的是,由于维基百科通过这种方式来表示实体,目前其中的实例还不足以准确反映非二元群体。因此很遗憾,该集合并不包括标识为非二元的个人。为了将每个实例贴上“女性”或“男性”标签,我们依靠的是维基百科上的传记信息,其中包含对此人特定性别的参考资料(她、他、女人、儿子、父亲等)。

在应用所有这些过滤条件之后,我们会为每个“职业-地区-性别”三元组随机选择一个实例。针对七个地理区域的每一种职业,我们都挑选了两份传记(一份男性传记和一份女性传记)。

最后,我们添加了 12 个性别无关实例。之所以选择摇滚乐队和运动队,是因为它们通常由无性别的第三人称代词(如“它”或复数形式的“它们”)所指代。包含这些实例是为了研究过度触发 (over triggering),即当模型得知其因产生特定性别的代词而获得奖励时,它们会在本不应该的情况下产生这些代词。

结果和应用

该数据集为降低机器翻译中的性别偏见提供了一种新的评估方法(前一篇文章中已有所介绍)。每个实例都指向已知性别的主语,因此我们可以计算出指向该主语的、特定性别翻译的准确性。在翻译成英语(该语言有代词省略或中性代词)时,因为主要计算基于英语的特定性别代词,所以这种计算更为容易。在这些情况下,与先前模型相比,上下文感知模型利用性别数据集,将错误数量减少了 67%。如前所述,我们可利用中性实体,如使用阴性或阳性代词来指代无性别实体,来发现过度触发的情况。这个新数据集还为不同类型的职业或地理区域中不同模型的性能提供了新的研究方向。

比如,我们利用该数据集,在翻译自西班牙语的 Marie Curie 传记节选中发现了改进之处。

结论

Translated Wikipedia Biographies(维基百科传记译本)数据集是我们在研究识别与性别和机器翻译有关的偏见方面的工作成果。该数据集侧重于与性别偏见有关的具体问题,并不旨在涵盖整个问题。值得一提的是,我们发布此数据集的目的并不在于强调确定解决性别偏见的最佳方法,而是帮助推动全球研究界在应对这一方面挑战。

致谢

这些数据集的构建得到了以下人员的帮助:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6246

    浏览量

    110326
  • AI
    AI
    +关注

    关注

    90

    文章

    38271

    浏览量

    297326
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136271

原文标题:用于研究翻译中性别偏见的数据集

文章出处:【微信号:yingjiansanrenxing,微信公众号:硬件三人行】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    视美泰发布AI即时翻译机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    机器翻译、语音合成和大模型四项能力构建高效同声传译链路,实现70+种语言全覆盖的强大能力,为跨境商贸、文化交流、户外出行等场景提供高效精准的翻译解决方案,推动AI
    的头像 发表于 12-03 10:50 748次阅读
    视美泰发布<b class='flag-5'>AI</b>即时<b class='flag-5'>翻译</b>机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    VS680 HDMI AI分析解决方案 #目标识别 #视频翻译 #AI #芯片

    AI
    深蕾半导体
    发布于 :2025年11月12日 10:29:33

    声智科技AI翻译耳机重塑智能听觉体验

    在日益紧密的全球化浪潮中,跨语言沟通的障碍正在被前沿的声学AI技术逐步瓦解。声智AI翻译耳机,凭借深厚的声学AI积累,率先实现了“跨语种音色与情感复刻技术”在实时
    的头像 发表于 10-21 15:28 662次阅读
    声智科技<b class='flag-5'>AI</b><b class='flag-5'>翻译</b>耳机重塑智能听觉体验

    vivo携手Google Cloud推动智能手机迈入AI新时代

    在人们期待更智能、更前瞻手机的时代,vivo 携手 Google Cloud,迅速推出更安全、更前沿的 AI 功能,共同加速创新,推动智能手机迈入智能、无缝、以人为本的 AI 新时代。
    的头像 发表于 09-23 16:54 1086次阅读

    为了减少电磁干扰,装置在硬件设计时应该遵循哪些原则

    在硬件设计阶段减少电磁干扰(EMI)对电能质量在线监测装置的影响,需遵循 “ 源头抑制、路径阻断、敏感防护 ” 三大核心逻辑,覆盖元器件选型、电路拓扑、信号隔离、滤波设计、接地布局、PCB 设计等全
    的头像 发表于 09-19 15:41 484次阅读

    声智科技出席2025年北京市多语种AI语音翻译大赛

    8月20日,由北京市科委、中关村管委会主办,北京语言大学、北京第二外国语学院、北京市翻译协会、中国人工智能百人会共同承办的“2025年北京市多语种AI语音翻译大赛”在中关村展示中心顺利启幕。声智作为
    的头像 发表于 08-25 17:18 1048次阅读

    传音斩获WMT 2025国际机器翻译大赛四项冠军

    近日,在由国际计算语言学协会(ACL)主办的WMT 2025国际机器翻译大赛中,传音在低资源印度语言翻译任务(Low-Resource Indic Language Translation)中斩获
    的头像 发表于 08-06 18:21 1068次阅读

    AI输出“偏见”,人类能否信任它的“三观”?

    人工智能(AI)已成为我们不可分割的“伙伴”。从聊天机器人、语音助手到自动翻译AI不断介入人与人之间的交流和理解。然而,它能做到“客观中立”吗?据美国《麻省理工科技评论》官网报道,一
    的头像 发表于 08-04 13:43 1198次阅读
    <b class='flag-5'>AI</b>输出“<b class='flag-5'>偏见</b>”,人类能否信任它的“三观”?

    Google Fast Pair服务简介

    Google Fast Pair 是一项利用低功耗蓝牙(Bluetooth LE)技术,实现设备间快速安全配对及提供多种服务的协议。其主要功能包括: 设备处于配对模式时,显示半页通知,便于用户进行
    发表于 06-29 19:28

    知识点积累——什么是3W原则和20H原则

    的寄生电容,导致信号衰减和传输延迟,影响时序同步性能。 严格遵循3W原则会增加PCB面积和布线的难度,因此通常仅对关键信号进行强制应用,普通信号可灵活调整。 纯分享贴,有需要可以直接下载附件获取完整资料! (如果内容有帮助可以关注、点赞、评论支持一下哦~)
    发表于 04-16 11:18

    **【技术干货】Nordic nRF54系列芯片:传感器数据采集与AI机器学习的完美结合**

    【技术干货】nRF54系列芯片:传感器数据采集与AI机器学习的完美结合 近期收到不少伙伴咨询nRF54系列芯片的应用与技术细节,今天我们整理几个核心问题与解答,带你快速掌握如何在nRF54上部署AI
    发表于 04-01 00:00

    Google发布最新AI模型Gemma 3

    Gemma 开放模型系列是 Google 推动实用 AI 技术普惠大众的重要基石。上个月,Gemma 迎来了首个生日。回望过去一年,其成果斐然:全球下载量突破 1 亿,社区欣欣向荣,衍生模型超过 6 万个1。Gemma 生态的蓬勃发展,不断激发我们的创新热情。
    的头像 发表于 03-18 09:51 1488次阅读

    AI助力实时翻译耳机

    你是否曾经因为语言障碍而无法与外国人顺畅交流?或者在旅行中因为语言不通而错过了一些精彩的经历?现在,随着AI技术的发展,实时翻译耳机可以帮你轻松解决这些问题。 1 什么是实时翻译耳机 实时翻译
    的头像 发表于 01-24 11:14 3385次阅读
    <b class='flag-5'>AI</b>助力实时<b class='flag-5'>翻译</b>耳机

    Google两款先进生成式AI模型登陆Vertex AI平台

    生成式 AI 正在引领商业增长与转型。在已经将生成式 AI 部署到生产环境的企业中,有86%的企业表示其带来了收入增长,估计增长率为 6%。这就是为什么 Google 正持续投资其 AI
    的头像 发表于 12-30 09:56 999次阅读