0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google遵循AI原则减少机器翻译的性别偏见

硬件三人行 来源:TensorFlow 作者:Romina Stella 2021-08-24 10:14 次阅读

得益于神经机器翻译 (NMT) 的进步,译文更加自然流畅,但与此同时,这些译文也反映出训练数据存在社会偏见和刻板印象。因此,Google 持续致力于遵循 AI 原则,开发创新技术,减少机器翻译中的性别偏见。

神经机器翻译

https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html

其中一个研究领域是利用句子或段落等上下文,来提高性别表述的准确性。传统 NMT 方法是单独翻译句子,但单独的句子中并不是总能带有对性别信息的明确说明,因此这无疑会带来挑战。例如,在下方西班牙语(该语言并不总是明确提及主语 (Null-subject language))段落中,第一句话明确将 Marie Curie 视为主语,但第二句话没有明确提及主语。孤立来看,第二句话可以指任何性别的人。然而,在翻译成英语时,需要选择一个代词,而翻译准确所需的信息就在第一句话中。

西班牙语文本 英语译文
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades. Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties.

如果想推动翻译技术,让其不止步于单句翻译,则需要新指标来衡量进展,并且需要新数据集,其中包括最常见的上下文错误。翻译性别错误(如选择正确的代词或性别一致)可能直接涉及到人及自我认同方式,因此尤其敏感。而这一点则进一步加剧了挑战。

为应对上下文翻译的常见挑战(如代词省略、性别一致和准确使用所有格),我们发布了 Translated Wikipedia Biographies(维基百科传记译本)数据集,可用于评估翻译模型的性别偏见。发布此数据集的目的在于提供衡量模型改变前后的翻译准确性的基准,从而对翻译中代词和性别的 ML 系统进行长期改进。

Translated Wikipedia Biographies(维基百科传记译本)

https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html

常见翻译错误的来源

“维基百科传记 (Wikipedia:Biographies of living persons) ”经过精心撰写,涵盖多个地域,包含多个句子,并以第三人称指代主语(所以包含大量代词)。因此极有可能出现性别相关的翻译错误。当文章在段落前几句中明确提及某人,但在后面的句子中没有明确提及时,通常会出现性别相关的翻译错误。一些示例如下:

翻译错误 文本 译文
西班牙语→英语中的代词省略
(Pro-drop language)
Marie Curie nació en Varsovia.
Recibió el Premio
Nobel en 1903 y en 1911.
Marie Curie
was born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911.
西班牙语→英语中的中性所有格(Possessive determiner) Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia. Marie Curie
was born in Warsaw.Hisprofessional career was developed
in France.
英语→德语中的性别一致(Grammatical gender) Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curiewurde in Varsovia geboren.DerangeseheneWissens-
chaftlererhielt1903 und 1911den
Nobelpreis.
英语→西班牙语中的性别一致
(Grammatical gender)
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911.

构建数据集

如上文所示,Translated Wikipedia Biographies(维基百科传记译本)数据集旨在分析机器翻译中常见的性别表述错误。该数据集中的每个实例代表个人(在传记中被认为是女性或男性)、摇滚乐队或运动队(被视为性别无关)。每个实例都均由 8 到 15 个相互关联的句子组成的长文本翻译来表示,且这些句子中会提到中心主语(人、摇滚乐队或运动队)。文章撰写的源语言为英语,并由专业人士处理,翻译成西班牙语和德语。我们已针对代词省略,对西班牙语译文进行优化,因此可以使用相同的集合来分析代词省略(西班牙语→英文)和性别一致(英语→西班牙语)。

我们选择一组在不同地域和性别之间具有同等代表性的实例构建该数据集。为此,我们根据职业、专业、工作和/或活动,从维基百科中提取传记。为了确保职业选择的公平性,我们根据维基百科的统计数据,选择了九种职业。这些职业代表了一系列刻板的性别联想(女性、男性或两者都不是)。为了减轻任何基于地域的偏见,之后我们根据不同地域来划分所有这些实例。对于每个职业类别,我们希望每个地区(使用 census.gov 中的地区作为不同地域的代表)都有一名人选。在关联实例与地区时,我们会检查被选者是否与指定地区的国家具有相关性(国籍、出生地、长期居住之地等等)。该数据集使用此标准,包含了来自世界 90 多个国家和所有地区的个人条目。

虽然性别并非二元化,但我们专注于令“女性”和“男性”实体具有同等代表性。值得一提的是,由于维基百科通过这种方式来表示实体,目前其中的实例还不足以准确反映非二元群体。因此很遗憾,该集合并不包括标识为非二元的个人。为了将每个实例贴上“女性”或“男性”标签,我们依靠的是维基百科上的传记信息,其中包含对此人特定性别的参考资料(她、他、女人、儿子、父亲等)。

在应用所有这些过滤条件之后,我们会为每个“职业-地区-性别”三元组随机选择一个实例。针对七个地理区域的每一种职业,我们都挑选了两份传记(一份男性传记和一份女性传记)。

最后,我们添加了 12 个性别无关实例。之所以选择摇滚乐队和运动队,是因为它们通常由无性别的第三人称代词(如“它”或复数形式的“它们”)所指代。包含这些实例是为了研究过度触发 (over triggering),即当模型得知其因产生特定性别的代词而获得奖励时,它们会在本不应该的情况下产生这些代词。

结果和应用

该数据集为降低机器翻译中的性别偏见提供了一种新的评估方法(前一篇文章中已有所介绍)。每个实例都指向已知性别的主语,因此我们可以计算出指向该主语的、特定性别翻译的准确性。在翻译成英语(该语言有代词省略或中性代词)时,因为主要计算基于英语的特定性别代词,所以这种计算更为容易。在这些情况下,与先前模型相比,上下文感知模型利用性别数据集,将错误数量减少了 67%。如前所述,我们可利用中性实体,如使用阴性或阳性代词来指代无性别实体,来发现过度触发的情况。这个新数据集还为不同类型的职业或地理区域中不同模型的性能提供了新的研究方向。

比如,我们利用该数据集,在翻译自西班牙语的 Marie Curie 传记节选中发现了改进之处。

结论

Translated Wikipedia Biographies(维基百科传记译本)数据集是我们在研究识别与性别和机器翻译有关的偏见方面的工作成果。该数据集侧重于与性别偏见有关的具体问题,并不旨在涵盖整个问题。值得一提的是,我们发布此数据集的目的并不在于强调确定解决性别偏见的最佳方法,而是帮助推动全球研究界在应对这一方面挑战。

致谢

这些数据集的构建得到了以下人员的帮助:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5862

    浏览量

    103269
  • AI
    AI
    +关注

    关注

    87

    文章

    26471

    浏览量

    264098
  • 机器学习
    +关注

    关注

    66

    文章

    8134

    浏览量

    130577

原文标题:用于研究翻译中性别偏见的数据集

文章出处:【微信号:yingjiansanrenxing,微信公众号:硬件三人行】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    电路仿真所遵循的基本原则是什么

    电路仿真是一种基于电子计算机进行模拟的技术,用于分析和预测电路的行为和性能。它可以帮助设计师优化电路的功能、减少成本和提高可靠性。为了保证仿真结果的准确性和可靠性,电路仿真需要遵循一些基本原则。本文
    的头像 发表于 04-21 10:20 462次阅读

    安装电源滤波器要遵循原则有哪些?

    安装电源滤波器要遵循原则有哪些? 安装电源滤波器是一项关键的任务,旨在净化传输到设备的电源,并保护其免受电源干扰的影响。以下是安装电源滤波器时应遵循原则: 了解电源滤波器的类型和功
    的头像 发表于 01-11 15:59 122次阅读

    基于机器翻译增加的跨语言机器阅读理解算法

    近日,阿里云人工智能平台 PAI 与华南理工大学朱金辉教授团队、达摩院自然语言处理团队合作在自然语言处理顶级会议 EMNLP2023 上发表基于机器翻译增加的跨语言机器阅读理解算法 X-STA。通过
    的头像 发表于 12-12 10:28 359次阅读
    基于<b class='flag-5'>机器翻译</b>增加的跨语言<b class='flag-5'>机器</b>阅读理解算法

    构建docker镜像应该遵循哪些原则

    构建 Docker 镜像时,应遵循以下原则: 单一职责:每个镜像应只包含一个应用或服务,避免将多个应用或服务放在同一个镜像中。这样可以确保镜像的易用性、可维护性和可复用性。 最小化镜像:避免将不
    的头像 发表于 11-23 09:41 468次阅读

    仿真人类的微软AI翻译系统

    从历史上看,曾经主流的机器学习技术在行业中应用是统计机器翻译 (SMT)。SMT 使用先进的统计分析,从一句话中上下文的几个词中来估计最佳可能的翻译。SMT自20 世纪中期以来的为所有主要翻译
    的头像 发表于 10-11 15:27 565次阅读

    人工智能会取代翻译

    在某些场景下,如翻译普通商务文档、新闻报道以及其他非技术性的文章等,机器翻译的正确率已经非常接近人类翻译了。然而,在涉及到一些重要的领域,例如法律、药学甚至是文学等相关领域,机器翻译
    的头像 发表于 08-14 14:29 764次阅读

    机器翻译研究进展

    机器翻译使用计算机将一种语言翻译成另一种语言,具有低成本、高效率和高翻译质量等优势,在语音翻译、同声传译自动化等许多领域得到广泛应用。 随着双语语料库的不断建设和完善,基于语料库的
    的头像 发表于 07-06 11:19 420次阅读
    <b class='flag-5'>机器翻译</b>研究进展

    e-AI翻译机V1.4.0使用说明

    e-AI翻译机V1.4.0使用说明
    发表于 07-05 18:51 0次下载
    e-<b class='flag-5'>AI</b><b class='flag-5'>翻译</b>机V1.4.0使用说明

    060. 任务60:机器翻译 #硬声创作季

    机器翻译深度学习
    充八万
    发布于 :2023年06月21日 18:04:57

    PyTorch教程10.7之用于机器翻译的编码器-解码器Seq2Seq

    电子发烧友网站提供《PyTorch教程10.7之用于机器翻译的编码器-解码器Seq2Seq.pdf》资料免费下载
    发表于 06-05 18:14 0次下载
    PyTorch教程10.7之用于<b class='flag-5'>机器翻译</b>的编码器-解码器Seq2Seq

    PyTorch教程-10.7. 用于机器翻译的编码器-解码器 Seq2Seq

    10.7. 用于机器翻译的编码器-解码器 Seq2Seq¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab
    的头像 发表于 06-05 15:44 571次阅读
    PyTorch教程-10.7. 用于<b class='flag-5'>机器翻译</b>的编码器-解码器 Seq2Seq

    PyTorch教程-10.5。机器翻译和数据集

    10.5。机器翻译和数据集¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax
    的头像 发表于 06-05 15:44 478次阅读
    PyTorch教程-10.5。<b class='flag-5'>机器翻译</b>和数据集

    PyTorch教程10.5之机器翻译和数据集

    电子发烧友网站提供《PyTorch教程10.5之机器翻译和数据集.pdf》资料免费下载
    发表于 06-05 15:14 0次下载
    PyTorch教程10.5之<b class='flag-5'>机器翻译</b>和数据集

    LLM时代NLP研究何去何从?

    在当前低资源的语言基准上(如FLORES-200)改进机器翻译性能。针对资源极低的语言,可以利用圣经(世界上翻译最多的文档)等现有文本作为开发机器翻译系统的起点。
    的头像 发表于 06-02 15:52 745次阅读

    大语言模型的多语言机器翻译能力分析

    以ChatGPT为代表的大语言模型(Large Language Models, LLM)在机器翻译(Machine Translation, MT)任务上展现出了惊人的潜力。
    的头像 发表于 05-17 09:56 1026次阅读
    大语言模型的多语言<b class='flag-5'>机器翻译</b>能力分析