0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google遵循AI原则减少机器翻译的性别偏见

硬件三人行 来源:TensorFlow 作者:Romina Stella 2021-08-24 10:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

得益于神经机器翻译 (NMT) 的进步,译文更加自然流畅,但与此同时,这些译文也反映出训练数据存在社会偏见和刻板印象。因此,Google 持续致力于遵循 AI 原则,开发创新技术,减少机器翻译中的性别偏见。

神经机器翻译

https://ai.googleblog.com/2020/06/recent-advances-in-google-translate.html

其中一个研究领域是利用句子或段落等上下文,来提高性别表述的准确性。传统 NMT 方法是单独翻译句子,但单独的句子中并不是总能带有对性别信息的明确说明,因此这无疑会带来挑战。例如,在下方西班牙语(该语言并不总是明确提及主语 (Null-subject language))段落中,第一句话明确将 Marie Curie 视为主语,但第二句话没有明确提及主语。孤立来看,第二句话可以指任何性别的人。然而,在翻译成英语时,需要选择一个代词,而翻译准确所需的信息就在第一句话中。

西班牙语文本 英语译文
Marie Curie nació en Varsovia.Fue la primera persona en recibir dos premios Nobel en distintas especialidades. Marie Curie was born in Warsaw.Shewas the first person to receive two Nobel Prizes in different specialties.

如果想推动翻译技术,让其不止步于单句翻译,则需要新指标来衡量进展,并且需要新数据集,其中包括最常见的上下文错误。翻译性别错误(如选择正确的代词或性别一致)可能直接涉及到人及自我认同方式,因此尤其敏感。而这一点则进一步加剧了挑战。

为应对上下文翻译的常见挑战(如代词省略、性别一致和准确使用所有格),我们发布了 Translated Wikipedia Biographies(维基百科传记译本)数据集,可用于评估翻译模型的性别偏见。发布此数据集的目的在于提供衡量模型改变前后的翻译准确性的基准,从而对翻译中代词和性别的 ML 系统进行长期改进。

Translated Wikipedia Biographies(维基百科传记译本)

https://storage.googleapis.com/gresearch/translate-gender-challenge-sets/Readme.html

常见翻译错误的来源

“维基百科传记 (Wikipedia:Biographies of living persons) ”经过精心撰写,涵盖多个地域,包含多个句子,并以第三人称指代主语(所以包含大量代词)。因此极有可能出现性别相关的翻译错误。当文章在段落前几句中明确提及某人,但在后面的句子中没有明确提及时,通常会出现性别相关的翻译错误。一些示例如下:

翻译错误 文本 译文
西班牙语→英语中的代词省略
(Pro-drop language)
Marie Curie nació en Varsovia.
Recibió el Premio
Nobel en 1903 y en 1911.
Marie Curie
was born in Warsaw.Hereceived the Nobel Prize in 1903 and in 1911.
西班牙语→英语中的中性所有格(Possessive determiner) Marie Curie nació en Varsovia.Su carrera profesional fue desarrollada en Francia. Marie Curie
was born in Warsaw.Hisprofessional career was developed
in France.
英语→德语中的性别一致(Grammatical gender) Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curiewurde in Varsovia geboren.DerangeseheneWissens-
chaftlererhielt1903 und 1911den
Nobelpreis.
英语→西班牙语中的性别一致
(Grammatical gender)
Marie Curie was born in Warsaw.The distinguished scientist received the Nobel Prize
in 1903 and
in 1911.
Marie Curienació en Varsovia.Eldistinguido científicorecibió el Premio Nobel en 1903 y en 1911.

构建数据集

如上文所示,Translated Wikipedia Biographies(维基百科传记译本)数据集旨在分析机器翻译中常见的性别表述错误。该数据集中的每个实例代表个人(在传记中被认为是女性或男性)、摇滚乐队或运动队(被视为性别无关)。每个实例都均由 8 到 15 个相互关联的句子组成的长文本翻译来表示,且这些句子中会提到中心主语(人、摇滚乐队或运动队)。文章撰写的源语言为英语,并由专业人士处理,翻译成西班牙语和德语。我们已针对代词省略,对西班牙语译文进行优化,因此可以使用相同的集合来分析代词省略(西班牙语→英文)和性别一致(英语→西班牙语)。

我们选择一组在不同地域和性别之间具有同等代表性的实例构建该数据集。为此,我们根据职业、专业、工作和/或活动,从维基百科中提取传记。为了确保职业选择的公平性,我们根据维基百科的统计数据,选择了九种职业。这些职业代表了一系列刻板的性别联想(女性、男性或两者都不是)。为了减轻任何基于地域的偏见,之后我们根据不同地域来划分所有这些实例。对于每个职业类别,我们希望每个地区(使用 census.gov 中的地区作为不同地域的代表)都有一名人选。在关联实例与地区时,我们会检查被选者是否与指定地区的国家具有相关性(国籍、出生地、长期居住之地等等)。该数据集使用此标准,包含了来自世界 90 多个国家和所有地区的个人条目。

虽然性别并非二元化,但我们专注于令“女性”和“男性”实体具有同等代表性。值得一提的是,由于维基百科通过这种方式来表示实体,目前其中的实例还不足以准确反映非二元群体。因此很遗憾,该集合并不包括标识为非二元的个人。为了将每个实例贴上“女性”或“男性”标签,我们依靠的是维基百科上的传记信息,其中包含对此人特定性别的参考资料(她、他、女人、儿子、父亲等)。

在应用所有这些过滤条件之后,我们会为每个“职业-地区-性别”三元组随机选择一个实例。针对七个地理区域的每一种职业,我们都挑选了两份传记(一份男性传记和一份女性传记)。

最后,我们添加了 12 个性别无关实例。之所以选择摇滚乐队和运动队,是因为它们通常由无性别的第三人称代词(如“它”或复数形式的“它们”)所指代。包含这些实例是为了研究过度触发 (over triggering),即当模型得知其因产生特定性别的代词而获得奖励时,它们会在本不应该的情况下产生这些代词。

结果和应用

该数据集为降低机器翻译中的性别偏见提供了一种新的评估方法(前一篇文章中已有所介绍)。每个实例都指向已知性别的主语,因此我们可以计算出指向该主语的、特定性别翻译的准确性。在翻译成英语(该语言有代词省略或中性代词)时,因为主要计算基于英语的特定性别代词,所以这种计算更为容易。在这些情况下,与先前模型相比,上下文感知模型利用性别数据集,将错误数量减少了 67%。如前所述,我们可利用中性实体,如使用阴性或阳性代词来指代无性别实体,来发现过度触发的情况。这个新数据集还为不同类型的职业或地理区域中不同模型的性能提供了新的研究方向。

比如,我们利用该数据集,在翻译自西班牙语的 Marie Curie 传记节选中发现了改进之处。

结论

Translated Wikipedia Biographies(维基百科传记译本)数据集是我们在研究识别与性别和机器翻译有关的偏见方面的工作成果。该数据集侧重于与性别偏见有关的具体问题,并不旨在涵盖整个问题。值得一提的是,我们发布此数据集的目的并不在于强调确定解决性别偏见的最佳方法,而是帮助推动全球研究界在应对这一方面挑战。

致谢

这些数据集的构建得到了以下人员的帮助:Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6271

    浏览量

    112183
  • AI
    AI
    +关注

    关注

    91

    文章

    41975

    浏览量

    303064
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137421

原文标题:用于研究翻译中性别偏见的数据集

文章出处:【微信号:yingjiansanrenxing,微信公众号:硬件三人行】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Arm携手Google Cloud推进代理式AI基础设施规模化落地

    Google Cloud 正通过多项升级举措,稳步推进代理式人工智能 (Agentic AI) 的规模化落地。此次更新包含全新 TPU 8t 和 TPU 8i 系统,同时在 Google
    的头像 发表于 05-06 09:41 438次阅读
    Arm携手<b class='flag-5'>Google</b> Cloud推进代理式<b class='flag-5'>AI</b>基础设施规模化落地

    意法半导体举办打破偏见STEM主题活动

    创课程与体验活动。在紫竹高新区妇联的积极联动下,53名师生走进ST的实验室与展厅,亲身体验女工程师们办公与实验的日常。本次活动旨在加深学生对STEM领域的理解,鼓励学生打破性别偏见,激发他们未来投身科技行业的志向。
    的头像 发表于 04-29 14:20 472次阅读

    NVIDIA与Google Cloud携手推进代理式与物理AI发展

    企业可以使用 NVIDIA Vera Rubin 驱动的 A5X 实例 (可扩展至近 100 万个 Rubin GPU)、Google Distributed Cloud 上的 Gemini、机密
    的头像 发表于 04-27 15:35 596次阅读

    TUYA全球开发者大会|从AI植物机器人到狗语翻译,创新AI硬件扎堆首发!

    深圳,4月23日——作为AI+IoT领域重量级盛会,TUYA全球开发者大会在现场展出了一批让人直呼“想拥有”的AI硬件。从“养成系”的情绪潮玩,到零门槛手搓的桌面伴侣,再到满地跑的逗宠机器人,涂鸦
    的头像 发表于 04-24 20:00 626次阅读
    TUYA全球开发者大会|从<b class='flag-5'>AI</b>植物<b class='flag-5'>机器</b>人到狗语<b class='flag-5'>翻译</b>,创新<b class='flag-5'>AI</b>硬件扎堆首发!

    Cadence 与 Google 合作,利用 ChipStack AI Super Agent 在 Google Cloud 上扩展 AI 驱动的芯片设计

    Cadence ChipStack AI Super Agent 集成 Google Gemini 模型,加速新一代代理驱动型设计自动化 Cadence近日宣布与 Google Cloud 达成战略
    的头像 发表于 04-24 13:22 228次阅读

    Cadence与Google合作,利用ChipStack AI Super Agent在Google Cloud上扩展AI驱动的芯片设计

    Cadence ChipStack AI Super Agent 集成 Google Gemini 模型,加速新一代代理驱动型设计自动化 中国上海,2026 年 4 月 24 日 —— 半导体与系统
    的头像 发表于 04-24 10:36 2400次阅读

    NVIDIA与Google探讨AI模型的演进方向

    在 GTC 会场,观众座无虚席,两位计算领域最具影响力的领导人物,NVIDIA 首席科学家 Bill Dally,以及 Google DeepMind 与 Google Research 首席科学家 Jeff Dean 登台对话。他们的工作深刻塑造了大规模
    的头像 发表于 04-03 10:03 569次阅读

    亮亮视野联合智谱AI推出AR+AI会议翻译系统

    2026中关村论坛主会场,亮亮视野(LLVision)联合智谱AI推出并部署了全球首创的AR+AI会议翻译系统,为主论坛及多场平行论坛提供大会翻译保障。这套系统深度融合亮亮视野AR眼镜
    的头像 发表于 03-30 11:39 584次阅读

    视美泰发布AI即时翻译机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    机器翻译、语音合成和大模型四项能力构建高效同声传译链路,实现70+种语言全覆盖的强大能力,为跨境商贸、文化交流、户外出行等场景提供高效精准的翻译解决方案,推动AI
    的头像 发表于 12-03 10:50 1366次阅读
    视美泰发布<b class='flag-5'>AI</b>即时<b class='flag-5'>翻译</b>机解决方案,硬核配置+多语种覆盖破解跨语言沟通难题

    VS680 HDMI AI分析解决方案 #目标识别 #视频翻译 #AI #芯片

    AI
    深蕾半导体
    发布于 :2025年11月12日 10:29:33

    声智科技AI翻译耳机重塑智能听觉体验

    在日益紧密的全球化浪潮中,跨语言沟通的障碍正在被前沿的声学AI技术逐步瓦解。声智AI翻译耳机,凭借深厚的声学AI积累,率先实现了“跨语种音色与情感复刻技术”在实时
    的头像 发表于 10-21 15:28 1239次阅读
    声智科技<b class='flag-5'>AI</b><b class='flag-5'>翻译</b>耳机重塑智能听觉体验

    为了减少电磁干扰,装置在硬件设计时应该遵循哪些原则

    在硬件设计阶段减少电磁干扰(EMI)对电能质量在线监测装置的影响,需遵循 “ 源头抑制、路径阻断、敏感防护 ” 三大核心逻辑,覆盖元器件选型、电路拓扑、信号隔离、滤波设计、接地布局、PCB 设计等全
    的头像 发表于 09-19 15:41 1281次阅读

    声智科技出席2025年北京市多语种AI语音翻译大赛

    8月20日,由北京市科委、中关村管委会主办,北京语言大学、北京第二外国语学院、北京市翻译协会、中国人工智能百人会共同承办的“2025年北京市多语种AI语音翻译大赛”在中关村展示中心顺利启幕。声智作为
    的头像 发表于 08-25 17:18 1446次阅读

    传音斩获WMT 2025国际机器翻译大赛四项冠军

    近日,在由国际计算语言学协会(ACL)主办的WMT 2025国际机器翻译大赛中,传音在低资源印度语言翻译任务(Low-Resource Indic Language Translation)中斩获
    的头像 发表于 08-06 18:21 1403次阅读

    AI输出“偏见”,人类能否信任它的“三观”?

    人工智能(AI)已成为我们不可分割的“伙伴”。从聊天机器人、语音助手到自动翻译AI不断介入人与人之间的交流和理解。然而,它能做到“客观中立”吗?据美国《麻省理工科技评论》官网报道,一
    的头像 发表于 08-04 13:43 1487次阅读
    <b class='flag-5'>AI</b>输出“<b class='flag-5'>偏见</b>”,人类能否信任它的“三观”?