找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 46|回复: 0

在 Google 翻译中提供针对性别的翻译

[复制链接]

545

主题

0

回帖

1677

积分

金牌会员

积分
1677
发表于 2024-12-3 21:53:55 | 显示全部楼层 |阅读模式
过去几年中,谷歌翻译通过改用基于端到端神经网络的系统,显著提高了翻译质量。与此同时,我们意识到我们模型的翻译结果可以反映社会偏见,比如性别偏见。具体来说,不同语言在性别表现方式上差异很大,当翻译过程中出现歧义时,系统往往会选择反映社会不对称的性别,从而导致翻译出现偏见。例如,谷歌翻译过去曾将土耳其语中的“他/她是一名医生”翻译成男性形式,将土耳其语中的“他/她是一名护士”翻译成女性形式。
最近,我们宣布迈出了减少翻译中性别偏见的第一步。现在,在将单词查询从英语翻译成四种不同语言(法语、意大利语、葡萄牙语和西班牙语)时,以及将短语和句子从土耳其语翻译成英语时,我们同时提供女性和男性翻译。
Google 翻译网站上针对特定性别的翻译。
支持针对单个单词查询的性别特定翻译需要丰富我们的基础词典,使其具有性别属性。支持针对较长查询(短语和句子)的性别特定翻译尤其具有挑战性,需要对我们的翻译框架进行重大更改。对于这些较长的查询,我们最初专注于土耳其语到英语的翻译。我们开发了一种三步法来解决为土耳其语中的性别中性查询提供英语中的男性和女性翻译的问题。
检测性别中立查询
许多指代人的土耳其语句子都是性别中立的,但并非所有句子都是如此。检测哪些查询适合进行性别特定翻译是一个难题,因为土耳其语在形态上很复杂,这意味着对人的指代可以用性别中立代词(例如O、Ona)明确表示,也可以隐式编码。例如,句子“ Biliyor mu? ”没有明确的性别中立代词,但可以翻译为“她知道吗? ”或“他知道吗? ”。这种复杂性意味着我们不能使用简单的性别中立代词列表来检测性别中立的土耳其语查询,而需要一个机器学习系统。我们估计大约 10% 的土耳其语翻译查询是模棱两可的,适合女性和男性翻译。
为了检测这些查询,我们使用最先进的文本分类算法(与我们的云自然语言 API中使用的算法相同)来构建一个能够检测给定的土耳其语查询何时不分性别的系统。由于这在获得翻译之前引入了额外的步骤,因此我们必须仔细平衡模型复杂性和延迟。我们根据数千个人工评分的土耳其语示例训练了我们的系统,其中评分者被要求判断给定的示例是否不分性别。我们的最终分类系统是一个卷积神经网络,可以准确检测需要区分性别翻译的查询。
生成区分性别的翻译
接下来,我们增强了底层的神经机器翻译(NMT) 系统,以在需要时生成女性和男性翻译。当没有要求性别时,我们训练模型来生成默认翻译。这涉及:
识别并将我们的平行训练数据划分为包含女性词汇的数据、包含男性词汇的数据和包含无性别词汇的数据。
在句子开头添加额外的输入标记来指定需要翻译的性别,类似于我们构建多语言 NMT 系统的方式:
<2MALE> O bir doktor → 他是一名医生
<2FEMALE> O bir doktor → 她是一名​​医生
在女性、男性和无性别数据源上训练我们增强的 NMT 模型。我们尝试了这些数据源的各种混合比例,以使模型在这三个任务上表现同样出色。
如果确定用户的查询不分性别,我们会在翻译请求中添加性别前缀。对于这些请求,我们的最终 NMT 模型可以在 99% 的时间内可靠地生成女性和男性翻译。此外,系统还会保持没有性别前缀的查询的翻译质量。
检查准确性
最后,我们有一个步骤来决定是否显示特定性别的翻译。由于产生男性翻译的训练数据与产生女性翻译的训练数据不同,因此两种翻译之间可能存在与性别无关的差异。如果确定特定性别的翻译质量较低,我们只显示单个默认翻译。为了确定特定性别翻译的质量,我们验证:
如果请求的女性翻译是女性。
如果请求的男性翻译是男性。
如果阴性和阳性的翻译除了性别相关的变化外完全相同,那么翻译之间即使措辞有微小的变化也会导致被过滤。
总而言之,输入的句子首先经过分类器,分类器检测它们是否适合进行性别特定翻译。如果分类器的答案是“是”,我们会向增强型 NMT 模型发送三个请求 - 一个女性请求、一个男性请求和一个无性别请求。我们的最后一步会考虑这三个响应,并决定是显示性别特定翻译还是显示单个默认翻译。为了最大限度地提高所显示性别特定翻译的质量,这一步仍然相当保守;因此我们的整体召回率只有 60% 左右。我们计划在未来的迭代中扩大覆盖范围并增加对更复杂句子的支持。
这只是解决机器翻译系统中性别偏见的第一步,也重申了 Google 对机器学习公平性的承诺。未来,我们计划将性别特定翻译扩展到更多语言,并解决翻译中的非二元性别问题。
致谢:
本研究取得了成功,这要归功于许多人的辛勤工作,包括但不限于以下人员(按姓氏字母顺序排列):Lindsey Boran、HyunJeong Choe、Héctor Fernández Alcalde、Orhan Firat、Qin Gao、Rick Genter、Macduff Hughes、Tolga Kayadelen、James Kuczmarski、Tatiana Lando、Liu Liu、Michael Mandl、Nihal Meriç Atilla、Mengmeng Niu、Adnan Ozturel、Emily Pitler、Kathy Ray、John Richardson、Larissa Rinaldi、Alex Rudnick、Apu Shah、Jason Smith、Antonio Stella、Romina Stella、Jana Strnadova、Katrin Tomanek、Barak Turovsky、Dan Schwarz、Shilp Vaishnav、Clayton Watts、Kellie Webster、Colin Young、Pendar Yousefi、Candice Zhang 和 Min Zhao。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿色天空实验室

GMT+8, 2024-12-27 07:52 , Processed in 0.080700 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表