研究翻译中性别偏见的数据集

神经机器翻译(NMT)的进步使翻译更加自然流畅,但它们仍然可以反映出训练数据的社会偏见和刻板印象。因此,Google 的持续目标是开发创新技术来减少机器翻译中的性别偏见,以符合我们的AI 原则。

一个研究领域是利用周围句子或段落的上下文来提高性别准确性。这是一个挑战,因为传统的 NMT 方法会逐句翻译,但性别信息并不总是明确地写在每个句子中。例如,在下面这段西班牙语(一种并不总是明确提到主语的语言)中,第一句明确提到玛丽居里是主语,但第二句没有明确提到主语。单独来看,第二句可以指任何性别的人。然而,当翻译成英语时,需要选择一个代词,而准确翻译所需的信息就在第一句中。

西班牙语文本 翻译成英文

玛丽·居里出生于华沙。 Fue la prime persona en recibir dos premios Nobel en distintas especialidades。 居里夫人出生于华沙,是第一位在不同专业领域获得两次诺贝尔奖的人。

要想将翻译技术提升到单句翻译的水平,就需要新的衡量标准和包含最常见上下文相关错误的新数据集。此外,与性别相关的翻译错误(例如选择正确的代词或性别一致)尤其敏感,因为它们可能直接指代人们及其自我认同方式,这加剧了这一挑战。

为了帮助解决上下文翻译中的常见挑战(例如代词删除、性别一致和准确的所有格),我们发布了翻译维基百科传记 数据集,该数据集可用于评估翻译模型的性别偏见。 我们发布此版本的目的是通过提供一个基准来衡量模型更改前后翻译的准确性,从而支持专注于翻译代词和性别的机器学习系统的长期改进。

常见翻译错误的根源

由于维基百科 传记文笔流畅、涉及不同地域、包含多个句子,并且以第三人称指代主题(因此包含大量代词),因此,它们极有可能出现与性别相关的常见翻译错误。这些错误通常发生在文章在段落的开头句子中明确提到某人,但在后面的句子中没有明确提及该人时。以下是一些示例:

翻译错误     文本     翻译

西班牙语 → 英语中的Pro-drop     玛丽·居里出生于华沙。雷西比·埃尔·诺贝尔 (Recibió el Premio Nobel) 于 1903 年和 1911 年荣获诺贝尔奖。     玛丽·居里出生于华沙。她于 1903 年和 1911 年获得诺贝尔奖。

西班牙语 → 英语中的中性所有格     玛丽·居里出生于华沙。 Su carrera 是法国的专业人士。     玛丽·居里 出生于华沙,其职业生涯是在法国发展的。

英语 → 德语 中的性别一致     玛丽·居里出生于华沙。这位杰出的科学家于 1903 年和 1911 年获得诺贝尔奖。     玛丽·居里wurde 在华沙 geboren。1903 年和 1911 年荣获诺贝尔奖的科学科学奖。

英语 → 西班牙语中的 性别协议     玛丽·居里出生于华沙。这位杰出的科学家于 1903 年和 1911 年获得诺贝尔奖。     玛丽·居里出生于华沙。1903 年和 1911 年荣获诺贝尔奖的 杰出科学家。

构建数据集

维基百科译本人物传记 数据集旨在分析机器翻译中常见的性别错误,如上图所示。数据集中的每个实例代表一个人(在传记中被认定为女性或男性)、一个摇滚乐队或一个运动队(被视为无性别)。每个实例都由一个长文本翻译表示,该翻译由 8 到 15 个连贯的句子组成,涉及该中心主题(人物、摇滚乐队或运动队)。文章以英语为母语,并已专业翻译成西班牙语和德语。对于西班牙语,翻译针对代词删除进行了优化,因此可以使用同一组来分析代词删除(西班牙语 → 英语)和性别一致性(英语 → 西班牙语)。

数据集是通过选择一组在各个地区和性别中具有同等代表性的实例来构建的。为此,我们从维基百科中根据职业、专业、工作和/或活动提取了传记。为了确保职业选择的公正性,我们根据维基百科统计数据选择了九种代表一系列刻板性别联想(女性化、男性化或两者都不是)的职业。然后,为了减轻任何基于地理位置的偏见,我们根据地理多样性划分了所有这些实例。对于每个职业类别,我们希望每个地区都有一个候选人(使用census.gov中的地区作为地理多样性的代理)。当一个实例与某个地区相关联时,我们会检查所选人员是否与属于指定地区的国家有相关关系(国籍、出生地、一生中大部分时间居住的地方等)。通过使用此标准,数据集包含来自 90 多个国家和世界所有地区的个人条目。

尽管性别是非二元的,但我们专注于平等地代表“女性”和“男性”实体。值得一提的是,由于这些实体在维基百科上是这样表示的,因此该集合不包括被认定为非二元的个人,因为不幸的是,维基百科中目前没有足够的实例来准确反映非二元社区。为了将每个实例标记为“女性”或“男性”,我们依赖维基百科中的传记信息,其中包含对该人的特定性别的引用(她、他、女人、儿子、父亲等)。

应用完所有这些过滤器后,我们为每个职业-地区-性别三元组随机选择一个实例。每个职业都有两个传记(一个男性传记和一个女性传记),分别对应七个地理区域。

最后,我们添加了 12 个不分性别的实例。我们之所以选择摇滚乐队和运动队,是因为它们通常用无性别的第三人称代词(例如“它”或单数“他们”)来指代。添加这些实例的目的是研究过度触发,即当模型了解到它们因产生性别特定代词而获得奖励时,导致它们在不应该产生这些代词的情况下产生这些代词。

结果与应用

该数据集为评估机器翻译中性别偏见减少效果提供了一种新方法(在之前的文章中介绍过)。因为每个实例都指的是一个性别已知的主题,所以我们可以计算出指代该主题的性别特定翻译的准确率。这种计算在翻译成英语时(使用代词省略或中性代词的语言的情况)更容易,因为计算主要基于英语中的性别特定代词。在这些情况下,与之前的模型相比,性别数据集使语境感知模型的错误率降低了 67%。如前所述,中性实体让我们能够发现过度触发的情况,比如使用女性或男性代词来指代无性别实体。这个新数据集还为不同模型在不同职业或地理区域的表现提供了新的研究方向。

举个例子,通过数据集,我们发现了玛丽·居里传记西班牙语译文摘录中的以下改进。

1728748865686.jpg

使用先前的 NMT 模型的翻译结果。

1728748840189.jpg

采用新上下文模型的翻译结果。

结论

此翻译的维基百科传记数据集是我们自己研究和识别与性别和机器翻译相关的偏见的成果。该数据集专注于与性别偏见相关的特定问题,并不旨在涵盖整个问题。值得一提的是,通过发布此数据集,我们并不旨在规定解决性别偏见的最佳方法。此贡献旨在促进全球研究界在这一挑战上取得进展。

致谢

数据集由 Anja Austermann、Melvin Johnson、Michelle Linch、Mengmeng Niu、Mahima Pushkarna、Apu Shah、Romina Stella 和 Kellie Webster 提供帮助。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论