Crossmodal-3600 — 为不同地理区域的图像提供多语言参考说明

1726127426207.jpg

图像字幕制作是一项机器学习任务,用于自动为给定图像生成流畅的自然语言描述。这项任务对于提高视障用户的可访问性非常重要,也是涵盖视觉和语言建模的多模态研究的核心任务。

然而,用于图像字幕的数据集主要以英语提供。除此之外,只有少数数据集涵盖了有限数量的语言,仅占世界人口的一小部分。此外,这些数据集中的图像严重低估了全球文化的丰富性和多样性。这些方面阻碍了针对各种语言的图像字幕研究,并直接阻碍了为全球大量潜在受众部署无障碍解决方案。

今天,我们推出并公开了Crossmodal 3600 (XM3600) 图像字幕评估数据集,作为多语言图像字幕的强大基准,使研究人员能够可靠地比较这一新兴领域的研究成果。XM3600 为地理分布各异的 3600 幅图像提供了 261,375 个人工生成的参考字幕,支持 36 种语言。我们表明,字幕质量很高,而且风格在不同语言之间保持一致。

Crossmodal 3600 数据集包含 36 种语言的参考说明,适用于地理分布各异的 3600 幅图像。所有图像均已获得CC-BY 2.0 许可使用。

Crossmodal 3600 数据集概述

创建大型多语言训练和评估数据集是一项资源密集型的工作。最近的研究表明,以英语字幕为起点,构建在机器翻译数据上训练的多语言图像字幕模型是可行的。然而,一些最可靠的图像字幕自动指标在应用于翻译图像字幕的评估集时效果要差得多,导致与英语情况相比,与人工评估的一致性较差。因此,目前值得信赖的模型评估只能基于广泛的人工评估。不幸的是,这种评估通常无法在不同的研究工作中复制,因此不能提供一种快速可靠的机制来自动评估多个模型参数和配置(例如模型爬山法)或比较多条研究路线。

XM3600 为来自Open Images数据集 的一组地理分布各异的 3600 张图片提供了 261,375 条人工生成的参考字幕,支持 36 种语言。我们使用CIDEr指标将生成的字幕与手动提供的字幕进行比较,以此衡量生成的字幕的质量,该指标的范围从 0(与参考字幕无关)到 10(与参考字幕完全匹配)。在比较模型对时,我们观察到模型输出的 CIDEr 分数差异与并排比较模型输出的人工评估之间存在很强的相关性。,这使得 XM3600 成为一种可靠的工具,可用于对除英语之外的各种语言的图像字幕模型进行高质量的自动比较。

语言选择

除了英语,我们还选择了 30 种语言,大致基于它们在网络内容中所占的百分比。此外,我们还选择了另外五种语言,其中包括资源不足的语言,这些语言有许多母语使用者或主要母语来自其他大陆,否则这些语言不会被涵盖。最后,我们还将英语作为基准,因此总共有 36 种语言,如下表所示。

阿拉伯     孟加拉*     中国人     克罗地亚语     库斯科克丘亚

语*     捷克语

丹麦语     荷兰语     英语     菲律宾语     芬兰     法语

德语     希腊语     希伯来语     印地语     匈牙利     印度尼西亚

意大利语     日本人     韩国人     毛利人*     挪威     波斯语

抛光     葡萄牙语     罗马尼亚语     俄语     西班牙语     斯瓦希里语*

瑞典     泰卢固语*     泰国     土耳其     乌克兰     越南语

XM3600 中使用的语言列表。*资源匮乏但母语使用者众多的语言,或主要母语来自其他大洲但不会被涵盖的语言。

图像选择

这些图像是从Open Images数据集中具有位置元数据的 图像中选择出来的。由于许多地区使用多种语言,而这些图像没有很好地覆盖某些地区,因此我们设计了一种算法来最大化所选图像与使用目标语言的地区之间的对应关系。该算法首先选择具有与我们拥有最小池(例如波斯语)的语言相对应的地理数据的图像,并按照候选图像池大小的递增顺序进行处理。如果使用某种语言的地区没有足够的图像,那么我们会逐渐将地理选择半径扩大到:(i) 使用这种语言的国家;(ii) 使用这种语言的大陆;以及作为最后的手段,(iii) 来自世界任何地方。这一策略成功地为 36 种语言中的大多数语言提供了来自适当地区的目标数量的 100 张图像,但波斯语(其中使用了 14 张大陆级别的图像)和印地语(其中所有 100 张图像均为全球级别的,因为区域内图像被分配给孟加拉语和泰卢固语)除外。

英语摄影:Chris Sampson

  斯瓦希里语照片由Henrik Palm拍摄

  泰卢固语照片由rojypala拍摄

库斯科克丘亚语照片由McKay Savage拍摄

  菲律宾人摄影:Simon Schoeters

  中文摄影:Stefan Krasowski

样本图像展示了注释图像的地理多样性。图像使用CC BY 2.0 许可。

字幕生成

总共 3600 张图像(每种语言 100 张)均用 36 种语言进行了注释,平均每种语言有两个注释,共计产生 261,375 条字幕。

注释者以 15 张图像为一批进行工作。第一个屏幕显示所有 15 张图像及其英文字幕,这些字幕由经过训练的字幕模型生成,该模型输出一致样式的字幕“<主要显著对象>在<环境>中进行<活动>”,通常带有对象属性,例如“微笑”的人、“红色”汽车等。注释者被要求根据从“优秀”到“差”的 4 点量表指南对字幕质量进行评分,外加“信息不足”选项。此步骤迫使注释者仔细评估字幕质量,并让他们内化字幕的风格。以下屏幕再次显示图像,但单独显示且不带英文字幕,注释者被要求为每幅图像生成目标语言的描述性字幕。

选择 15 个图像批次大小是为了使注释者能够内化风格,而无需记住确切的字幕。因此,我们希望评分者仅根据图像内容生成字幕,而不需要翻译人工干预。例如,在下面的示例中,西班牙语字幕提到“42 号”,泰语字幕提到“敞篷车”,而英语字幕中均未提及这些内容。注释者还获得了创建字幕时使用的协议,从而实现跨语言的风格一致性。

摄影:Brian Solis     英语     •展厅中一辆老式跑车与许多其他老式跑车在一起

•品牌经典汽车排成一排展示

西班牙语     • Automóvil clásico deportivo en exhibición de automóviles de galería — (画廊车展中的经典跑车)

• Coche pequeño de carreras color Plateado con el número 42 en una exhibición de coches — (车展上编号为 42 的小型银色赛车)

泰国     • รถเปิดประทุนหลายสีจอดเรียงกันในที่จัดแสดง — (多色转换展览中排队)

• รถแข่งวินเทจจอดเรียงกันหลายคันในงาจัดแสดง — (几辆老式赛车在展会上。)

三种不同语言的示例字幕(共 36 种——请参阅Crossmodal-3600 论文附录 A 中的完整字幕列表),展示了如何在不同语言中创建风格一致的注释,同时避免直接翻译的瑕疵(例如,从英文版本直接翻译时无法得到西班牙语的“number 42”或泰语的“convertibles”)。图片使用CC BY 2.0 许可。

字幕质量和统计数据

我们针对每种语言进行了两到五项试点研究,以排除字幕生成过程的故障并确保字幕质量高。然后,我们手动评估了字幕的随机子集。首先,我们随机选择了 600 幅图像样本。然后,为了衡量特定语言字幕的质量,我们针对每幅图像选择了一个手动生成的字幕进行评估。我们发现:

在 36 种语言中,有 25 种语言的字幕评分为“良好”或“优秀”的比例超过 90%,其余语言的字幕评分均在 70% 以上。

在 36 种语言中,有 26 种语言的字幕被评为“差”的比例低于 2%,其余语言的字幕比例均低于 5%。

对于使用空格分隔单词的语言,一些黏着性语言(如库斯科克丘亚语和捷克语)每条字幕的单词数可能低至 5 或 6 个,而分析性语言(如越南语)每条字幕的单词数则高达 18 个。每条字幕的字符数也有很大差异 - 从韩语的 20 个左右到印尼语的 90 个左右 - 具体取决于语言的字母和文字。

实证评估与结果

我们通过训练多语言图像字幕模型的四种变体,并将模型在 XM3600 数据集上针对 30 多种语言的输出的 CIDEr 差异与人工评估进行比较,实证测量了 XM3600 注释对图像字幕模型变体进行排序的能力。我们观察到 CIDEr 差异与人工评估之间存在很强的相关性。这些结果支持使用 XM3600 参考资料作为一种手段,在英语以外的各种语言上对图像字幕模型进行高质量的自动比较。

近期用途

最近,PaLI使用 XM3600 评估了英语以外的模型在图像字幕、图像到文本检索和文本到图像检索方面的表现。他们在 XM3600 上进行评估时发现的关键结论是,多语言字幕极大地受益于扩展 PaLI 模型,尤其是对于资源匮乏的语言。

致谢

我们要感谢这项工作的合著者:Xi Chen 和 Radu Soricut。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论