MURAL：跨语言的多模式、多任务检索_人工智能

对于许多概念而言，从一种语言到另一种语言没有直接的一一对应翻译，即使有，这种翻译也往往带有不同的联想和内涵，非母语人士很容易忽略这些联想和内涵。然而，在这种情况下，如果以视觉示例为基础，含义可能会更加明显。以“婚礼”一词为例。在英语中，人们通常会联想到穿白色礼服的新娘和穿燕尾服的新郎，但当翻译成印地语（शादी）时，更合适的联想可能是新娘穿着鲜艳的颜色，新郎穿着长袍。每个人对这个词的联想可能大不相同，但如果向他们展示目标概念的图像，含义就会变得更加清晰。

英语和印地语中的“婚礼”一词传达了不同的心理意象。图片取自维基百科，版权归 Psoni2402（左）和 David McCandless（右）所有，并遵循 CC BY-SA 4.0 许可。

随着神经机器翻译和图像识别的最新进展，可以通过呈现与支持图像配对的文本来减少翻译中的这种歧义。先前的研究在学习高资源语言（例如英语）的图像文本联合表示方面取得了很大进展。这些表示模型力求将图像和文本编码为共享嵌入空间中的向量，使得图像和描述它的文本在该空间中彼此接近。例如，ALIGN和CLIP已经表明，当提供充足的训练数据时，使用对比学习损失在图像文本对上训练双编码器模型（即使用两个单独的编码器训练的模型）效果非常好。

不幸的是，大多数语言中都不存在同等规模的图像-文本对数据。事实上，超过 90% 的此类网络数据属于资源丰富的前 10 种语言，例如英语和中文，而资源匮乏的语言的数据则少得多。为了解决这个问题，人们可以尝试手动收集资源匮乏语言的图像-文本对数据，但由于工作规模庞大，这项工作将极其困难，或者人们可以尝试利用现有的数据集（例如，翻译对），这些数据集可以为多种语言提供必要的学习表征。

在EMNLP 2021 成果发布会上发表的 “ MURAL：跨语言多模态、多任务检索”中，我们描述了一种图像文本匹配的表示模型，该模型将多任务学习应用于图像文本对，并结合涵盖 100 多种语言的翻译对。这项技术可以让用户使用图像来表达可能无法直接翻译成目标语言的单词。例如，“ valiha ”这个词是指马达加斯加人演奏的一种管状古筝，它无法直接翻译成大多数语言，但可以很容易地用图像来描述。从经验上看，MURAL 在各方面都显示出优于最先进模型、其他基准和竞争基线的持续改进。此外，MURAL 在大多数资源不足的语言测试中都表现出色。此外，我们发现了 MURAL 表示学习到的有趣的语言相关性。

壁画建筑

MURAL 架构基于ALIGN 的结构，但采用多任务方式。ALIGN 使用双编码器架构将图像表示和相关文本描述整合在一起，而 MURAL 则采用双编码器结构来实现相同目的，同时还通过合并翻译对将其扩展到各种语言。图像-文本对的数据集与 ALIGN 使用的数据集相同，翻译对与LaBSE使用的数据集相同。

MURAL 解决了两个对比学习任务：1) 图像-文本匹配和 2) 文本-文本 (双语) 匹配，这两个任务共享文本编码器模块。该模型从图像-文本数据中学习图像和文本之间的关联，并从翻译对中学习数百种不同语言的表示。其理念是，共享编码器将从资源丰富的语言中学习到的图像-文本关联转移到资源匮乏的语言。我们发现最好的模型采用了EfficientNet-B7图像编码器和BERT-large文本编码器，两者都是从头开始训练的。学习到的表示可用于下游视觉和视觉语言任务。

MURAL 的架构描绘了使用对比学习损失进行训练的两个任务之间的双编码器和共享的文本编码器。

多语言图像到文本和文本到图像检索

为了展示 MURAL 的功能，我们选择了跨模态检索任务（即，给定文本检索相关图像，反之亦然），并在涵盖资源丰富的语言的各种学术图像文本数据集上报告分数，例如MS-COCO（及其日语变体STAIR）、Flickr30K（英文）和Multi30K（扩展到德语、法语、捷克语）、XTD（仅包含七种资源丰富的语言的测试集：意大利语、西班牙语、俄语、中文、波兰语、土耳其语和韩语）。除了资源丰富的语言之外，我们还在最近发布的维基百科图像文本（WIT）数据集上对 MURAL 进行评估，该数据集涵盖 108 种语言，包括资源丰富的语言（英语、法语、中文等）和资源不足的语言（斯瓦希里语、印地语等）。

在对资源充足和资源匮乏的语言进行评估时， MURAL在零样本和微调设置中始终优于先前的先进模型，包括M3P、UC2和ALIGN。与最先进的模型 ALIGN 相比，我们看到资源匮乏的语言的性能有了显著提升。

各种多语言图文检索基准上的平均召回率。平均召回率是评估图文数据集跨模态检索性能的常用指标（越高越好）。它测量 Recall@N（即，基本事实图像出现在前N张检索到的图像中的概率），在六次测量中取平均值：N=[1, 5, 10] 的图像→文本和文本→图像检索。请注意，XTD 分数报告文本→图像检索的 Recall@10。

检索分析

我们还分析了WIT 数据集上的零样本检索示例，比较了英语 (en) 和印地语 (hi) 的 ALIGN 和 MURAL。对于印地语等资源匮乏的语言，与 ALIGN 相比，MURAL 的检索性能有所提高，这反映了对文本语义的更好掌握。

比较 ALIGN 和 MURAL 在WIT 数据集上的印地语文本的文本→图像检索任务中检索到的前 5 张图像，एक तश्तरी पर बिना मसाले या सब्ज़ी के रखी हुई सादी स्पगॅत्ती”，翻译为英文，“一碗不含任何香料或蔬菜的白面”。

即使是在资源丰富的语言（如法语）中进行图像→文本检索，MURAL 对某些单词的理解也更好。例如，对于查询“ cadran solaire ”（法语中的“日晷”），MURAL 返回的结果比 ALIGN 更好，后者不会检索任何描述日晷的文本（见下文）。

对同一张日晷图像进行图像→文本检索任务，对比 ALIGN 和 MURAL 的前 5 个文本结果。

嵌入可视化

此前，研究人员已经证明，可视化模型嵌入可以揭示语言之间的有趣联系——例如，神经机器翻译(NMT) 模型学习到的表示已被证明可以根据其对语言家族的成员资格形成聚类。我们对属于日耳曼语、罗曼语、斯拉夫语、乌拉尔语、芬兰语、凯尔特语和芬兰-乌戈尔语系（在欧洲和西亚广泛使用）的语言子集进行了类似的可视化。我们将 MURAL 的文本嵌入与LaBSE的文本嵌入（纯文本编码器）进行了比较。

LabSE 嵌入图显示了受语言家族影响的不同语言集群。例如，罗曼语（下图中紫色部分）与斯拉夫语（下图中棕色部分）属于不同的区域。这一发现与之前研究 NMT 系统学习的中间表示的研究一致。

35 种语言的 LaBSE 文本表示可视化。语言根据其谱系关联进行颜色编码。代表性语言包括：日耳曼语（红色）——德语、英语、荷兰语；乌拉尔语（橙色）——芬兰语、爱沙尼亚语；斯拉夫语（棕色）——波兰语、俄语；罗曼语（紫色）——意大利语、葡萄牙语、西班牙语；盖尔语（蓝色）——威尔士语、爱尔兰语。

与 LaBSE 的可视化相比，MURAL 的嵌入是通过多模态目标学习的，它显示了一些符合区域语言学（其中元素由地理区域内的语言或方言共享）和接触语言学（其中语言或方言相互作用和影响）的聚类。值得注意的是，在 MURAL 嵌入空间中，罗马尼亚语 (ro) 比在 LaBSE 中更接近斯拉夫语，如保加利亚语 (bg) 和马其顿语 (mk)，这与巴尔干语言联盟一致。另一种可能的语言接触使芬兰语、爱沙尼亚语 (et) 和芬兰语 (fi) 更接近斯拉夫语集群。MURAL 以图像和翻译为中心，这一事实似乎为深度表示中学习到的语言相关性增加了额外的视角，超越了在纯文本环境中观察到的语言家族聚类。

35 种语言的 MURAL 文本表示可视化。颜色编码与上图相同。

结语

我们的研究结果表明，使用翻译对进行联合训练有助于克服许多资源匮乏的语言的图像-文本对稀缺问题，并提高跨模态性能。此外，在使用多模态模型学习的文本表示中观察到区域语言学和接触语言学的迹象也很有趣。这值得进一步探究多模态模型（例如 MURAL）隐式学习的不同连接。最后，我们希望这项工作能够促进多模态、多语言领域的进一步研究，在这个领域中，模型可以学习资源丰富的语言以外的语言（通过图像和文本表达）的表示和语言之间的联系。

致谢

本研究与 Mandy Guo、Krishna Srinivasan、Ting Chen、Sneha Kudugunta、Chao Jia 和 Jason Baldridge 合作完成。我们感谢 Zarana Parekh、Orhan Firat、Yuqing Chen、Apu Shah、Anosh Raj、Daphne Luong 以及其他为本项目提供反馈的人。我们也非常感谢 Google 研究团队的大力支持。

MURAL：跨语言的多模式、多任务检索

版权声明

相关推荐

评论