多模态瓶颈变换器 (MBT):一种新的模态融合模型

1727067044480.jpg

人们通过多种感官流与世界互动(例如,我们看到物体、听到声音、阅读文字、感受纹理和品尝味道),结合信息并在感官之间形成关联。由于现实世界的数据由各种同时出现的信号组成,例如视频帧和音轨、网络图像及其字幕以及教学视频和语音记录,因此在构建和设计多模态机器学习 (ML) 模型 时应用类似的逻辑是很自然的。

有效的多模态模型具有广泛的应用,例如多语言图像检索、未来动作预测和视觉语言导航,并且由于多种原因而非常重要:鲁棒性,即即使在一种或多种模态缺失或损坏的情况下仍能执行的能力,以及模态之间的互补性,即某些信息可能仅存在于一种模态(例如音频流)中,而不存在于另一种模态(例如视频帧)中。虽然多模态融合的主导范例(称为后期融合)包括使用单独的模型来编码每种模态,然后在最后一步简单地组合它们的输出表示,但研究如何有效和高效地组合来自不同模态的信息仍未得到充分研究。

在NeurIPS 2021上发表的 “多模态融合的注意力瓶颈”中,我们介绍了一种基于Transformer的新型视频多模态融合模型,称为多模态瓶颈Transformer (MBT)。我们的模型以两种方式限制潜在单元之间的跨模态注意力流:(1) 通过紧密的融合瓶颈,迫使模型收集和压缩每个模态中最相关的输入(仅与其他模态共享必要的信息),以及 (2) 限制到模型的后续层,允许早期层专门处理来自各个模态的信息。我们证明,与普通多模态 Transformer 模型相比,这种方法在视频分类任务上取得了最佳效果,FLOP减少了 50% 。我们还发布了我们的代码,作为研究人员在扩展多模态融合工作时可以利用的工具。

原始多模态 Transformer 模型

Transformer 模型在 ML 任务中始终取得最佳效果,包括视频(ViViT)和音频分类(AST)。ViViT 和 AST 均建立在 Vision Transformer(ViT)之上;与逐像素处理图像的标准卷积方法不同,ViT 将图像视为一系列补丁标记(即,来自由多个像素组成的图像的较小部分或补丁的标记)。然后,这些模型对所有补丁标记对执行自注意操作。然而,使用 Transformer 进行多模态融合具有挑战性,因为它们的计算成本很高,并且复杂性随输入序列长度二次增长。

由于 Transformer 可以有效处理可变长度序列,因此将单峰 Transformer(例如 ViT)扩展到多峰情况的最简单方法是向模型提供视觉和听觉标记序列,同时对 Transformer 架构进行最少的更改。我们将其称为 vanilla 多峰 Transformer 模型,它允许在图像中的不同空间和时间区域之间以及音频输入中的频率和时间之间自由流动注意力(称为 vanilla 交叉注意力),以频谱图表示。然而,虽然通过连接音频和视频输入标记可以轻松实现,但 Transformer 模型所有层的 vanilla 交叉注意力都是不必要的,因为音频和视觉输入包含密集、细粒度的信息,这些信息对于任务来说可能是多余的,从而增加了复杂性。

限制注意力

通过减少注意力流可以缓解多模态模型中长序列复杂性增加的问题。我们使用两种方法来限制注意力流,即指定融合层和添加 注意力瓶颈。

融合层(早期、中期或晚期融合):在多模态模型中,引入跨模态交互的层称为融合层。两个极端版本是早期融合(Transformer 中的所有层都是跨模态的)和晚期融合(所有层都是单模态的,Transformer 编码器中不交换跨模态信息)。在两者之间指定融合层会导致中期融合。这种技术建立在多模态学习中的常见范式之上,即将跨模态流限制在网络的后续层,从而使早期层专门用于学习和提取单模态模式。

注意力瓶颈:我们还引入了一小组潜在单元,它们构成了注意力瓶颈(如下图紫色部分所示),迫使给定层内的模型在与另一个模态共享信息之前整理和压缩来自每个模态的信息,同时仍允许模态内的自由注意力流动。我们证明,这个瓶颈版本 (MBT) 的表现优于或匹敌其无限制版本,且计算成本更低。

我们模型中的不同注意力配置。与后期融合(左上)不同,在 Transformer 编码器中没有交换跨模态信息,我们研究了两种交换跨模态信息的途径。早期和中期融合(中上、右上)是通过标准的成对自注意力跨层中所有隐藏单元完成的。对于中期融合,跨模态注意力仅适用于模型中的后续层。瓶颈融合(左下)通过称为注意力瓶颈的紧密潜在单元限制层内的注意力流。瓶颈中期融合(右下)结合应用两种形式的限制以获得最佳性能。

瓶颈和计算成本

我们使用AudioSet数据 集将 MBT 应用于声音分类任务,并研究其在两种方法中的表现:(1) 原始交叉注意力和 (2) 瓶颈融合。对于这两种方法,中间融合(如下方 x 轴的中间值所示)的表现均优于早期融合(融合层 = 0)和晚期融合(融合层 = 12)。这表明该模型受益于将跨模态连接限制在后面的层,从而使前面的层专门学习单模态特征;但是,它仍然受益于多层跨模态信息流。我们发现,在所有融合层中增加注意力瓶颈(瓶颈融合)的表现优于或保持原始交叉注意力,并且在较低的融合层中改进更为显著。

使用注意力瓶颈进行融合对 AudioSet 上不同融合层的 mAP 性能(左)和计算(右)的影响。注意力瓶颈(红色)以较低的计算成本提高了原始交叉注意力(蓝色)的性能。中融合位于融合层 4-10,其表现优于早期(融合层 = 0)和晚期(融合层 = 12)融合,融合层 8 的性能最佳。

我们比较了普通交叉注意力和瓶颈融合的计算量(以GFLOPs为单位)。使用少量注意力瓶颈(我们在实验中使用了四个瓶颈标记)与后期融合模型相比,额外计算量可以忽略不计,而计算量在融合层变化时基本保持不变。这与普通交叉注意力形成对比,后者对于应用的每一层都有不可忽略的计算成本。我们注意到,对于早期融合,瓶颈融合在视听声音分类方面的表现比普通交叉注意力高出 2 个以上的平均精度点(mAP),而计算成本不到一半。

声音分类和动作识别的结果

MBT 在热门视频分类任务(声音分类(AudioSet和VGGSound)和动作识别(Kinetics和Epic-Kitchens))上的表现优于先前的研究。对于多个数据集,后期融合和带中期融合的 MBT(融合音频和视觉)的表现优于最佳单模态基线,而带中期融合的 MBT 的表现优于后期融合。

在多个数据集中,融合音频和视觉的效果优于最佳单模态基线,而中期融合的 MBT 效果优于后期融合。对于每个数据集,我们报告了广泛使用的主要指标,即 Audioset:mAP、Epic-Kitchens:Top-1 动作准确率、VGGSound、Moments-in-Time和 Kinetics:Top-1 分类准确率。

注意力热图的可视化

为了理解 MBT 的行为,我们根据注意力展开技术可视化了我们的网络计算出的注意力。我们计算了从输出分类标记到 AudioSet 测试集上的原始交叉注意力模型和 MBT 的图像输入空间的注意力热图。对于每个视频片段,我们在左侧显示原始中间帧,并在底部叠加地面真实标签。我们证明注意力特别集中在图像中包含运动和产生声音的区域,例如钢琴上的指尖、缝纫机和狗的脸。MBT 中的融合瓶颈进一步迫使注意力局限于图像的较小区域,例如左上角的狗嘴和中间右边唱歌的女人。这提供了一些证据,表明紧密的瓶颈迫使 MBT 仅关注与音频分类任务相关的图像块,并且受益于与音频的中间融合。

概括

我们引入了 MBT,一种用于多模态融合的新型基于 Transformer 的架构,并探索了使用瓶颈标记之间的交叉注意力的各种融合方法。我们证明,通过一小组融合瓶颈来限制跨模态注意力可以在许多视频分类基准上取得最佳结果,同时与普通交叉注意力模型相比,还可以降低计算成本。

致谢

这项研究由 Arsha Nagrani、Anurag Arnab、Shan Yang、Aren Jansen、Cordelia Schmid 和 Chen Sun 进行。博客文章由 Arsha Nagrani、Anurag Arnab 和 Chen Sun 撰写。动画由 Tom Small 制作。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论