迈向深度学习系统的可靠性

1726319882339.jpg

深度学习模型在视觉、语言和其他模态方面取得了令人瞩目的进展,尤其是随着大规模预训练的兴起。当应用于与训练集相同分布的测试数据时,此类模型最为准确。然而,在实践中,现实世界中模型面临的数据很少与训练分布相匹配。此外,这些模型可能不太适合预测性能只是方程式一部分的应用。为了使模型在部署时可靠,它们必须能够适应数据分布的变化并在各种场景中做出有用的决策。

在“ Plex:使用预训练大型模型扩展实现可靠性”中,我们提出了一个可靠的深度学习框架,作为模型能力的新视角;这包括许多用于压力测试模型可靠性的具体任务和数据集。我们还介绍了 Plex,这是一组可应用于许多不同架构的预训练大型模型扩展。我们通过将这些扩展应用于当前最先进的Vision Transformer和 T5模型来说明 Plex 在视觉和语言领域的功效,从而显著提高了它们的可靠性。我们还将开放源代码以鼓励对这种方法的进一步研究。

不确定性——狗与猫分类器:Plex 可以对既不是猫也不是狗的输入说“我不知道” 。

稳健泛化——朴素模型对虚假相关性(“目的地”)很敏感,而 Plex 则很稳健。

适应性——Plex 可以主动选择要学习的数据,以更快地提高性能。

可靠性框架

首先,我们探讨如何理解新场景中模型的可靠性。我们提出了可靠的机器学习 (ML) 系统有三类一般要求:(1) 它们应该准确报告其预测的不确定性(“知道它们不知道什么”);(2) 它们应该能够稳健地推广到新场景(分布转移);(3) 它们应该能够有效地适应新数据(适应)。重要的是,可靠的模型应该旨在同时在所有这些领域表现出色,而无需针对单个任务进行任何定制。

不确定性反映了不完善或未知的信息,这些信息使得模型难以做出准确的预测。预测不确定性量化使模型能够计算出最佳决策,并帮助从业者认识到何时应该信任模型的预测,从而在模型可能出错时实现优雅的故障。

稳健泛化涉及对未见事件的估计或预测。我们研究了四种类型的分布外数据:协变量偏移(当输入分布在训练和应用之间发生变化而输出分布不变时)、语义(或类别)偏移、标签不确定性和亚群偏移。

使用 ImageNet 狗的图示来表示分布转变的类型。

适应是指在模型的学习过程中探索其能力。基准测试通常在具有预定义训练测试分割的静态数据集上进行评估。然而,在许多应用中,我们感兴趣的是能够快速适应新数据集并使用尽可能少的标记示例进行有效学习的模型。

可靠性框架。我们建议同时对不确定性、稳健泛化和适应性基准的“开箱即用”模型性能(即预测分布)进行压力测试,而无需针对单个任务进行任何定制。

我们应用 10 种类型的任务来捕捉三个可靠性领域——不确定性、稳健泛化和适应性——并确保任务在每个领域衡量一组不同的理想属性。这些任务总共包含 40 个跨视觉和自然语言模式的下游数据集:14 个数据集用于微调(包括少样本和基于主动学习的适应性)和 26 个数据集用于分布外评估。

Plex:针对视觉和语言的预训练大型模型扩展

为了提高可靠性,我们开发了 ViT-Plex 和 T5-Plex,分别 基于大型预训练视觉模型 ( ViT ) 和语言模型 ( T5 )。Plex 的一个关键特性是基于子模型进行更高效的集成,每个子模型都会做出预测,然后进行聚合。此外,Plex 将每个架构的线性最后一层与高斯过程或异方差层交换,以更好地表示预测不确定性。这些想法对于在ImageNet 规模上从头开始训练的模型非常有效。我们训练模型的大小各不相同,视觉模型有多达 3.25 亿个参数 (ViT-Plex L),语言模型有 10 亿个参数 (T5-Plex L),预训练数据集大小多达 40 亿个示例。

下图展示了 Plex 在一组选定任务上的表现与现有的最先进技术相比。每个任务的最佳表现模型通常是针对该问题高度优化的专用模型。Plex 在 40 个数据集中的许多数据集上都达到了新的最先进水平。重要的是,Plex 使用开箱即用的模型输出在所有任务中实现了强大的性能,而无需为每个任务进行任何自定义设计或调整。

最大的 T5-Plex(顶部)和 ViT-Plex(底部)模型在一组突出显示的可靠性任务上进行了评估,并与专门的最先进的模型进行了比较。辐条显示不同的任务,量化各种数据集上的指标性能。

Plex 在不同可靠性任务中的应用

我们在下面重点介绍了 Plex 在选定任务上的可靠性。

开放集识别

我们展示了 Plex 在模型必须推迟预测的情况下的输出,因为输入是模型不支持的。这项任务称为开放集识别。在这里,预测性能是更大的决策场景的一部分,其中模型可能会放弃做出某些预测。在下图中,我们展示了结构化的开放集识别:Plex 返回多个输出并发出信号,指出模型不确定且可能超出分布的特定输出部分。

结构化开放集识别使模型能够提供细致入微的澄清。在这里,T5-Plex L 可以识别细粒度的分布不均情况,即请求的垂直(即粗略级别的服务领域,例如银行、媒体、生产力等)和领域得到支持,但意图却不受支持。

标签不确定性

在现实世界的数据集中,每个输入的地面实况标签背后往往存在固有的歧义。例如,这可能是由于人类评分者对给定图像的歧义而引起的。在这种情况下,我们希望模型能够捕捉人类感知不确定性的完整分布。我们在下面展示了 Plex 的示例,这些示例来自我们构建的 ImageNet 变体,该变体提供了地面实况标签分布。

Plex 用于标签不确定性。使用我们构建的名为 ImageNet ReaL-H 的数据集,ViT-Plex L 展示了捕捉图像标签固有模糊性(概率分布)的能力。

主动学习

我们检查大型模型不仅能通过一组固定的数据点进行学习,还能参与了解首先从哪些数据点进行学习的能力。其中一项任务称为主动学习,在每个训练步骤中,模型会从未标记的数据点池中选择有希望的输入进行训练。此过程评估 ML 模型的标签效率,其中标签注释可能很少,因此我们希望在最大限度地提高性能的同时尽量减少使用的标记数据点的数量。Plex 在没有预训练的情况下,与相同的模型架构相比实现了显著的性能提升。此外,即使使用较少的训练示例,它也优于最先进的预训练方法BASE,后者在 100K 个示例中的准确率达到 63%。

在 ImageNet1K 上进行主动学习。与不利用预训练的基线相比,ViT-Plex L 的标签效率很高。我们还发现,主动学习的数据获取策略比均匀随机选择数据点更有效。

了解更多

在此处 查看我们的论文,以及即将于2022 年 7 月 23 日在ICML 2022 预训练研讨会上就这项工作发表的贡献演讲。为了鼓励在这方面进一步研究,我们将作为不确定性基线的一部分开源所有用于训练和评估的代码。我们还提供了一个演示,展示了如何使用 ViT-Plex 模型检查点。层和方法实现使用Edward2。

致谢

我们感谢所有为该项目和论文做出贡献的合著者,包括 Andreas Kirsch、Clara Huiyi Hu、Du Phan、D. Sculley、Honglin Yuan、Jasper Snoek、Jeremiah Liu、Jie Ren、Joost van Amersfoort、Karan Singhal、Kehang Han、Kelly Buchanan、Kevin Murphy、Mark Collier、Mike Dusenberry、Neil Band、Nithum Thain、Rodolphe Jenatton、Tim GJ Rudner、Yarin Gal、Zachary Nado、Zelda Mariet、Zi Wang 和 Zoubin Ghahramani。我们还要感谢 Anusha Ramesh、Ben Adlam、Dilip Krishnan、Ed Chi、Neil Houlsby、Rif A. Saurous 和 Sharat Chikkerur 提供的有益反馈,以及 Tom Small 和 Ajay Nainani 对可视化的帮助。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论