|
理解高维数据并以无监督的方式将这些知识提炼为有用的表示的能力仍然是深度学习中的一个关键挑战。解决这些挑战的一种方法是通过解缠表示,即以这样的方式捕捉给定场景的独立特征的模型:如果一个特征发生变化,其他特征不会受到影响。如果成功完成,旨在导航现实世界的机器学习系统(例如自动驾驶汽车或机器人)可以解缠物体及其周围环境的不同因素和属性,从而将知识推广到以前未观察到的情况。虽然无监督解缠方法已经用于好奇心驱动的探索、抽象推理、视觉概念学习和强化学习的领域适应,但该领域的最新进展使得我们很难知道不同方法的效果如何及其局限性。
在“挑战无监督解缠结表示学习中的常见假设”(即将在ICML 2019上发表)中,我们对最近的无监督解缠结方法进行了大规模评估,挑战了一些常见假设,从而为未来解缠结学习的工作提出一些改进建议。这项评估是在七个不同数据集上进行的可重复大规模实验研究中训练了超过 12,000 个模型的结果,这些模型涵盖了最突出的方法和评估指标。重要的是,我们还发布了本研究中使用的代码以及超过 10,000 个预训练的解缠结模型。由此产生的库disentanglement_lib使研究人员可以引导他们自己在该领域的研究,并轻松复制和验证我们的实证结果。
理解解缠结为了更好地理解可以在解缠结表示中编码的图像的真实属性,首先考虑数据集Shapes3D
的真实因素。下图所示的这个玩具模型中,每个面板代表一个因素,可以将其编码为图像的矢量表示。所示的模型由图像中间物体的形状、其大小、相机的旋转以及地板、墙壁和物体的颜色定义。
解开表征的目的是构建能够以向量形式捕获这些解释因素的模型。下图展示了一个具有 10 维表征向量的模型。10 个面板中的每一个都可视化了表征的 10 个不同坐标之一中捕获的信息。从右上方和中间上方的面板中,我们可以看到模型已成功解开地板颜色的纠缠,而左下方的两个面板表明物体颜色和大小仍然纠缠在一起。
这项可重复的大规模研究的主要结果
虽然研究界已经提出了多种基于变分自编码器的无监督方法来学习解缠结表示,并设计了不同的指标来量化它们的解缠结水平,但据我们所知,没有一项大规模的实证研究以统一的方式评估过这些方法。 我们提出了一个公平、可重复的实验方案,通过实施六种不同的最先进模型(BetaVAE、AnnealedVAE、FactorVAE、DIP-VAE I/II和Beta-TCVAE)和六个解缠结指标(BetaVAE 分数、FactorVAE 分数、MIG、SAP、模块化和DCI 解缠结),对无监督解缠结学习的状态进行基准测试。 总的来说,我们在七个数据集上训练和评估了 12,800 个这样的模型。 我们研究的主要发现包括:
我们没有发现任何经验证据表明所考虑的模型可用于以无监督的方式可靠地学习解缠结表示,因为随机种子和超参数似乎比模型选择更重要。换句话说,即使训练了大量模型,其中一些模型是解缠结的,但如果没有真实标签,这些解缠结表示似乎无法识别。此外,在我们的研究中,良好的超参数值似乎无法在数据集之间一致地传递。这些结果与我们在论文中提出的定理一致,该定理指出,如果没有对数据集和模型的归纳偏差(即,必须对数据集做出假设并将这些假设纳入模型),就不可能对解缠结表示进行无监督学习。
对于考虑的模型和数据集,我们无法验证解缠对下游任务有用的假设,例如,利用解缠的表示,可以用更少的标记观察进行学习。
下图展示了其中的一些发现。不同运行中随机种子的选择对解缠分数的影响比模型选择和正则化强度更大(尽管人们可能天真地认为更多的正则化应该总是导致更多的解缠)。具有不良超参数的良好运行可以轻松击败具有良好超参数的不良运行。
根据这些结果,我们提出了四点与未来研究相关的观察:
鉴于没有归纳偏差的解缠表示的无监督学习是不可能的理论结果,未来的工作应该清楚地描述施加的归纳偏差以及隐性和显性监督的作用。
寻找适用于多个数据集的无监督模型选择的良好归纳偏差仍然是一个关键的未解决的问题。
应该展示强制执行学习表征解开特定概念的具体实际好处。有希望的方向包括机器人技术、抽象推理和公平性。
实验应在可重复的实验装置上对多种选择的数据集进行。
开源 disentanglement_lib
为了让其他人验证我们的结果,我们发布了disentanglement_lib,这是我们用于创建实验研究的库。它包含所考虑的解缠方法和指标的开源实现、标准化的训练和评估协议,以及可视化工具,以便更好地理解训练好的模型。
这个库有三方面的优势。首先,只需不到四个 shell 命令,disentanglement_lib就可用于重现我们研究中的任何模型。其次,研究人员可以轻松修改我们的研究以检验其他假设。第三,disentanglement_lib易于扩展,可用于引导研究解缠表示的学习——使用公平、可重复的实验设置,很容易实现新模型并将它们与我们的参考实现进行比较。
重现我们研究中的所有模型需要大约 2.5 GPU 年的计算工作量,这可能是难以承受的。因此,我们还发布了研究中超过 10,000 个预训练的 disentanglement_lib 模型,这些模型可与disentanglement_lib一起使用。
我们希望这将加速该领域的研究,因为其他研究人员可以将他们的新模型与我们的预训练模型进行对比,并在多种模型上测试新的解缠指标和可视化方法。
致谢
本研究是与 Google AI Zürich、ETH Z ü rich 和 Max-Planck 智能系统研究所的 Francesco Locatello、Mario Lucic、Stefan Bauer、Gunnar Rätsch、Sylvain Gelly 和 Bernhard Schölkopf 合作完成的。我们还要感谢 Josip Djolonga、Ilya Tolstikhin、Michael Tschannen、Sjoerd van Steenkiste、Joan Puigcerver、Marcin Michalski、Marvin Ritter、Irina Higgins 和 Google Brain 团队的其他成员,感谢他们的有益讨论、评论、技术帮助和代码贡献。
|
|