神经网络相似性如何帮助我们理解训练和泛化？

lixia01 · 发表于 2024-12-12 00:13:50

为了解决任务，深度神经网络 (DNN) 逐步将输入数据转换为一系列复杂的表示（即各个神经元的激活模式）。理解这些表示至关重要，不仅是为了可解释性，而且是为了让我们能够更智能地设计机器学习系统。然而，理解这些表示已被证明是相当困难的，特别是在比较跨网络的表示时。在之前的一篇文章中，我们概述了典型相关分析(CCA) 作为理解和比较卷积神经网络(CNN) 表示的工具的优势，表明它们以自下而上的模式收敛，在训练过程中，早期层先收敛到最终表示，然后是后期层。
在“具有典型相关的神经网络表征相似性的见解”中，我们进一步发展了这项工作，以提供对 CNN 表征相似性的新见解，包括记忆网络（例如，只能对之前见过的图像进行分类的网络）与泛化网络（例如，可以正确分类以前未见过的图像的网络）之间的差异。重要的是，我们还扩展了这种方法，以提供对循环神经网络(RNN) 动态的见解，RNN 是一类特别适用于序列数据（例如语言）的模型。比较 RNN 在许多方面与比较 CNN 一样困难，但 RNN 提出了额外的挑战，即它们的表征会随着序列的变化而变化。这使得 CCA 及其有用的不变性成为研究 RNN 和 CNN 的理想工具。因此，我们还开源了用于在神经网络上应用 CCA 的代码，希望这将有助于研究界更好地理解网络动态。
记忆和泛化 CNN 的表征相似性
归根结底，机器学习系统只有能够泛化到从未见过的新情况时才有用。因此，了解区分泛化网络和不泛化网络的因素至关重要，并且可能带来提高泛化性能的新方法。为了研究表征相似性是否可预测泛化，我们研究了两种类型的 CNN：
泛化网络：CNN 使用未修改的、准确的标签数据进行训练，并学习可泛化至新数据的解决方案。
记忆网络：CNN 在具有随机标签的数据集上进行训练，因此它们必须记住训练数据，并且根据定义不能进行泛化
我们训练了每个网络的多个实例，仅在网络权重的初始随机值和训练数据的顺序上有所不同，并使用了一种新的加权方法计算 CCA 距离度量（有关详细信息，请参阅我们的论文），以比较每组网络内以及记忆网络和泛化网络之间的表示。我们发现，与记忆网络组相比，不同
也许最令人惊讶的是，在后面的隐藏层中，任何给定的一对记忆网络之间的表征距离与记忆网络和泛化网络之间的表征距离（上图中的“Inter”）大致相同，尽管这些网络是在具有完全不同标签的数据上训练的。直观地说，这个结果表明，虽然有很多不同的方法来记忆训练数据（导致更大的 CCA 距离），但学习可泛化解决方案的方法却较少。在未来的工作中，我们计划探索是否可以使用这种见解来规范网络以学习更可泛化的解决方案。
了解循环神经网络的训练动态
我们论文中的其他发现表明，与窄带网络相比，更宽的网络（例如，每层具有更多神经元的网络）会收敛到更相似的解决方案。我们还发现，具有相同结构但不同学习率的训练网络会收敛到具有相似性能但高度不同的表示的不同聚类。我们还将 CCA 应用于单个序列过程中的 RNN 动态，而不仅仅是在训练过程中，从而对影响 RNN 表示的各种因素提供了一些初步见解。
结论
这些发现加强了分析和比较 DNN 表示的实用性，以便深入了解网络功能、泛化和收敛。然而，仍有许多悬而未决的问题：在未来的工作中，我们希望发现表示的哪些方面在网络中是保守的，无论是在 CNN 还是 RNN 中，以及这些见解是否可用于提高网络性能。我们鼓励其他人尝试本文使用的代码，以研究 CCA 可以告诉我们有关其他神经网络的哪些信息！
致谢
特别感谢 Samy Bengio，他是这项工作的合著者。我们还感谢 Martin Wattenberg、Jascha Sohl-Dickstein 和 Jon Kleinberg 提供的有益评论。

		自动登录	找回密码
密码			立即注册