谷歌人工智能普林斯顿：当前和未来的研究

lixia01 · 发表于 2024-12-3 21:50:47

长期以来，Google 一直与学术界合作推动研究，与世界各地的大学合作开展联合研究项目，推动计算机科学、工程学和相关领域的全新发展。今天，我们宣布最新的学术合作伙伴关系，即在普林斯顿大学历史悠久的 Nassau Hall 对面建立新实验室，该实验室将于明年初开放。通过与普林斯顿大学的教职员工和学生建立更紧密的合作，该实验室旨在拓宽机器学习多个方面的研究，初期研究重点是大规模机器学习的优化方法、控制理论和强化学习。下面我们将简要概述迄今为止的研究进展。
大规模优化
想象一下，你去爬山，水用完了。你需要去湖边。怎样才能最有效地到达那里？这就是优化路线的问题，其数学类比是梯度下降法。因此，你沿着下降最陡的方向移动，直到在路的尽头找到最近的湖泊。用优化的语言来说，湖泊的位置被称为（局部）最小值。梯度下降的轨迹类似于下图所示的路径，一位口渴但又充满热情的徒步旅行者会选择这条路径，以尽快到达湖边。
梯度下降 (GD) 及其随机版本随机梯度下降(SGD) 是优化神经网络权重的首选方法。将所有参数堆叠在一起，我们形成一组组织成向量的单元。让我们从简单的角度来看，假设我们的神经网络只有 5 个不同的参数。采取梯度下降步骤相当于从当前参数集 (蓝色) 中减去梯度向量 (红色)，并将结果放回参数向量中。
回到我们那位狂热的徒步旅行者，假设她发现了一条又长又窄的未标记路径，向下看时能见度有限。如果她按照下降方法，她的路径将呈之字形下山，如下图左侧所示。但是，现在她可以利用地形的倾斜几何形状来加快进度。也就是说，她可以向前跳跃而不是向侧面跳跃。在梯度下降的背景下，加快步伐被称为加速。一种流行的加速方法称为自适应正则化或自适应预处理，最早由AdaGrad算法引入，该算法是与斯坦福大学的 John Duchi 教授在谷歌工作时合作设计的。
这个想法是改变优化目标地形的几何形状，使梯度下降更容易发挥作用。为了做到这一点，预处理方法会拉伸和旋转空间。预处理后的地形看起来像右上方宁静的完美球形湖泊，下降轨迹是一条直线！从程序上讲，自适应预处理不是从参数向量本身中减去梯度向量，而是首先将梯度乘以 5×5 多单元结构，称为矩阵预处理器，如下所示。
此预处理操作会产生拉伸和旋转的梯度，然后像之前一样将其减去，从而可以更快地接近盆地。然而，预处理也有一个缺点，那就是计算成本。预处理变换本身需要 5×5=25 次运算，而不是从 5 维参数向量中减去 5 维梯度向量。假设我们想预处理梯度以学习具有 1000 万个参数的深度网络。单个预处理步骤需要 100 万亿次操作。为了节省计算量，在原始AdaGrad论文中还引入了一种对角线版本，其中预处理相当于拉伸而不旋转。对角线版本后来被采用和修改，产生了另一个非常成功的算法，称为Adam。
这种简化的对角线预处理只会给梯度下降带来很小的额外成本。然而，过度简单化也有其自身的缺点：我们无法再旋转我们的空间。回到我们的徒步旅行者，如果深而窄的峡谷从东南延伸到西北，她就不能再向西大步前进了。如果我们给她一个“装配好的”指南针，北极在西北，她就可以像以前一样按照下降程序下降。在高维度中，指南针装配的类似物是全矩阵预处理。因此，我们问自己是否可以设计一种计算效率高，同时允许等效坐标旋转的预处理方法。
在 Google AI Princeton，我们开发了一种新的全矩阵自适应预处理方法，其计算成本与常用的对角线限制大致相同。详细信息可以在论文中找到，但该方法背后的关键思想如下所示。我们不使用全矩阵，而是用三个矩阵的乘积代替预处理矩阵：一个高而瘦的矩阵、一个（小）方阵和一个矮而胖的矩阵。使用较小的矩阵执行大量计算。如果我们有d 个参数，而不是单个大的d × d矩阵，那么由所提出的方法 GGT（操作Gradient Gradient T的简写）维护的矩阵大小分别为 d × k、k × k、k × d。
对于k 的合理选择（可以将其视为算法的“窗口大小”），计算瓶颈已从单个大矩阵减轻到小得多的kk矩阵。在我们的实现中，我们通常选择k为 50，并且维护较小的方阵的成本要低得多，同时获得良好的经验性能。与标准深度学习任务上的其他自适应方法相比，GGT 与 AdaGrad 和 Adam 具有竞争力。
用于控制和强化学习的谱滤波
Google 在普林斯顿的研究小组的另一项广泛任务是开发决策系统的原则性构建块。特别是，该小组努力利用在线学习领域的可证明保证，该领域研究决策算法在不确定情况下的稳健（最坏情况）保证。如果在线算法学会做出决策以及事后看来最好的“离线”决策，则据说它获得了无悔保证。该领域的思想已经推动了理论计算机科学领域的许多创新，并提供了一个数学上优雅的框架来研究一种广泛使用的称为增强的技术。我们设想利用在线学习的思想来拓宽现代强化学习的工具包。
为了实现这一目标，我们与普林斯顿大学的研究人员和学生合作，开发了用于估计和控制线性动力系统的谱滤波算法技术（参见最近的几篇出版物）。在这种情况下，噪声观测（例如位置传感器测量值）从未知来源流式传输。信号源是一个系统，其状态遵循一组线性方程（例如牛顿定律）随时间演变。为了预测未来信号（预测）或执行使系统达到期望状态的操作（控制），通常的方法是从明确学习模型（称为系统识别的任务）开始，这通常很慢并且不准确。谱滤波通过将预测和控制重新表述为凸程序，避免了明确建模动态的需要，从而实现了可证明的无悔保证。该技术的主要组成部分是新的信号处理转换。其理念是通过与一组定制的滤波器进行卷积来总结过去输入信号的长期历史，然后使用这种表示来预测动态系统的未来输出。每个滤波器通过对先前的输入进行加权组合，将输入信号压缩为单个实数。
这些权重（过滤器）的数学推导与汉克尔矩阵的谱理论有着有趣的联系。
展望未来
我们对与普林斯顿大学教职员工和学生合作迄今取得的进展感到兴奋，我们期待未来几周实验室的正式开放。谷歌一直认为，开放的研究文化将使行业和学术界受益匪浅，我们期待继续密切合作。
致谢
如果没有以下研究人员的贡献，本文讨论的研究和结果就不可能实现：Naman Agarwal、Brian Bullins、Xinyi Chen、Udaya Ghai、Tomer Koren、Karan Singh、Cyril Zhang、Yi Zhang 和客座教授 Sham Kakade。自今年早些时候加入谷歌以来，研究团队一直在谷歌纽约办公室和普林斯顿大学校园远程工作，他们期待在未来几周搬进普林斯顿校园对面的新谷歌空间。

		自动登录	找回密码
密码			立即注册