使用机器学习发现神经网络优化器

lixia01 · 发表于 2024-12-12 13:27:22

深度学习模型已部署在众多 Google 产品中，例如搜索、翻译和照片。优化方法的选择在训练深度学习模型时起着重要作用。例如，随机梯度下降在许多情况下效果很好，但更高级的优化器可以更快，尤其是在训练非常深的网络时。然而，由于优化问题的非凸性质，为神经网络设计新的优化器具有挑战性。在Google Brain 团队中，我们想看看是否有可能自动发现新的优化器，其方式类似于使用AutoML
发现新的竞争性神经网络架构。在“使用强化学习的神经优化器搜索”中，我们介绍了一种发现优化方法的方法，重点是深度学习架构。使用这种方法，我们发现了两个新的优化器PowerSign和AddSign，它们在各种不同的任务和架构上都具有竞争力，包括ImageNet分类和 Google 的神经机器翻译系统。为了帮助其他人从这项工作中受益，我们在Tensorflow中提供了优化器。
神经优化器搜索利用循环神经网络控制器，该控制器可以访问通常与优化相关的简单基元列表。这些基元包括梯度或梯度的移动平均值，并导致具有超过 10 10 个可能组合的搜索空间。然后，控制器为该搜索空间中的候选优化器或更新规则生成计算图。
在我们的论文中，提出的候选更新规则 (U) 用于在CIFAR10上训练子卷积神经网络几个时期，最终验证准确率 (R) 作为奖励提供给控制器。控制器通过强化学习进行训练，以最大限度地提高采样更新规则的验证准确率。此过程如下所示。
神经优化器搜索概述使用迭代过程来发现新的优化器。
有趣的是，我们发现的优化器是可解释的。例如，在我们发布的PowerSign优化器中，每次更新都会比较梯度的符号及其运行平均值，并根据这两个值是否一致来调整步长。这背后的直觉是，如果这些值一致，则对更新的方向更有信心，因此步长可以更大。我们还发现了一种简单的学习率衰减方案，即线性余弦衰减，我们发现它可以加快收敛速度。
图表比较了线性余弦衰减、逐步衰减和余弦衰减的学习率衰减函数。
神经优化器搜索发现了几种在小型ConvNet模型上表现优于常用优化器的优化器。在那些可以很好地迁移到其他任务的优化器中，我们发现PowerSign和AddSign将最先进的 ImageNet 移动大小模型的 top-1 和 top-5 准确率提高了 0.4%。它们在 Google 的神经机器翻译系统上也运行良好，在英语到德语的翻译任务中使用双语评估指标 ( BLEU )将准确率提高了 0.7 。
我们很高兴神经优化器搜索不仅可以提高机器学习模型的性能，而且还可能带来新的可解释方程和发现。我们希望在 Tensorflow 中开源这些优化器将对机器学习从业者有所帮助。

		自动登录	找回密码
密码			立即注册