OptFormer：使用 Transformer 实现通用超参数优化_商业应用

机器学习中最重要的方面之一是超参数优化，因为为机器学习任务找到合适的超参数可以成就或破坏模型的性能。在内部，我们定期使用Google Vizier作为超参数优化的默认平台。在过去 5 年的部署中，Google Vizier 已被使用超过 1000 万次，涉及广泛的应用程序类别，包括视觉、强化学习和语言领域的机器学习应用程序，以及蛋白质发现和硬件加速等科学应用程序。由于 Google Vizier 能够在其数据库中跟踪使用模式，因此此类数据（通常由称为研究的优化轨迹组成）包含有关实际超参数调整目标的非常有价值的先验信息，因此对于开发更好的算法非常有吸引力。

虽然之前已经有许多针对此类数据进行元学习的方法，但这些方法有一个共同的缺点：它们的元学习过程严重依赖于数值约束，例如超参数的数量及其值范围，因此要求所有任务使用完全相同的总超参数搜索空间（即调整规范）。研究中的其他文本信息（例如其描述和参数名称）也很少使用，但可以包含有关正在优化的任务类型的有意义的信息。对于较大的数据集，这种缺点会变得更加严重，因为较大的数据集通常包含大量此类有意义的信息。

今天在“使用 Transformers 学习通用超参数优化器”中，我们很高兴地介绍 OptFormer ，它是首批基于Transformer的超参数调整框架之一，它使用灵活的基于文本的表示从大规模优化数据中学习。虽然之前已经有大量研究证明了 Transformer 在各个领域的强大能力，但很少有研究触及其基于优化的能力，尤其是在文本空间方面。我们的核心发现首次展示了 Transformers 一些有趣的算法能力：1）单个 Transformer 网络能够在长远内模仿多种算法的高度复杂行为；2）该网络还能够非常准确地预测目标值，在许多情况下超越了高斯过程，而高斯过程常用于贝叶斯优化等算法。

方法：将研究表示为标记

我们的新方法并不像以前那样只使用数值数据，而是利用自然语言中的概念，将所有研究数据表示为一系列标记，包括来自初始元数据的文本信息。在下面的动画中，这包括“ CIFAR10 ”、“学习率”、“优化器类型”和“准确度”，它们会通知 OptFormer 图像分类任务。然后，OptFormer 生成新的超参数来尝试该任务，预测任务准确度，最后收到真实准确度，该准确度将用于生成下一轮的超参数。使用T5X 代码库，OptFormer 以典型的编码器-解码器方式进行训练，使用标准生成预训练，针对广泛的超参数优化目标，包括 Google Vizier 收集的真实世界数据，以及公共超参数（HPO-B）和黑盒优化基准（BBOB）。

OptFormer 可以使用基于 token 的表示形式执行超参数优化编码器-解码器样式。它首先观察基于文本的元数据（在灰色框中），其中包含标题、搜索空间参数名称和要优化的指标等信息，并重复输出参数和目标值预测。

模仿政策

由于 OptFormer 是通过各种算法在优化轨迹上进行训练的，因此它现在可以同时准确地模仿这些算法。通过在指定算法的元数据中提供基于文本的提示（例如“正则化演化”），OptFormer 将模仿该算法的行为。

在未见过的测试函数上，OptFormer 生成与原始算法几乎相同的优化曲线。显示了平均值和标准偏差误差线。

预测目标值

此外，OptFormer 现在可以预测正在优化的目标值（例如准确度）并提供不确定性估计。我们将 OptFormer 的预测与标准高斯过程进行了比较，发现 OptFormer 能够做出更准确的预测。这可以从定性上看出，OptFormer 的校准曲线在拟合优度检验中紧密遵循理想对角线，也可以从定量上看出，通过对数预测密度等标准聚合指标。

左：Rosenblatt 拟合优度。对角线拟合越接近越好。右：对数预测密度。越高越好。

结合两者：基于模型的优化

我们现在可以使用 OptFormer 的函数预测功能来更好地指导我们的模仿策略，类似于贝叶斯优化中的技术。使用Thompson Sampling，我们可以对模仿策略的建议进行排序，并仅根据函数预测器选择最佳建议。这产生了一种增强策略，在优化经典合成基准目标和调整标准 CIFAR-10 训练管道的学习率超参数时，该策略能够超越 Google Vizier 中的行业级贝叶斯优化算法。

左图：经典Rosenbrock函数的最佳优化曲线。右图：通过init2winit在 CIFAR-10 上训练ResNet-50 的超参数的最佳优化曲线。两种情况都使用每条曲线 10 个种子，误差线位于第 25 和第 75 个百分位数。

结论

在这项工作中，我们发现了 Transformer 的一些有用的、以前未知的优化功能。未来，我们希望为通用超参数和黑盒优化接口铺平道路，以使用数值和文本数据来促进复杂搜索空间的优化，并利用 Google 庞大的离线 AutoML 数据集合将 OptFormer 与 Transformer 生态系统的其余部分（例如语言、视觉、代码）集成在一起。

致谢

DeepMind 和 Google Research Brain Team 的以下成员进行了这项研究：Yutian Chen、Xingyou Song、Chansoo Lee、Zi Wang、Qiuyi Zhang、David Dohan、Kazuya Kawakami、Greg Kochanski、Arnaud Doucet、Marc'aurelio Ranzato、Sagi Perel 和 Nando de Freitas。

我们还要感谢 Chris Dyer、Luke Metz、Kevin Murphy、Yannis Assael、Frank Hutter 和 Esteban Real 提供的宝贵反馈，并进一步感谢 Sebastian Pineda Arango、Christof Angermueller 和 Zachary Nado 就基准进行的技术讨论。此外，我们还要感谢 Daniel Golovin、Daiyi Peng、Yingjie Miao、Jack Parker-Holder、Jie Tan、Lucio Dery 和 Aleksandra Faust 的多次有益对话。

最后，我们感谢 Tom Small 为这篇文章设计动画。

OptFormer：使用 Transformer 实现通用超参数优化

版权声明

相关推荐

评论