OptFormer:使用 Transformer 实现通用超参数优化

1726205767246.jpg

机器学习中最重要的方面之一是超参数优化,因为为机器学习任务找到合适的超参数可以成就或破坏模型的性能。在内部,我们定期使用Google Vizier作为超参数优化的默认平台。在过去 5 年的部署中,Google Vizier 已被使用超过 1000 万次,涉及广泛的应用程序类别,包括视觉、强化学习和语言领域的机器学习应用程序,以及蛋白质发现和硬件加速等科学应用程序。由于 Google Vizier 能够在其数据库中跟踪使用模式,因此此类数据(通常由称为研究的优化轨迹组成)包含有关实际超参数调整目标的非常有价值的先验信息,因此对于开发更好的算法非常有吸引力。

虽然之前已经有许多针对此类数据进行元学习的方法,但这些方法有一个共同的缺点:它们的元学习过程严重依赖于数值约束,例如超参数的数量及其值范围,因此要求所有任务使用完全相同的总超参数搜索空间(即调整规范)。研究中的其他文本信息(例如其描述和参数名称)也很少使用,但可以包含有关正在优化的任务类型的有意义的信息。对于较大的数据集,这种缺点会变得更加严重,因为较大的数据集通常包含大量此类有意义的信息。

今天在“使用 Transformers 学习通用超参数优化器”中,我们很高兴地介绍 OptFormer ,它是首批基于Transformer的超参数调整框架之一,它使用灵活的基于文本的表示从大规模优化数据中学习。虽然之前已经有大量研究证明了 Transformer 在各个领域的强大能力,但很少有研究触及其基于优化的能力,尤其是在文本空间方面。我们的核心发现首次展示了 Transformers 一些有趣的算法能力:1)单个 Transformer 网络能够在长远内模仿多种算法的高度复杂行为;2)该网络还能够非常准确地预测目标值,在许多情况下超越了高斯过程,而高斯过程常用于贝叶斯优化等算法。

方法:将研究表示为标记

我们的新方法并不像以前那样只使用数值数据,而是利用自然语言中的概念,将所有研究数据表示为一系列标记,包括来自初始元数据的文本信息。在下面的动画中,这包括“ CIFAR10 ”、“学习率”、“优化器类型”和“准确度”,它们会通知 OptFormer 图像分类任务。然后,OptFormer 生成新的超参数来尝试该任务,预测任务准确度,最后收到真实准确度,该准确度将用于生成下一轮的超参数。使用T5X 代码库,OptFormer 以典型的编码器-解码器方式进行训练,使用标准生成预训练,针对广泛的超参数优化目标,包括 Google Vizier 收集的真实世界数据,以及公共超参数(HPO-B)和黑盒优化基准(BBOB)。

OptFormer 可以使用基于 token 的表示形式执行超参数优化编码器-解码器样式。它首先观察基于文本的元数据(在灰色框中),其中包含标题、搜索空间参数名称和要优化的指标等信息,并重复输出参数和目标值预测。

模仿政策

由于 OptFormer 是通过各种算法在优化轨迹上进行训练的,因此它现在可以同时准确地模仿这些算法。通过在指定算法的元数据中提供基于文本的提示(例如“正则化演化”),OptFormer 将模仿该算法的行为。

在未见过的测试函数上,OptFormer 生成与原始算法几乎相同的优化曲线。显示了平均值和标准偏差误差线。

预测目标值

此外,OptFormer 现在可以预测正在优化的目标值(例如准确度)并提供不确定性估计。我们将 OptFormer 的预测与标准高斯过程进行了比较,发现 OptFormer 能够做出更准确的预测。这可以从定性上看出,OptFormer 的校准曲线在拟合优度检验中紧密遵循理想对角线,也可以从定量上看出,通过对数预测密度等标准聚合指标。

左:Rosenblatt 拟合优度。对角线拟合越接近越好。右:对数预测密度。越高越好。

结合两者:基于模型的优化

我们现在可以使用 OptFormer 的函数预测功能来更好地指导我们的模仿策略,类似于贝叶斯优化中的技术。使用Thompson Sampling,我们可以对模仿策略的建议进行排序,并仅根据函数预测器选择最佳建议。这产生了一种增强策略,在优化经典合成基准目标和调整标准 CIFAR-10 训练管道的学习率超参数时,该策略能够超越 Google Vizier 中的行业级贝叶斯优化算法。

左图:经典Rosenbrock函数的最佳优化曲线。右图:通过init2winit在 CIFAR-10 上训练ResNet-50 的超参数的最佳优化曲线。两种情况都使用每条曲线 10 个种子,误差线位于第 25 和第 75 个百分位数。

结论

在这项工作中,我们发现了 Transformer 的一些有用的、以前未知的优化功能。未来,我们希望为通用超参数和黑盒优化接口铺平道路,以使用数值和文本数据来促进复杂搜索空间的优化,并利用 Google 庞大的离线 AutoML 数据集合将 OptFormer 与 Transformer 生态系统的其余部分(例如语言、视觉、代码)集成在一起。

致谢

DeepMind 和 Google Research Brain Team 的以下成员进行了这项研究:Yutian Chen、Xingyou Song、Chansoo Lee、Zi Wang、Qiuyi Zhang、David Dohan、Kazuya Kawakami、Greg Kochanski、Arnaud Doucet、Marc'aurelio Ranzato、Sagi Perel 和 Nando de Freitas。

我们还要感谢 Chris Dyer、Luke Metz、Kevin Murphy、Yannis Assael、Frank Hutter 和 Esteban Real 提供的宝贵反馈,并进一步感谢 Sebastian Pineda Arango、Christof Angermueller 和 Zachary Nado 就基准进行的技术讨论。此外,我们还要感谢 Daniel Golovin、Daiyi Peng、Yingjie Miao、Jack Parker-Holder、Jie Tan、Lucio Dery 和 Aleksandra Faust 的多次有益对话。

最后,我们感谢 Tom Small 为这篇文章设计动画。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论