AdaNet 简介：具有学习保证的快速灵活 AutoML

lixia01 · 发表于 2024-12-5 09:13:10

集成学习是将不同的机器学习 (ML) 模型预测组合在一起的艺术，它广泛用于神经网络以实现最先进的性能，得益于丰富的历史和理论保证，它能够在Netflix 奖和各种Kaggle 竞赛等挑战中取得成功。然而，由于训练时间长，它们在实践中并不常用，而且 ML 模型候选选择需要自己的领域专业知识。但随着计算能力和 TPU 等专用深度学习硬件变得越来越容易获得，机器学习模型将变得更大，集成将变得更加突出。现在，想象一个工具，它可以自动搜索神经架构，并学习将最好的架构组合成一个高质量的模型。今天
，我们很高兴与大家分享AdaNet ，这是一个基于TensorFlow的轻量级框架，可以在最少专家干预的情况下自动学习高质量的模型。AdaNet 以我们最近的强化学习和基于进化的 AutoML 努力为基础，在提供学习保证的同时快速灵活。重要的是，AdaNet 提供了一个通用框架，不仅可以用于学习神经网络架构，还可以用于学习集成以获得更好的模型。AdaNet
易于使用，可以创建高质量的模型，为机器学习从业者节省通常用于选择最佳神经网络架构的时间，实现一种自适应算法，用于将神经架构作为子网络的集成进行学习。AdaNet 能够添加不同深度和宽度的子网络以创建多样化的集成，并通过参数数量来权衡性能改进。
快速且易于使用
AdaNet 实现了TensorFlow Estimator接口，通过封装训练、评估、预测和导出以供服务，大大简化了机器学习编程。它与TensorFlow Hub 模块、TensorFlow 模型分析和Google Cloud 的超参数调谐器等开源工具集成。分布式训练支持显著缩短了训练时间，并可随可用的 CPU 和加速器（例如 GPU）线性扩展。
由于TensorBoard是 TensorFlow 在训练期间可视化模型指标的最佳功能之一，AdaNet 可以与其无缝集成，以监控子网训练、集成组成和性能。当 AdaNet 完成训练后，它会导出一个可以使用TensorFlow Serving部署的 SavedModel 。
学习保证
构建神经网络集成有几个挑战：要考虑的最佳子网架构是什么？最好重用相同的架构还是鼓励多样性？虽然具有更多参数的复杂子网往往在训练集上表现更好，但由于其复杂性更高，它们可能无法推广到看不见的数据。这些挑战源于评估模型性能。我们可以在从训练集中分离出来的保留集上评估性能，但这样做会减少可用于训练神经网络的示例数量。
相反，AdaNet 的方法（在ICML 2017的“ AdaNet：人工神经网络的自适应结构学习”中提出）是优化一个目标，以平衡集成在训练集上的表现与其推广到未知数据的能力之间的权衡。直觉是，只有当它改善集成的训练损失大于影响其推广能力时，集成才会包含候选子网。这保证了：
集成的泛化误差受其训练误差和复杂性的限制。
通过优化这个目标，我们直接最小化了这个界限。
优化此目标的一个实际好处是，它消除了使用保留集来选择要添加到集成中的候选子网的需要。这还有一个额外的好处，就是可以使用更多的训练数据来训练子网。要了解更多信息，请浏览有关 AdaNet 目标的教程。
可扩展
我们相信，制作一个用于研究和生产的有用的 AutoML 框架的关键不仅在于提供合理的默认值，还在于允许用户尝试自己的子网/模型定义。因此，机器学习研究人员、从业者和爱好者可以使用tf.layers等高级 TensorFlow API定义自己的 AdaNet adanet.subnetwork.Builder。已经在其系统中集成了 TensorFlow 模型的用户可以轻松地将他们的 TensorFlow 代码转换为 AdaNet 子网，并使用adanet.Estimator来提高模型性能，同时获得学习保证。AdaNet 将探索他们定义的候选子网搜索空间并学习集成子网。例如，我们采用了NASNet-A CIFAR 架构的开源实现，将其转换为子网络，并在八次 AdaNet 迭代后改进了 CIFAR-10 的最新结果。此外，我们的模型使用更少的参数实现了这一结果：
类来完全定义要探索的候选子网的搜索空间。这允许他们根据可用的硬件增加或减少搜索空间。子网的搜索空间可以很简单，例如使用不同的随机种子复制相同的子网配置，使用不同的超参数组合训练数十个子网，然后让 AdaNet 选择要包含在最终集合中的子网。如果您有兴趣亲自尝试 AdaNet，请查看我们的Github 存储库，并浏览教程笔记本。我们提供了一些使用密集层和卷积的工作示例来帮助您入门。AdaNet 是一个正在进行的研究项目，我们欢迎您做出贡献。我们很高兴看到 AdaNet 如何帮助研究界。致谢这个项目的成功离不开核心团队成员的努力，包括 Corinna Cortes、Mehryar Mohri、Xavi Gonzalvo、Charles Weill、Vitaly Kuznetsov、Scott Yak 和 Hanna Mazzawi。我们还要特别感谢我们的合作者、常驻人员和实习生 Gus Kristiansen、Galen Chuang、Ghassen Jerfel、Vladimir Macko、Ben Adlam、Scott Yang 以及 Google 的许多其他人，他们帮助我们进行了测试。

		自动登录	找回密码
密码			立即注册