KaggleDays 上针对表格数据的端到端 AutoML 解决方案

lixia01 · 发表于昨天 17:06

针对表格数据（例如电子表格数据）的机器学习 (ML) 是 ML 研究和商业应用中最活跃的研究领域之一。表格数据问题的解决方案（例如欺诈检测和库存预测）对于许多商业部门都至关重要，包括零售、供应链、金融、制造、营销等。当前基于 ML 的这些问题解决方案可以由具有大量 ML 专业知识的人实现，包括手动特征工程和超参数调整，以创建良好的模型。然而，这些技能的缺乏广泛可用性限制了通过 ML 进行业务改进的效率。Google
的 AutoML 工作旨在使 ML 更具可扩展性，并加速研究和行业应用。我们最初的神经架构搜索努力已经通过NasNet实现了计算机视觉的突破，而AmoebaNet和硬件感知移动视觉架构MNasNet等进化方法进一步展示了这些学习学习方法的好处。最近，我们将基于学习的方法应用于表格数据，创建了一个可扩展的端到端 AutoML 解决方案，该解决方案满足三个关键标准：
完全自动化：数据和计算资源是唯一的输入，而可服务的 TensorFlow 模型是输出。整个过程无需人工干预。
覆盖范围广泛：该解决方案适用于表格数据领域的大多数任意任务。
高质量： AutoML 生成的模型与顶级 ML 专家手工制作的模型具有可比性。
为了对我们的解决方案进行基准测试，我们将我们的算法提交到了KaggleDays SF Hackathon ，这是KaggleDays 活动的一部分，为期 8.5 小时，有 74 支队伍参加，每支队伍最多 3 名成员。这是 AutoML 首次与 Kaggle 参与者竞争，比赛内容是根据汽车零部件批次的材料特性和测试结果信息预测制造缺陷。尽管与Kaggle 进阶系统大师级别的参与者竞争，其中包括许多特级大师级别的参与者，但我们的团队（“Google AutoML”）在当天的大部分时间里都处于领先地位，最终以微弱优势获得第二名，如最后的排行榜所示。
我们团队的 AutoML 解决方案是一个多阶段 TensorFlow 流水线。第一阶段负责自动特征工程、架构搜索和通过搜索进行超参数调整。第一阶段中很有希望的模型被输入到第二阶段，在第二阶段应用交叉验证和引导聚合以进行更好的模型选择。然后将第二阶段中最好的模型组合到最终模型中。
“Google AutoML”团队的工作流程与其他 Kaggle 竞争对手截然不同。当他们忙于分析数据和试验各种特征工程想法时，我们的团队大部分时间都在监控作业并等待它们完成。我们在最终排行榜上获得第二名的解决方案需要在 2500 个 CPU 上花 1 小时才能完成端到端。
比赛结束后，Kaggle 发布了公共内核来调查获胜的解决方案，并发现使用 AutoML 模型（例如我们的模型）增强顶级手工设计的模型可能是 ML 专家创建性能更好的系统的有效方法。如下图所示，AutoML 有潜力增强人类开发人员的努力并解决广泛的 ML 问题。
Google Cloud AutoML Tables
我们在比赛中展示的解决方案是Google Cloud AutoML Tables中的主要算法，该算法最近在Google Cloud Next '19上推出（测试版）。AutoML Tables 实现在针对 Kaggle 竞赛的基准测试中经常表现良好，如下图所示，展示了整个行业最先进的性能。
我们很高兴看到 AutoML 方法在广泛的实际业务问题中具有潜在的应用前景。客户已经利用他们的表格企业数据，使用 AutoML Tables 解决供应链管理和潜在客户转化优化等关键任务，我们也很高兴能够提供我们最先进的模型来解决表格数据问题。
致谢
这个项目之所以能够成功，要感谢 Google Brain 团队成员 Ming Chen、Da Huang、Yifeng Lu、Quoc V. Le 和 Vishy Tirumalashetty。我们还要感谢 Cloud AutoML Tables 团队的 Dawei Jia、Chenyu Zhao 和 Tin-yun Ho，感谢他们为基础设施和产品落地提供的出色协作。感谢 Walter Reade、Julia Elliott 和 Kaggle 组织如此精彩的比赛。

		自动登录	找回密码
密码			立即注册