使用 AutoML 进行时间序列预测

时间序列预测是机器学习 (ML) 的一个重要研究领域,特别是在准确预测至关重要的领域,包括零售、供应链、能源、金融等多个行业。例如,在消费品领域,将需求预测的准确率提高 10-20% 可以减少库存 5% 并增加收入 2-3%。当前基于 ML 的预测解决方案通常由专家构建,需要大量的手动工作,包括模型构建、特征工程和超参数调整。然而,这种专业知识可能并不广泛可用,这可能会限制将 ML 应用于时间序列预测挑战的好处。

为了解决这一问题,自动化机器学习(AutoML) 是一种通过自动化创建 ML 模型的过程使 ML 更广泛普及的方法,并且最近加速了 ML 研究和 ML 在实际问题中的应用。例如,神经架构搜索方面的初步工作推动了计算机视觉领域的突破,例如NasNet、AmoebaNet和EfficientNet,以及自然语言处理领域的突破,例如Evolved Transformer。最近,AutoML 还被应用于表格数据。

今天,我们推出了一种用于时间序列预测的可扩展端到端 AutoML 解决方案,它满足三个关键标准:

完全自动化:该解决方案将数据作为输入,并生成可用的TensorFlow模型作为输出,无需人工干预。

通用:该解决方案适用于大多数时间序列预测任务,并自动为每个任务搜索最佳模型配置。

高品质:与为特定任务手工制作的模型相比,所生产的模型具有竞争力的质量。

我们通过参与M5 预测竞赛 证明了该方法的成功,在该竞赛中,该 AutoML 解决方案以中等计算成本与手工制作的模型取得了具有竞争力的性能。

时间序列预测中的挑战

时间序列预测给机器学习模型带来了一些挑战。首先,由于目标是根据历史数据预测未来,因此不确定性通常很高。与其他机器学习问题不同,测试集(例如未来产品销售)可能与从历史数据中提取的训练集和验证集具有不同的分布。其次,来自现实世界的时间序列数据通常存在数据缺失和高间歇性(即,当时间序列的大部分值为零时)。某些时间序列任务可能没有可用的历史数据,并且会遭受冷启动问题,例如在预测新产品的销售时。第三,由于我们的目标是构建一个完全自动化的通用解决方案,因此需要将相同的解决方案应用于各种数据集,这些数据集在领域(产品销售、网络流量等)、粒度(每日、每小时等)、历史长度、特征类型(分类、数字、日期时间等)等方面可能存在很大差异。

AutoML 解决方案

为了应对这些挑战,我们设计了一个端到端的 TensorFlow 管道,其中包含一个专门用于时间序列预测的搜索空间。它基于编码器-解码器架构,其中编码器将时间序列中的历史信息转换为一组向量,解码器根据这些向量生成未来预测。受到Transformer和WaveNet等最先进的序列模型以及时间序列预测的最佳实践的启发,我们的搜索空间包括注意力、扩张卷积、门控、跳过连接和不同的特征转换等组件。最终的 AutoML 解决方案会搜索这些组件以及核心超参数的最佳组合。

为了应对预测时间序列未来的不确定性,我们使用搜索中发现的顶级模型集合进行最终预测。顶级模型的多样性使预测对不确定性更具鲁棒性,并且不易过度拟合历史数据。为了处理缺失数据的时间序列,我们用可训练向量填补空白,让模型学习适应缺失的时间步骤。为了解决间歇性问题,我们不仅预测每个未来时间步骤的值,还预测此时间步骤的值非零的概率,并将这两个预测结合起来。最后,我们发现自动搜索能够针对不同的数据集调整架构和超参数选择,这使得 AutoML 解决方案具有通用性并自动化了建模工作。

1729583807731.jpg

预测竞赛中的基准测试

为了对我们的 AutoML 解决方案进行基准测试,我们参加了M5 预测竞赛,这是M 系列竞赛中的最新一届,也是预测界最重要的竞赛之一,历史长达近 40 年。最近一次的竞赛在 Kaggle 上举办,使用了沃尔玛产品销售的数据集,其真实性使得问题颇具挑战性。

我们以完全自动化的解决方案参加了比赛,并在最终排行榜上获得了 5558 名参赛者中的第 138 名(前 2.5%) ,位于银牌区。比赛参与者有近四个月的时间来制作他们的模型。虽然许多竞争性预测模型需要数月的手动工作才能创建,但我们的 AutoML 解决方案在短时间内找到了模型,并且仅需中等计算成本(500 个 CPU 持续 2 小时),并且无需人工干预。

我们还在其他几个 Kaggle 数据集上对我们的 AutoML 预测解决方案进行了基准测试,发现尽管资源使用有限,但其平均表现优于 92% 的手工制作模型。

1729583792054.jpg

除了 M5 之外,还对其他 Kaggle 数据集( Rossman Store Sales、Web Traffic、Favorita Grocery Sales )上的 AutoML Forecasting 解决方案进行评估。

这项工作证明了端到端 AutoML 解决方案在时间序列预测方面的实力,我们对其对实际应用的潜在影响感到兴奋。

致谢

该项目是 Google Brain 团队成员 Chen Liang、Da Huang、Yifeng Lu 和 Quoc V. Le 共同努力的成果。我们还要感谢 Junwei Yuan、Xingwei Yang、Dawei Jia、Chenyu Zhao、Tin-yun Ho、Meng Wang、Yaguang Li、Nicolas Loeff、Manish Kurse、Kyle Anderson 和 Nishant Patil 的合作。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论