WeatherBench 2:下一代数据驱动天气模型的基准

U`TRFDRC86%26X00O$XR5$C.png

1950 年,研究人员使用第一台可编程通用计算机ENIAC求解描述天气演变的数学方程式,由此天气预报开启了数字化革命。在此后的 70 多年中,计算能力的不断提升和模型公式的改进使天气预报技术稳步提升:如今 7 天预报的准确度与 2000 年 5 天预报和 1980 年 3 天预报的准确度大致相同。虽然以每十年大约一天的速度提高预报准确度似乎不是什么大事,但每天的改进对于物流规划、灾害管理、农业和能源生产等影响深远的用例都具有重要意义。这场“静悄悄”的革命对社会有着巨大的价值,它拯救了生命,并为许多行业带来了经济价值。

现在,我们正见证天气预报又一场革命的开始,这一次的推动力是机器学习 (ML) 的进步。该技术的想法不是对物理方程进行硬编码近似,而是让算法通过查看大量过去的天气数据来学习天气如何演变。早期的尝试可以追溯到2018 年,但在过去两年中,随着几个大型 ML 模型展示出可与最佳基于物理的模型相媲美的天气预报技能,该技术的步伐大大加快。例如,谷歌的 MetNet [ 1 , 2 ] 展示了提前一天预测区域天气的先进能力。对于全球预测,Google DeepMind 创建了GraphCast,这是一个图神经网络,可以以 25 公里的水平分辨率进行 10 天的预测,在许多技能指标上可与最好的基于物理的模型相媲美。

除了可能提供更准确的预报外,此类 ML 方法的一个关键优势是,一旦经过训练,它们就可以在廉价硬件上在几分钟内创建预报。相比之下,传统的天气预报需要每天运行数小时的大型超级计算机。显然,ML 为天气预报界带来了巨大的机会。领先的天气预报中心也认识到了这一点,例如欧洲中期天气预报中心(ECMWF) 的机器学习路线图或美国国家海洋和大气管理局(NOAA)的人工智能战略。

为了确保 ML 模型值得信赖并针对正确目标进行了优化,预测评估至关重要。然而,评估天气预报并不简单,因为天气是一个非常多面的问题。不同的最终用户对预报的不同属性感兴趣,例如,可再生能源生产商关心风速和太阳辐射,而危机应对小组则关心潜在气旋或即将到来的热浪的轨迹。换句话说,没有单一的指标可以确定什么是“好的”天气预报,评估必须反映天气及其下游应用的多面性。此外,确切的评估设置(例如,使用哪种分辨率和地面真实数据)的差异可能会使比较模型变得困难。有一种以公平和可重复的方式比较新方法和既定方法的方法对于衡量该领域的进展至关重要。

为此,我们宣布推出WeatherBench 2 (WB2),这是下一代数据驱动的全球天气模型的基准。WB2 是对2020 年发布的原始基准的更新,该基准基于初始的低分辨率 ML 模型。WB2 的目标是通过提供一个可信、可重复的框架来评估和比较不同的方法,从而加速数据驱动的天气模型的进展。官方网站包含来自几种最先进模型的分数(在撰写本文时,这些模型是早期的图神经网络Keisler (2022),Google DeepMind 的GraphCast和华为的Pangu-Weather,一种基于 Transformer 的 ML 模型)。此外,还包括来自 ECMWF 高分辨率和集合预报系统的预报,它们代表了一些最好的传统天气预报模型。

让评估更加简单

WB2 的关键组件是一个开源评估框架,它允许用户以与其他基线相同的方式评估他们的预报。高分辨率的天气预报数据可能非常大,即使是评估也是一项计算挑战。为此,我们在Apache Beam上构建了我们的评估代码,它允许用户将计算拆分为更小的块并以分布式方式对其进行评估,例如使用Google Cloud 上的DataFlow。该代码附带一个快速入门指南,以帮助人们快速上手。

此外,我们以不同分辨率的云优化Zarr格式在 Google Cloud Storage 上提供大部分真实数据和基线数据,例如,用于训练大多数 ML 模型的ERA5数据集的完整副本。这是 Google为研究界及其他领域提供可供分析、云优化的天气和气候数据集的更大努力的一部分。由于从各个档案库下载这些数据并进行转换可能非常耗时且计算量大,我们希望这可以大大降低社区的进入门槛。

评估预测能力

我们与ECMWF 的合作者一起定义了一组最能反映全球天气预报质量的总体分数。如下图所示,在确定性指标上,一些基于 ML 的预报的误差低于最先进的物理模型。这适用于一系列变量和地区,并强调了基于 ML 的方法的竞争力和前景。

此记分卡展示了不同模型与 ECMWF 的综合预报系统(IFS)(最好的基于物理的天气预报系统之一)在多个变量方面的技能对比。IFS 预报是根据 IFS 分析进行评估的。所有其他模型均根据 ERA5 进行评估。ML 模型的顺序反映了发布日期。

实现可靠的概率预测

然而,单一的预测往往是不够的。由于蝴蝶效应,天气本质上是混乱的。因此,运营气象中心现在运行约 50 个略微扰动的模型实现,称为集合,以估计各种情景下的预测概率分布。例如,如果你想知道极端天气的可能性,这一点很重要。

创建可靠的概率预报将成为全球 ML 模型的下一个关键挑战之一。区域 ML 模型(例如 Google 的MetNet)已经估算了概率。为了预测下一代全球模型,WB2 已经提供了概率指标和基线,其中包括ECMWF 的 IFS 集成,以加速该方向的研究。

如上所述,天气预报有很多方面,虽然主要指标试图捕捉预报技巧的最重要方面,但它们远远不够。一个例子就是预测的真实性。目前,许多 ML 预测模型倾向于在大气固有不确定性面前“规避风险”。换句话说,它们倾向于预测平滑的场,这些场的平均误差较低,但并不代表大气的真实、物理一致状态。下面的动画中可以看到一个例子。两个数据驱动模型,Pangu-Weather 和 GraphCast(底部),可以很好地预测大气的大规模演变。然而,与地面实况或物理预报模型 IFS HRES(顶部)相比,它们的小尺度结构也较少。在 WB2 中,我们包括了一系列这样的案例研究,以及量化这种模糊的光谱指标。

2020 年 1 月 3 日初始化的穿过美国大陆的锋面预报。地图以等高线显示了 850 hPa气压水平(大约相当于 1.5 公里高度)的温度和500 hPa 气压水平(大约 5.5 公里)的位势。ERA5 是相应的地面实况分析,IFS HRES 是 ECMWF 基于物理的预测模型。

结论

WeatherBench 2 将随着 ML 模型的开发而不断发展。官方网站将更新最新的先进模型。(要提交模型,请按照这些说明操作)。我们还邀请社区通过WB2 GitHub 页面上的问题和拉取请求提供反馈和改进建议。

为了确保 ML 天气模型尽快造福社会,设计良好的评估方案并确定正确的指标至关重要。目前的 WeatherBench 2 只是一个起点。我们计划在未来对其进行扩展,以解决未来基于 ML 的天气预报的关键问题。具体来说,我们希望添加站点观测和更好的降水数据集。此外,我们将探索将即时预报和次季节到季节预测纳入基准。

我们希望,随着天气预报的不断发展,WeatherBench 2 能够为研究人员和最终用户提供帮助。

致谢

WeatherBench 2 是 Google 多个团队与 ECMWF 外部合作者通力合作的成果。ECMWF 的工作人员,我们要感谢 Matthew Chantry、Zied Ben Bouallegue 和 Peter Dueben。Google 的工作人员,我们要感谢该项目的核心贡献者:Stephan Rasp、Stephan Hoyer、Peter Battaglia、Alex Merose、Ian Langmore、Tyler Russell、Alvaro Sanchez、Antonio Lobato、Laurence Chiu、Rob Carver、Vivian Yang、Shreya Agrawal、Thomas Turnbull、Jason Hickey、Carla Bromberg、Jared Sisk、Luke Barrington、Aaron Bell 和 Fei Sha。我们还要感谢 Kunal Shah、Rahul Mahrsee、Aniket Rawat 和 Satish Kumar。感谢 John Anderson 赞助 WeatherBench 2。此外,我们还要感谢盘古天气团队的 Kaifeng Bi 和 Ryan Keisler 帮助将他们的模型添加到 WeatherBench 2。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论