生成式人工智能量化天气预报的不确定性

我们推出了 SEEDS,这是一种新的 AI 技术,它使用扩散模型来加速和改进天气预报。SEEDS 可以显著降低生成集合预报的计算成本,并更好地描述罕见或极端天气事件。

准确的天气预报会对人们的生活产生直接影响,从帮助做出日常决策(例如为一天的活动打包什么)到告知紧急行动(例如在恶劣天气条件下保护人们)。随着气候变化,准确及时的天气预报的重要性只会增加。认识到这一点,我们谷歌一直在投资天气和气候研究,以帮助确保未来的预报技术能够满足对可靠天气信息的需求。我们最近的一些创新包括MetNet-3,谷歌的高分辨率预报可达未来 24 小时,以及GraphCast,一种可以预测未来 10 天天气的天气模型。

天气本质上是随机的。为了量化不确定性,传统方法依靠基于物理的模拟来生成一组预报。然而,生成大量预报以便准确辨别和描述罕见和极端天气事件需要耗费大量计算资源。

考虑到这一点,我们很高兴地宣布我们的最新创新,旨在加速天气预报的进展,可扩展集合包络扩散采样器(SEEDS),最近发表在《科学进展》上。SEEDS 是一种生成式人工智能模型,可以高效地生成大规模天气预报集合,而成本仅为传统基于物理的预报模型的一小部分。这项技术为天气和气候科学开辟了新的机会,它代表了概率扩散模型在天气和气候预报中的首批应用之一,概率扩散模型是媒体生成最新进展背后的一种生成式人工智能技术。

概率预测的必要性:蝴蝶效应

1972 年 12 月,在华盛顿特区举行的美国科学促进会会议上,麻省理工学院气象学教授Ed Lorenz发表了题为“巴西蝴蝶扇动翅膀会引发德克萨斯州龙卷风吗?”的演讲,该演讲促成了“蝴蝶效应”一词的出现。他以 1963 年的里程碑式论文为基础,在该论文中,他研究了“超长期天气预报”的可行性,并描述了初始条件中的误差在与数值天气预报模型结合时如何呈指数增长。这种指数级的误差增长被称为混沌,它导致了确定性的可预测性极限,限制了单个预报在决策中的使用,因为它们没有量化天气条件固有的不确定性。在预报飓风、热浪或洪水等极端天气事件时,这尤其成问题。

认识到确定性预报的局限性,世界各地的气象机构都发布了概率预报。此类预报基于确定性预报的集合,每个集合都是通过在初始条件中包含合成噪声和物理过程的随机性而生成的。利用天气模型中快速的误差增长率,集合中的预报故意有所不同:调整初始不确定性以生成尽可能不同的运行,并且天气模型中的随机过程在模型运行期间引入额外的差异。通过对集合中的所有预报取平均值来减轻误差增长,预报集合中的可变性量化了天气条件的不确定性。

虽然生成这些概率预报很有效,但计算成本很高。它们需要在大型超级计算机上多次运行高度复杂的数值天气模型。因此,许多实际天气预报只能负担得起每个预报周期生成约 10-50 个集合成员的费用。对于关注罕见但影响巨大的天气事件发生可能性的用户来说,这是一个问题,这些事件通常需要更大的集合来评估几天后的情况。例如,需要 10,000 个成员的集合来预测发生概率为 1% 的事件的可能性,相对误差小于 10%。量化此类极端事件的概率可能很有用,例如,对于应急管理准备或能源交易商来说。

SEEDS:人工智能推动的进步

在上述论文中,我们介绍了可扩展集合包络扩散采样器 (SEEDS),这是一种用于天气预报集合生成的生成式 AI 技术。SEEDS 基于去噪扩散概率模型,这是一种最先进的生成式 AI 方法,部分由 Google Research 首创。

SEEDS 只需基于运行中的数值天气预报系统中的一两个预报即可生成大型集合。生成的集合不仅可以产生类似于真实天气的合理预报,而且在等级直方图、均方根误差(RMSE) 和连续排序概率得分(CRPS) 等技能指标方面也匹敌或超越基于物理的集合。具体而言,生成的集合为预测分布的尾部分配了更准确的可能性,例如 ±2σ 和 ±3σ 天气事件。最重要的是,与超级计算机进行预测所需的数小时计算时间相比,该模型的计算成本可以忽略不计。在 Google Cloud TPUv3-32 实例上,它每 3 分钟的吞吐量为 256 个集合成员(分辨率为 2°),并且可以通过部署更多加速器轻松扩展到更高的吞吐量。

SEEDS 生成了数量级更大的样本来填充天气模式的分布。

生成可信的天气预报

众所周知,生成式人工智能可以生成非常详细的图像和视频。此属性对于生成与合理天气模式一致的集合预报特别有用,最终为下游应用带来最大的附加值。正如 Lorenz 指出的那样,“他们制作的 [天气预报] 地图应该看起来像真实的天气图。”下图对比了 SEEDS 的预报和美国运营天气预报系统 (全球集合预报系统,GEFS) 对2022 年欧洲热浪期间某一日期的预报。我们还将结果与高斯模型的预测进行了比较,该模型预测每个位置每个大气场的单变量均值和标准差,这是一种常见且计算效率高但不太复杂的数据驱动方法。这个高斯模型旨在表征逐点后处理的输出,它忽略相关性并将每个网格点视为独立的随机变量。相比之下,真实的天气图会有详细的相关结构。

由于 SEEDS 直接模拟大气状态的联合分布,因此它真实地捕捉了中对流层位势与平均海平面气压之间的空间协方差和相关性,这两者密切相关,通常被天气预报员用于评估和验证预报。平均海平面气压的梯度是驱动地面风的因素,而中对流层位势的梯度会产生高空风,从而改变大规模天气模式。

下图中显示的 SEEDS 生成的样本(帧 Ca–Ch)显示葡萄牙西部的位势槽,其空间结构与美国实际预报或基于观测的再分析中发现的空间结构相似。虽然高斯模型可以充分预测边际单变量分布,但它无法捕捉跨场或空间相关性。这阻碍了评估这些异常可能对来自北非的热空气入侵产生的影响,而热空气入侵可能会加剧欧洲的热浪。

SEEDS-2-比较

2022/07/14 0:00 UTC 在欧洲盖章地图。轮廓线表示平均海平面气压(虚线标记 1010 hPa 以下的等压线),而热图则描绘 500 hPa 气压水平的位势高度。(A)ERA5再分析,真实观测的代理。(Ba-Bb)2 个来自 7 天美国业务预报的成员用作我们模型的种子。(Ca-Ch)8 个从 SEEDS 中提取的样本。(Da-Dh)8 个来自 7 天美国业务集合预报的非种子成员。(Ea-Ed)4 个来自逐点高斯模型的样本,该模型由整个美国业务集合的均值和方差参数化。

更准确地报道极端事件

下面我们展示了 2022/07/14 当地时间 1:00 极端高温事件期间里斯本附近 2 米处温度和总柱水蒸气的联合分布。我们使用了 2022/07/07 发布的 7 天预报。对于每个图,我们使用 SEEDS 生成 16,384 个成员的集合。从 ERA5 观察到的天气事件用星号表示。还显示了操作集合,其中正方形表示用于为生成的集合提供种子的预测,三角形表示其余集合成员。

SEEDS-3-覆盖率

下面我们展示了 2022/07/14 当地时间 1:00 极端高温事件期间里斯本附近 2 米处温度和总柱水蒸气的联合分布。我们使用了 2022/07/07 发布的 7 天预报。对于每个图,我们使用 SEEDS 生成 16,384 个成员的集合。从 ERA5 观察到的天气事件用星号表示。还显示了操作集合,其中正方形表示用于为生成的集合提供种子的预测,三角形表示其余集合成员。

根据美国业务集成系统,七天前观测到的事件不太可能发生,以至于其 31 个成员中没有一个预测到近地表温度会像观测到的那么高。事实上,根据高斯核密度估计计算出的事件概率低于 1%,这意味着成员少于 100 人的集成系统不太可能包含像这次事件一样极端的预测。相比之下,SEEDS 集成系统能够从两个种子预报中推断,提供可能的天气状况的包络,对事件的统计覆盖范围要好得多。这既可以量化事件发生的概率,也可以对可能发生事件的天气状况进行采样。具体来说,我们高度可扩展的生成方法可以创建非常大的集成系统,通过为任何用户定义的诊断提供超过给定阈值的天气状况样本,可以表征非常罕见的事件。

结论和未来展望

SEEDS 利用生成式人工智能的强大功能,生成与美国实际预报系统相当的集合预报,但速度更快。本文报告的结果只需要来自实际系统的 2 个种子预报,当前版本可生成 31 个预报。这导致了一种混合预报系统,其中使用基于物理的模型计算的几个天气轨迹用于播种扩散模型,该模型可以更有效地生成更多预报。这种方法为当前的实际天气预报范式提供了一种替代方案,其中统计模拟器节省的计算资源可以分配给提高基于物理的模型的分辨率或更频繁地发布预报。

我们相信,SEEDS 只是 AI 在未来几年加速数值天气预报业务进展的众多方式之一。我们希望,这一生成式 AI 在天气预报模拟和后处理方面的实用性展示将推动其在气候风险评估等研究领域的应用,在这些领域,生成大量气候预测集合对于准确量化未来气候的不确定性至关重要。

致谢

所有 SEEDS 作者 Lizao Li、Rob Carver、Ignacio Lopez-Gomez、Fei Sha 和 John Anderson 共同撰写了这篇博文,Carla Bromberg 担任项目负责人。我们还要感谢设计动画的 Tom Small。Google Research 的同事为 SEEDS 工作提供了宝贵的建议。其中,我们感谢 Leonardo Zepeda-Núñez、Zhong Yi Wan、Stephan Rasp、Stephan Hoyer 和 Tapio Schneider 的投入和有益的讨论。我们感谢 Tyler Russell 的额外技术项目管理,以及 Alex Merose 的数据协调和支持。我们还要感谢 Cenk Gazen、Shreya Agrawal 和 Jason Hickey 在 SEEDS 工作早期阶段的讨论。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论