天气系统本身充满了变数和随机性。为了应对这种不确定性,传统的气象预报方法通常依赖于基于物理规律的模拟系统来生成一系列的“集合预报”。然而,这种方法在计算上极其昂贵,尤其是当我们需要生成大量的预报样本来准确捕捉和分析那些罕见且极端的恶劣天气事件时,计算成本往往成为巨大的瓶颈。
为了解决这一难题,谷歌研究团队近期在《科学进展》(Science Advances)杂志上发表了一项名为“可扩展集合包络扩散采样器”(Scalable Ensemble Envelope Diffusion Sampler,简称SEEDS)的最新创新成果。SEEDS是一种基于生成式人工智能(AI)的模型,它能够以极低的计算成本,高效、大规模地生成天气预报集合。这项技术的问世,不仅为气象和气候科学领域开辟了全新的可能性,更是概率扩散模型(一种推动近期媒体生成技术飞速发展的生成式AI技术)在天气和气候预报领域的首批重要应用之一。
概率预报的必要性:应对“蝴蝶效应”
1972年,麻省理工学院的气象学教授爱德华·洛伦兹(Ed Lorenz)在华盛顿特区举行的美国科学促进会会议上,发表了题为“巴西一只蝴蝶扇动翅膀,会在得克萨斯州引起龙卷风吗?”的著名演讲,这正是“蝴蝶效应”一词的由来。他的这一观点建立在其1963年发表的一篇具有里程碑意义的论文基础之上。在那篇论文中,洛伦兹探讨了“超长期天气预报”的可行性,并指出在使用数值天气预报模型进行时间积分时,初始条件的微小误差会呈指数级放大。这种被称为“混沌”的指数级误差增长,导致了确定性预报存在一个不可逾越的极限。因此,单一的确定性预报在实际决策中往往显得力不从心,因为它们无法量化天气状况固有的不确定性。在预测飓风、热浪或洪水等极端天气事件时,这一局限性尤为突出。
认识到确定性预报的不足,世界各地的气象机构开始发布概率预报。这类预报基于多个确定性预报组成的集合,每个预报都在初始条件中引入了人为的噪声,并在物理过程中加入了随机性。利用天气模型中误差快速增长的特性,集合中的各个预报被刻意设计得各不相同:初始的不确定性被调整以产生尽可能多样的运行结果,而模型运行期间的随机过程则进一步增加了差异。通过对集合中的所有预报进行平均,可以有效缓解误差的增长,而预报集合的变异性则能够量化天气状况的不确定性。
尽管这种方法行之有效,但生成这些概率预报的计算成本却高得令人咋舌。它们需要在庞大的超级计算机上多次运行极其复杂的数值天气模型。因此,许多业务天气预报在每个预报周期内只能负担得起生成大约10到50个集合成员。对于那些关注罕见但影响巨大的天气事件可能性的用户来说,这无疑是一个巨大的挑战,因为评估几天之后的极端事件通常需要大得多的预报集合。例如,要以低于10%的相对误差预测发生概率为1%的事件,就需要一个包含10,000个成员的集合。量化此类极端事件的概率对于应急管理准备或能源交易商来说具有极高的实用价值。
SEEDS:AI赋能的预报革新
在上述论文中,谷歌团队详细介绍了SEEDS技术。SEEDS基于去噪扩散概率模型,这是一种由谷歌研究团队部分开创的、处于行业前沿的生成式AI方法。
SEEDS的强大之处在于,它仅需基于业务数值天气预报系统提供的一到两个预报结果作为条件,就能生成一个庞大的预报集合。这些生成的集合不仅能够提供看起来非常真实、合理的天气预报,而且在诸如等级直方图、均方根误差(RMSE)和连续排位概率分数(CRPS)等关键技能指标上,其表现甚至能够媲美或超越传统的基于物理的预报集合。特别值得一提的是,生成的集合能够为预报分布的尾部事件(例如偏离均值2个或3个标准差的极端天气事件)分配更加准确的发生概率。
最为关键的是,与超级计算机进行一次预报所需的数小时计算时间相比,SEEDS模型的计算成本几乎可以忽略不计。在谷歌云TPUv3-32实例上,它能够在短短3分钟内生成256个分辨率为2度的集合成员,并且通过部署更多的加速器,可以轻松扩展以实现更高的吞吐量。
生成逼真的天气预报图景
众所周知,生成式AI在生成高度详细的图像和视频方面表现出色。这一特性在生成与合理天气模式相一致的集合预报时显得尤为有用,这最终能为下游应用带来最大的附加值。正如洛伦兹所指出的那样:“它们生成的(天气预报)地图应该看起来像真实的天气地图。”
通过对比SEEDS的预报结果与美国业务天气预报系统(全球集合预报系统,GEFS)在2022年欧洲热浪期间特定日期的预报结果,我们可以清晰地看到SEEDS的优势。同时,研究团队还将结果与一个高斯模型进行了比较。该高斯模型预测每个位置每个大气场的单变量均值和标准差,这是一种常见且计算效率高但相对简单的数据驱动方法。这种高斯模型旨在表征逐点后处理的输出,它忽略了相关性,将每个网格点视为独立的随机变量。相比之下,真实的天气地图会呈现出复杂的、相互关联的结构。
由于SEEDS直接对大气状态的联合分布进行建模,它能够逼真地捕捉到空间协方差以及对流层中层位势与平均海平面气压之间的相关性。这两个因素密切相关,是天气预报员评估和验证预报时常用的指标。平均海平面气压的梯度驱动着地表风,而对流层中层位势的梯度则产生高空风,从而推动大规模天气模式的移动。
SEEDS生成的样本展示了葡萄牙以西的一个位势槽,其空间结构与美国业务预报或基于观测的再分析数据中发现的结构非常相似。尽管高斯模型能够充分预测边缘单变量分布,但它无法捕捉跨场或空间相关性。这阻碍了评估这些异常现象对来自北非的热空气入侵可能产生的影响,而这种入侵可能会加剧欧洲的热浪。
更精准地覆盖极端天气事件
在2022年7月14日里斯本附近的极端高温事件中,研究团队使用了7月7日发布的7天预报。对于每个图表,他们使用SEEDS生成了包含16,384个成员的集合。根据美国业务集合的预测,在事件发生前七天,该事件发生的可能性极低,其31个成员中没有一个预测到与实际观测一样温暖的近地表温度。事实上,从高斯核密度估计计算出的事件概率低于1%,这意味着少于100个成员的集合不太可能包含与此事件一样极端的预报。
相比之下,SEEDS集合能够从两个种子预报中进行外推,提供了一个包含可能天气状态的包络,对该事件具有更好的统计覆盖率。这不仅允许量化事件发生的概率,还能对事件发生时的天气状况进行采样。具体而言,这种高度可扩展的生成方法使得创建非常大的预报集合成为可能,这些集合可以通过提供超过任何用户定义阈值的天气状态样本来表征非常罕见的事件。
结语与未来展望
SEEDS充分利用了生成式AI的强大能力,以极快的速度生成了与美国业务预报系统相媲美的集合预报。论文中报告的结果仅需要来自业务系统的2个种子预报,而该系统本身生成31个预报所需的时间,足以让SEEDS生成更多的预报样本。
谷歌研究团队相信,SEEDS仅仅是AI在未来几年内加速业务数值天气预报进展的众多方式之一。他们希望,这种展示生成式AI在天气预报模拟和后处理中实用性的工作,能够激发其在气候风险评估等研究领域的广泛应用。在这些领域,生成大量气候预测集合对于准确量化未来气候的不确定性至关重要。
夜雨聆风