基于共形预测的概率AI天气预报的严格不确定性量化

Figure1: Schematicoftheonlineadaptiveconformalpredictionframeworkforensembleweatherforecasts.

研究背景与核心问题

概率天气预报正经历由人工智能驱动的深刻变革。传统数值天气预报（NWP）通过设计初始条件扰动并传播集合成员来构建经验分布，但受限于计算资源，集合规模往往难以充分逼近未来天气状态的未知统计分布。近年来，以GenCast、NeuralGCM和AIFS-ENS为代表的新一代AI天气模型，凭借快速推理能力实现了更大规模的集合预报，并在训练目标中引入概率考量，理论上应带来更优的不确定性量化（UQ）。然而，本文揭示了一个关键问题：这些前沿模型的统计覆盖度——即校准性的终极度量——往往存在缺陷，尤其在极端事件上表现不佳。换言之，模型声称的90%置信区间，实际可能远低于90%的观测落入率，这种"过度自信"对农业决策、灾害预警等社会经济应用具有潜在危害。现有后处理技术如EMOS虽能改善校准，但均依赖参数化分布假设，无法提供严格的覆盖度数学保证。

方法创新：在线共形预测机制

为系统性解决校准不足，作者引入了一类无分布假设的统计后处理方法——共形预测（Conformal Prediction）。与依赖参数化假设的经典集合模型输出统计（EMOS）方法不同，共形预测在不对数据分布做任何先验假设的前提下，数学上严格保证预测区间的覆盖度。

具体而言，研究采用Angelopoulos等人（2023）提出的在线自适应共形预测框架，并针对天气预报的业务滞后特性进行了操作化适配。对于每个格点、变量和预报时效，方法从原始集合预报中提取经验分位数（如90%覆盖度对应的5%和95%分位数），并通过一个时变修正项c_t对区间进行动态扩缩：

Ĉ_t = [q_lo(X_t) - c_t, q_hi(X_t) + c_t]

在预报验证后，根据观测是否落入区间更新修正项：若发生漏报（err_t=1），则c_t增加η(1-α)，使后续区间更保守；若成功覆盖（err_t=0），则c_t减少ηα，使区间更精确。该更新规则具有严格的理论收敛保证：当验证样本量T趋于无穷时，经验误报率与目标值α的偏差不超过(b+τη)/(ηT)，即渐进收敛于目标覆盖度。研究特别针对天气预报的时效特性设计了延迟更新策略——由于5天预报的验证存在滞后，修正项仅在观测确认后调整，确保仅使用已验证的误差信息驱动后续预报。

此外，为便于全球并行部署，研究采用Gibbs和Candes（2021）在分位数空间进行自适应调整的方案，使步长η成为无量纲参数，消除了不同地区气候态差异对修正幅度的影响。

实验设计与数据基础

研究选取了三个当前最先进的概率AI全球预报模型进行独立评估：Google DeepMind的GenCast（条件扩散模型，52-56个集合成员）、Google Research的NeuralGCM（动力核心与机器学习闭合的混合模型，51个集合成员），以及ECMWF的AIFS-ENS（基于Transformer并在业务IFS数据上微调的模型，25个集合成员）。评估变量包括近地表温度（GenCast和AIFS-ENS为2米温度，NeuralGCM为1000 hPa温度）和12小时累计降水，预报时效覆盖1至15天，重点分析5天预报。

验证采用2022-2024年数据，以ERA5再分析资料为真值（NeuralGCM降水使用IMERG卫星资料）。2021年数据用于初始校准。为评估极端事件表现，研究定义极端阈值为各格点、各日历日期气候态的95%分位数（基于1979-2018年资料）。作为对比基线，研究还实现了EMOS后处理：温度采用高斯分布，降水采用左删失广义极值分布（Scheuerer, 2014），参数通过最小化CRPS在最近30天验证数据上估计。

全球覆盖度评估：从系统性欠覆盖到严格校准

结果表明，未经处理的AI集合预报普遍存在系统性欠覆盖（undercoverage），即预测区间过窄。以90%目标覆盖度为例，在5天近地表温度预报中，GenCast的全球平均经验覆盖度为78.5%，AIFS-ENS为79.4%，而NeuralGCM仅为65.9%。经过在线共形预测后，三者的覆盖度分别提升至90.1%、90.4%和90.0%，平均改进幅度达11.2、9.8和23.6个百分点。

空间分布上，共形化改进在几乎所有格点均为正值。NeuralGCM在撒哈拉地区的降水、GenCast在安第斯山脉和印度的温度、AIFS-ENS在中非的温度预报中，原始覆盖度缺陷尤为突出，经校准后显著改善。值得注意的是，原始覆盖度的空间异质性反映了不同模型在陆面、海洋及复杂地形上的差异化误差特征：GenCast温度在海洋上覆盖较好而陆地上较差，NeuralGCM则相反，AIFS-ENS在海陆间较为一致。这提示全球平均指标往往掩盖了显著的区域性校准盲区，业务评估需关注空间细粒度诊断。

极端事件的校准困境

极端事件的覆盖度问题是本研究的重要发现。对于超过气候态95%分位数的极端温度，原始集合的覆盖度普遍低于整体水平：GenCast降至75.8%，AIFS-ENS降至74.0%，NeuralGCM更是骤降至38.9%。共形预测后，三者的极端温度覆盖度分别提升至89.1%、87.9%和76.2%，其中NeuralGCM的改进幅度高达36.9个百分点，显示出后处理在纠正极端温度不确定性方面的巨大潜力。

然而，极端降水的校准仍面临严峻挑战。原始集合对极端降水的覆盖度极低（GenCast 68.1%，NeuralGCM 61.9%，AIFS-ENS 63.2%），共形化后提升有限（分别至68.7%、63.6%和65.3%）。这提示当前AI模型对极端降水的条件分布刻画存在结构性偏差，简单的对称区间修正难以完全弥补右偏、点质量零值等复杂特征。作者指出，未来可探索分离上下尾修正的共形化分位数回归（Romano et al., 2019），或结合Rossellini等人（2024）的不确定性感知框架，专门针对极端事件构建非对称校准策略。

概率技巧的无损保持

一个关键担忧是：覆盖度的提升是否以不合理地扩大区间宽度、牺牲预报技巧为代价？研究通过连续分级概率评分（CRPS）和离散-技巧比（SSR）验证了这一点。CRPS是严格适当评分规则，仅在预报分布与真实分布一致时达到最优。结果显示，共形化后的CRPS与原始模型几乎一致，而SSR普遍向理想值1.0靠近。这意味着共形预测并非盲目"吹胀"区间，而是基于观测反馈进行数据驱动的、有原则的修正。当区间需要加宽时，是因为原始预报确实低估了不确定性；当区间可以收窄时，方法同样会精确调整。

可靠性图（Reliability Diagram）进一步证实，共形化预报在不同目标覆盖度（0至100%）和不同预报时效（1-15天）上均呈现出近乎完美的可靠性曲线，紧密贴合理想对角线。相比之下，EMOS基线虽能改善校准，但无法提供严格的数学保证，且在部分区域和时效上仍存在偏差。

局限性与业务启示

研究坦诚指出了当前方法的局限。首先，在线共形预测仅修正方差（区间宽度），未同步修正系统性偏差（均值偏移），联合校正可能进一步提升性能。其次，当前实现对每个格点、变量、时效和分位数独立拟合修正项，虽计算成本极低且易于并行（实时更新仅需维护一个标量列表），但破坏了空间协方差和跨变量关联。未来可探索引入空间依赖结构（如Schaake Shuffle或集合Copula耦合），但这将以牺牲无分布保证为代价。

此外，尽管在线框架能适应季节性变化和长期趋势等分布漂移，但理论上要求观测值有界。实践中，方法在不足一个月的验证期内即表现出快速收敛（0.01精度在数天内达成，0.001精度约一个月），业务部署可行性极高。作者强调，共形预测作为即插即用的后处理工具，无需针对特定模型重新设计，可适用于任何生成集合分位数的预报系统，包括传统NWP。

结语

这项工作首次将在线共形预测系统应用于全球AI天气预报的后处理，证明即使在无分布假设的严格框架下，也能实现统计覆盖度的数学保证，且不损害概率预报技巧。对于正加速进入业务应用的AI天气模型而言，这一研究提供了至关重要的校准工具：它不仅揭示了当前主流模型在不确定性量化上的"隐性短板"，更提供了一种几乎零调参、计算成本极低的解决方案。随着AI气象预报从"技巧竞赛"迈向"可信服务"，严格的统计校准将是连接模型输出与决策应用的必要桥梁。

本文解读如有偏差欢迎联系小编，感谢！

EarthAi

微信公号：Earth-Ai

商务联系：Earth_Ai