(加EarthAi微信交流群+商务合作,请备注:姓名-行业-单位)

基于共形预测的概率AI天气预报的严格不确定性量化


研究背景与核心问题
概率天气预报正经历由人工智能驱动的深刻变革。传统数值天气预报(NWP)通过设计初始条件扰动并传播集合成员来构建经验分布,但受限于计算资源,集合规模往往难以充分逼近未来天气状态的未知统计分布。近年来,以GenCast、NeuralGCM和AIFS-ENS为代表的新一代AI天气模型,凭借快速推理能力实现了更大规模的集合预报,并在训练目标中引入概率考量,理论上应带来更优的不确定性量化(UQ)。然而,本文揭示了一个关键问题:这些前沿模型的统计覆盖度——即校准性的终极度量——往往存在缺陷,尤其在极端事件上表现不佳。换言之,模型声称的90%置信区间,实际可能远低于90%的观测落入率,这种"过度自信"对农业决策、灾害预警等社会经济应用具有潜在危害。现有后处理技术如EMOS虽能改善校准,但均依赖参数化分布假设,无法提供严格的覆盖度数学保证。
方法创新:在线共形预测机制
为系统性解决校准不足,作者引入了一类无分布假设的统计后处理方法——共形预测(Conformal Prediction)。与依赖参数化假设的经典集合模型输出统计(EMOS)方法不同,共形预测在不对数据分布做任何先验假设的前提下,数学上严格保证预测区间的覆盖度。
具体而言,研究采用Angelopoulos等人(2023)提出的在线自适应共形预测框架,并针对天气预报的业务滞后特性进行了操作化适配。对于每个格点、变量和预报时效,方法从原始集合预报中提取经验分位数(如90%覆盖度对应的5%和95%分位数),并通过一个时变修正项c_t对区间进行动态扩缩:
Ĉ_t = [q_lo(X_t) - c_t, q_hi(X_t) + c_t]
在预报验证后,根据观测是否落入区间更新修正项:若发生漏报(err_t=1),则c_t增加η(1-α),使后续区间更保守;若成功覆盖(err_t=0),则c_t减少ηα,使区间更精确。该更新规则具有严格的理论收敛保证:当验证样本量T趋于无穷时,经验误报率与目标值α的偏差不超过(b+τη)/(ηT),即渐进收敛于目标覆盖度。研究特别针对天气预报的时效特性设计了延迟更新策略——由于5天预报的验证存在滞后,修正项仅在观测确认后调整,确保仅使用已验证的误差信息驱动后续预报。
此外,为便于全球并行部署,研究采用Gibbs和Candes(2021)在分位数空间进行自适应调整的方案,使步长η成为无量纲参数,消除了不同地区气候态差异对修正幅度的影响。
实验设计与数据基础
研究选取了三个当前最先进的概率AI全球预报模型进行独立评估:Google DeepMind的GenCast(条件扩散模型,52-56个集合成员)、Google Research的NeuralGCM(动力核心与机器学习闭合的混合模型,51个集合成员),以及ECMWF的AIFS-ENS(基于Transformer并在业务IFS数据上微调的模型,25个集合成员)。评估变量包括近地表温度(GenCast和AIFS-ENS为2米温度,NeuralGCM为1000 hPa温度)和12小时累计降水,预报时效覆盖1至15天,重点分析5天预报。
验证采用2022-2024年数据,以ERA5再分析资料为真值(NeuralGCM降水使用IMERG卫星资料)。2021年数据用于初始校准。为评估极端事件表现,研究定义极端阈值为各格点、各日历日期气候态的95%分位数(基于1979-2018年资料)。作为对比基线,研究还实现了EMOS后处理:温度采用高斯分布,降水采用左删失广义极值分布(Scheuerer, 2014),参数通过最小化CRPS在最近30天验证数据上估计。
全球覆盖度评估:从系统性欠覆盖到严格校准
结果表明,未经处理的AI集合预报普遍存在系统性欠覆盖(undercoverage),即预测区间过窄。以90%目标覆盖度为例,在5天近地表温度预报中,GenCast的全球平均经验覆盖度为78.5%,AIFS-ENS为79.4%,而NeuralGCM仅为65.9%。经过在线共形预测后,三者的覆盖度分别提升至90.1%、90.4%和90.0%,平均改进幅度达11.2、9.8和23.6个百分点。
空间分布上,共形化改进在几乎所有格点均为正值。NeuralGCM在撒哈拉地区的降水、GenCast在安第斯山脉和印度的温度、AIFS-ENS在中非的温度预报中,原始覆盖度缺陷尤为突出,经校准后显著改善。值得注意的是,原始覆盖度的空间异质性反映了不同模型在陆面、海洋及复杂地形上的差异化误差特征:GenCast温度在海洋上覆盖较好而陆地上较差,NeuralGCM则相反,AIFS-ENS在海陆间较为一致。这提示全球平均指标往往掩盖了显著的区域性校准盲区,业务评估需关注空间细粒度诊断。
极端事件的校准困境
极端事件的覆盖度问题是本研究的重要发现。对于超过气候态95%分位数的极端温度,原始集合的覆盖度普遍低于整体水平:GenCast降至75.8%,AIFS-ENS降至74.0%,NeuralGCM更是骤降至38.9%。共形预测后,三者的极端温度覆盖度分别提升至89.1%、87.9%和76.2%,其中NeuralGCM的改进幅度高达36.9个百分点,显示出后处理在纠正极端温度不确定性方面的巨大潜力。
然而,极端降水的校准仍面临严峻挑战。原始集合对极端降水的覆盖度极低(GenCast 68.1%,NeuralGCM 61.9%,AIFS-ENS 63.2%),共形化后提升有限(分别至68.7%、63.6%和65.3%)。这提示当前AI模型对极端降水的条件分布刻画存在结构性偏差,简单的对称区间修正难以完全弥补右偏、点质量零值等复杂特征。作者指出,未来可探索分离上下尾修正的共形化分位数回归(Romano et al., 2019),或结合Rossellini等人(2024)的不确定性感知框架,专门针对极端事件构建非对称校准策略。
概率技巧的无损保持
一个关键担忧是:覆盖度的提升是否以不合理地扩大区间宽度、牺牲预报技巧为代价?研究通过连续分级概率评分(CRPS)和离散-技巧比(SSR)验证了这一点。CRPS是严格适当评分规则,仅在预报分布与真实分布一致时达到最优。结果显示,共形化后的CRPS与原始模型几乎一致,而SSR普遍向理想值1.0靠近。这意味着共形预测并非盲目"吹胀"区间,而是基于观测反馈进行数据驱动的、有原则的修正。当区间需要加宽时,是因为原始预报确实低估了不确定性;当区间可以收窄时,方法同样会精确调整。
可靠性图(Reliability Diagram)进一步证实,共形化预报在不同目标覆盖度(0至100%)和不同预报时效(1-15天)上均呈现出近乎完美的可靠性曲线,紧密贴合理想对角线。相比之下,EMOS基线虽能改善校准,但无法提供严格的数学保证,且在部分区域和时效上仍存在偏差。
局限性与业务启示
研究坦诚指出了当前方法的局限。首先,在线共形预测仅修正方差(区间宽度),未同步修正系统性偏差(均值偏移),联合校正可能进一步提升性能。其次,当前实现对每个格点、变量、时效和分位数独立拟合修正项,虽计算成本极低且易于并行(实时更新仅需维护一个标量列表),但破坏了空间协方差和跨变量关联。未来可探索引入空间依赖结构(如Schaake Shuffle或集合Copula耦合),但这将以牺牲无分布保证为代价。
此外,尽管在线框架能适应季节性变化和长期趋势等分布漂移,但理论上要求观测值有界。实践中,方法在不足一个月的验证期内即表现出快速收敛(0.01精度在数天内达成,0.001精度约一个月),业务部署可行性极高。作者强调,共形预测作为即插即用的后处理工具,无需针对特定模型重新设计,可适用于任何生成集合分位数的预报系统,包括传统NWP。
结语
这项工作首次将在线共形预测系统应用于全球AI天气预报的后处理,证明即使在无分布假设的严格框架下,也能实现统计覆盖度的数学保证,且不损害概率预报技巧。对于正加速进入业务应用的AI天气模型而言,这一研究提供了至关重要的校准工具:它不仅揭示了当前主流模型在不确定性量化上的"隐性短板",更提供了一种几乎零调参、计算成本极低的解决方案。随着AI气象预报从"技巧竞赛"迈向"可信服务",严格的统计校准将是连接模型输出与决策应用的必要桥梁。
本文解读如有偏差欢迎联系小编,感谢!



微信公号:Earth-Ai
商务联系:Earth_Ai
夜雨聆风