AI驱动的全球中长期天气预报模型调研

1. 概述

近年来，基于深度学习的天气预报模型发展迅猛，标志着天气预报领域的范式转变。传统数值天气预报（NWP）依赖于求解大气物理方程（如原始方程组），需要巨大的计算资源（超级计算机）且预报一次需要数小时。而AI模型通过直接从历史再分析数据中学习大气演化规律，能够在秒级到分钟级内生成全球预报，且在多数指标上已达到甚至超越了ECMWF的HRES（高分辨率确定性预报）水平。

发展时间线

时间	里程碑事件
2020	WeatherBench基准发布，推动ML天气预报标准化评估
2022.02	Keisler发表GNN天气预报，接近NWP水平
2022.02	NVIDIA发布FourCastNet，首次展示AFNO在天气预报中的应用
2022.11	华为发布Pangu-Weather，首次宣称AI超越传统NWP
2022.12	DeepMind发布GraphCast，在90%指标上超越HRES
2023.01	ClimaX发布，探索天气/气候基础模型
2023.04	FengWu发布，多模态融合方法
2023.06	FuXi发布，级联架构实现15天预报
2023.11	NeuralGCM发布，物理-ML混合模型
2023.12	GenCast发布，扩散模型实现概率预报
2023.12	Stormer发布，可扩展Transformer方法
2024.05	Microsoft Aurora发布，地球系统基础模型
2024.06	ECMWF AIFS投入业务运行
2024-2025	FuXi-2、FengWu-GHR、AtmoDiff等改进模型相继发布

2. 模型全景图

2.1 主要模型分类

根据建模方法，可将现有AI天气预报模型分为以下几类：

A. 确定性预报模型（Deterministic）

• FourCastNet (NVIDIA, 2022)
• Pangu-Weather (华为, 2022)
• GraphCast (DeepMind, 2022)
• FengWu (上海AI实验室, 2023)
• FuXi / FuXi-2 (复旦大学, 2023/2024)
• Stormer (UCLA/ANL, 2023)
• AIFS (ECMWF, 2024)

B. 概率/集合预报模型（Probabilistic/Ensemble）

• GenCast (DeepMind, 2023) — 扩散模型
• SEEDS (Google, 2023) — 扩散模型生成集合成员
• FuXi-ENS (复旦, 2024) — FuXi的集合预报版本

C. 基础模型（Foundation Model）

• ClimaX (Microsoft/UCLA, 2023) — 天气+气候基础模型
• Aurora (Microsoft, 2024) — 地球系统基础模型
• W-MAE (2023) — 自监督预训练

D. 物理-ML混合模型（Hybrid Physics-ML）

• NeuralGCM (Google, 2023) — 可微分动力学+ML参数化

E. 极端天气与特殊用途模型

• FuXi-Extreme (复旦, 2023) — 扩散模型增强极端降水和风速预报
• FuXi-S2S (复旦, 2024) — 次季节到季节尺度预报（42天）
• Pangu-Sigma (华为, 2024) — sigma坐标系改进近地面和山区预报

F. 数据同化与端到端系统

• FengWu-4DVar (上海AI Lab, 2024) — AI预报模型嵌入4DVar同化
• FengWu-Adas (上海AI Lab, 2024) — 端到端可微数据同化系统
• DiffDA (2024) — 基于扩散的数据同化

G. 区域与降尺度模型

• CorrDiff (NVIDIA, 2023) — 基于扩散的降尺度（25km→2km）
• NeuralLAM (Linkoping Univ., 2023) — GNN区域有限区域预报
• MetNet / MetNet-2 / MetNet-3 (Google, 2020/2021/2023) — 区域短期降水预报（非全球中期）

H. 其他值得关注的模型

• Keisler GNN (2022) — 早期GNN天气预报先驱
• AtmoRep (Juelich超算中心, 2023) — BERT式大气表征学习
• SwinRDM (清华, 2023) — Swin Transformer + 残差扩散
• SwinVRNN (清华, 2023) — Swin Transformer + 变分RNN集合预报
• W-MAE (Salesforce, 2023) — 天气Masked Autoencoder预训练
• Prithvi WxC (NASA/IBM, 2024) — 基于MERRA-2再分析的基础模型，160个变量
• FengWu-GHR (上海AI Lab, 2024) — 0.09°（~9km）高分辨率全球预报
• Zhiji (清华, 2024) — 高分辨率区域AI预报
• WeatherDiff (2023) — 扩散模型天气预报
• Aardvark Weather (英国Alan Turing研究所衍生, 2024) — 基础模型方法的业务预报初创公司
• WindBorne AI (WindBorne Systems, 2024-2025) — 结合专有气球观测与AI模型

3. 各模型详细分析

3.1 FourCastNet (NVIDIA, 2022)

论文: "FourCastNet: A Global Data-driven High-resolution Weather Model using Adaptive Fourier Neural Operators"作者: Jaideep Pathak, Shashank Subramanian 等发表: arXiv 2202.11214

架构设计

• 核心组件: Adaptive Fourier Neural Operator (AFNO)
• 基本思想: 在傅里叶空间中高效执行全局注意力机制。AFNO先将输入进行2D FFT变换到频域，在频域中执行token mixing（通过MLP），再逆变换回空间域
• 网络结构: 类Vision Transformer的patch embedding (patch size 8) + 多层AFNO block (通常8个block)。每个block包含：LayerNorm → AFNO token mixer → LayerNorm → MLP前馈网络
• 优势: 在频域中实现全局感受野，计算复杂度为O(N log N)，远低于标准Transformer的O(N²)

技术细节

属性	详情
分辨率	0.25° × 0.25° (约720×1440网格)
预报变量	20个（包括地面和高空变量）
预报步长	6小时
训练数据	ERA5 (1979-2015训练, 2016-2017验证, 2018测试)
推理速度	生成一周预报 < 2秒
参数量	~2400万（相对较小）

训练策略

• 两阶段训练：先训练单步预报（6小时），再进行多步微调
• 损失函数：纬度加权MSE
• 使用预训练+微调策略

优势

• 推理速度极快，可生成数千成员的大规模集合
• AFNO架构在处理全球场数据时计算效率高
• 开源代码和模型权重

劣势

• 较长lead time下预报存在平滑模糊问题
• 仅处理有限数量的变量
• 作为早期工作，在精度上已被后来的模型超越
• 降水预报能力有限

3.2 Pangu-Weather (华为, 2022)

论文: "Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast"作者: Kaifeng Bi, Lingxi Xie 等发表: Nature, 2023; arXiv 2211.02556

架构设计

• 核心组件: 3D Earth-Specific Transformer (3DEST)
• 基本思想: 将大气状态建模为3D立体数据（经度×纬度×气压层），设计Earth-Specific的位置偏置来处理球面几何
• 创新点:

1. 3D立体处理: 不同于其他模型将垂直层展平为通道，Pangu直接在3D空间中操作
2. Earth-Specific位置偏置: 根据地球几何特性设计的注意力位置编码，考虑赤道与两极的差异
3. 层次化时间聚合: 训练4个独立模型分别负责1h、3h、6h、24h步长的预报，通过组合实现任意lead time

技术细节

属性	详情
分辨率	0.25° × 0.25°, 13个气压层 + 4个地面变量
预报变量	5个高空变量 × 13层 + 4个地面变量 = 69个
预报步长	1h/3h/6h/24h（4个独立模型）
训练数据	ERA5 (43年, 1979-2021)
参数量	~2.56亿（4个模型总计）
训练硬件	192 NVIDIA V100 GPU
训练时间	约16天

训练策略

• 每个时间步长单独训练一个模型
• 24小时模型直接跳跃预报，避免6小时步长的误差累积
• 损失函数：纬度加权MSE + 地面变量加权

优势

• 首个在Nature发表的AI天气预报模型
• 3D处理方式更好地捕获垂直层间的相互作用
• 多步长策略有效减少长期误差累积
• 在台风路径预报方面表现出色

劣势

• 需要训练4个独立模型，增加了训练和维护成本
• 3D Transformer计算量较大
• 模型间可能存在不一致性
• 未开源训练代码（仅提供推理代码和权重）

3.3 GraphCast (DeepMind, 2022)

论文: "Learning skillful medium-range global weather forecasting"作者: Remi Lam, Alvaro Sanchez-Gonzalez, Peter Battaglia 等发表: Science, 2023; arXiv 2212.12794

架构设计

• 核心组件: Encode-Process-Decode GNN框架
• 基本思想: 将地球离散化为多尺度图（icosahedral mesh），通过消息传递在图上进行信息流动
• 创新点:

1. 多尺度图结构: 使用icosahedral mesh建立6层不同分辨率的网格（从约2500km到约28km），通过边连接实现多尺度信息交互
2. 三步骤流程:

• Encoder: 网格点→图节点的映射
• Processor: 16轮消息传递更新
• Decoder: 图节点→网格点的映射

3. 自回归训练: 通过2步展开（12小时）进行训练

技术细节

属性	详情
分辨率	0.25° × 0.25° (约100万个网格点)
预报变量	227个（5个高空变量 × 37层 + 6个地面变量 + 静态特征）
预报步长	6小时（自回归）
训练数据	ERA5 (1979-2017训练, 2018测试)
参数量	~36.7M（相对较少）
训练硬件	32 TPU v4
训练时间	约3-4周

训练策略

• 课程学习: 先训练1步预报，再扩展到2步展开
• 噪声注入: 在输入中加入随机噪声以提高鲁棒性
• 损失函数: 纬度和变量加权的MSE，不同变量和层使用独立权重以平衡贡献
• 框架: JAX / DeepMind Jraph
• 梯度检查点: 使用gradient checkpointing将长rollout放入显存

优势

• 在Science发表，影响巨大
• 在WeatherBench 2上90%的变量/lead time组合超越HRES
• 图结构自然适应球面几何
• 完全开源（代码+权重，Apache 2.0）
• 参数量较少但性能很强

劣势

• 从图结构到经纬度网格的映射引入误差
• 单一确定性预报，缺乏不确定性量化
• 自回归推理时误差累积
• 在极端天气事件强度预报上仍有不足
• JAX实现可能限制某些用户的使用便捷性

3.4 FengWu (上海AI实验室, 2023)

论文: "FengWu: Pushing the Skillful Global Medium-range Weather Forecast beyond 10 Days Lead"作者: Kang Chen, Tao Han 等发表: Commun. Earth Environ., 2025; arXiv 2304.02948

架构设计

• 核心组件: 多模态多任务Transformer
• 基本思想: 将不同类型的气象变量（高空场和地面场）视为不同模态，使用各自的encoder-decoder处理，并通过cross-attention进行融合
• 创新点:

1. 多模态融合: 高空变量和地面变量分别用独立编码器处理，通过cross-modal fusion Transformer交换信息
2. 不确定性损失: 自适应的region-adaptive不确定性权重，自动平衡不同区域和变量的损失
3. 回放缓冲机制 (Replay Buffer): 在训练中混合早期和后期时间步的数据，增强中期预报稳定性

技术细节

属性	详情
分辨率	0.25° × 0.25°, 37个气压层
预报变量	全面的高空和地面变量集
预报步长	6小时（自回归）
训练数据	ERA5 (39年)
推理速度	~600ms/步 (A100 GPU)

优势

• 在80%的评估指标上超越GraphCast
• 将Z500 ACC > 0.6的有效预报延伸到10.75天
• 多模态设计更好地处理异质变量
• 不确定性损失自动平衡优化

劣势

• 架构复杂度较高
• 未完全开源
• 多模态方法的可解释性较弱

3.5 FuXi / FuXi-2 (复旦大学, 2023/2024)

论文: "FuXi: A cascade machine learning forecasting system for 15-day global weather forecast"作者: Lei Chen, Xiaohui Zhong 等发表: npj Climate and Atmospheric Science, 2023; arXiv 2306.12873

架构设计

• 核心组件: U-Transformer（类U-Net的Transformer架构）+ 级联策略
• 基本思想: 认识到单一模型难以同时优化短期和长期预报，使用3个独立模型分别负责不同lead time范围
• 创新点:

1. 级联架构 (Cascade):

• 模型1: 0-5天预报
• 模型2: 5-10天预报
• 模型3: 10-15天预报每个模型针对其lead time范围独立优化

2. U-Transformer: 结合U-Net的多尺度特征提取和Transformer的全局注意力
3. Cube Embedding: 将气压层维度与空间维度一起处理的3D patch embedding

FuXi-2改进

• 引入更多变量和更高分辨率
• 改进的训练策略，增加了更长的自回归展开步数
• 集合预报版本 FuXi-ENS

技术细节

属性	详情
分辨率	0.25° × 0.25°, 13个气压层
预报变量	5个高空变量 + 5个地面变量
预报步长	6小时（自回归）
预报范围	15天
训练数据	ERA5 (39年, 1979-2017)

优势

• 首个ML模型在15天预报上匹敌ECMWF集合平均
• 级联策略有效缓解长期误差累积
• 训练和推理效率较高

劣势

• 需要维护多个独立模型
• 级联边界处可能存在不连续性
• 对降水等复杂变量的预报能力有限

3.6 GenCast (DeepMind, 2023)

论文: "GenCast: Diffusion-based ensemble forecasting for medium-range weather"作者: Ilan Price, Alvaro Sanchez-Gonzalez 等发表: Nature, 2025; arXiv 2312.15796

架构设计

• 核心组件: 条件扩散模型 + 图神经网络
• 基本思想: 与确定性模型不同，GenCast直接建模天气状态的概率分布，通过扩散去噪过程生成多个可能的未来状态
• 创新点:

1. 扩散模型用于天气预报: 使用score-matching训练的去噪扩散模型，每次生成一个集合成员
2. 条件生成: 以当前和前一时间步的天气状态为条件
3. 球面图上的扩散: 在icosahedral mesh上执行扩散过程，尊重球面几何
4. 概率校准: 生成的集合天然具有合理的离散度

技术细节

属性	详情
分辨率	0.25° × 0.25°
预报变量	80+ 个气象变量
预报步长	12小时
预报范围	15天
推理速度	全集合（~50成员）约8分钟
训练数据	ERA5 再分析数据

优势

• 概率预报: 在1320个评估目标中97.4%优于ECMWF ENS
• 极端天气: 更好地预测热带气旋、极端温度
• 物理一致性: 扩散模型生成的集合成员具有空间一致性
• 风电预测: 展示了下游应用价值
• 开源: 代码和权重已公开

劣势

• 推理时间比确定性模型长（每个成员需要多步去噪）
• 扩散模型训练复杂度较高
• 12小时时间步长限制了时间分辨率
• 在某些小尺度现象上仍有挑战

3.7 Aurora (Microsoft, 2024)

论文: "Aurora: A Foundation Model of the Earth System"作者: Cristian Bodnar, Wessel P. Bruinsma 等发表: Nature, 2025; arXiv 2405.13063

架构设计

• 核心组件: 柔性3D Swin Transformer + Perceiver-based编码/解码
• 基本思想: 构建一个统一的地球系统基础模型，通过大规模预训练+领域微调，实现天气、空气质量、海浪等多任务预报
• 创新点:

1. 大规模异构预训练: 在超过100万小时的多源数据上预训练（不仅限于ERA5）
2. 灵活的输入/输出: 使用perceiver-like架构处理不同分辨率和变量组合
3. 多领域微调: 一个基础模型微调用于多个地球系统任务
4. LoRA适配: 使用低秩适配实现高效微调

技术细节

属性	详情
分辨率	0.25° (天气), 0.1° (高分辨率版本)
预报范围	取决于微调任务
预训练数据	ERA5 + CMIP6 + 多源数据，超过100万小时
参数量	1.3B（大型版本）
框架	PyTorch

优势

• 基础模型范式，一次训练多任务应用
• 超越专用模型在多个领域的表现
• 可处理多种分辨率和变量
• 在空气质量、海浪等非传统任务上也表现优秀
• 推理成本远低于传统方法

劣势

• 预训练成本高（大规模GPU集群）
• 基础模型的黑箱特性更强
• 微调仍需领域专业知识
• 某些特定任务上可能不如专门设计的模型

3.8 NeuralGCM (Google, 2023)

论文: "Neural General Circulation Models for Weather and Climate"作者: Dmitrii Kochkov, Janni Yuval 等发表: Nature, 2024; arXiv 2311.07222

架构设计

• 核心组件: 可微分动力学求解器 + 神经网络参数化
• 基本思想: 保留传统GCM的大尺度动力学核心（求解原始方程），但用神经网络替代传统的物理参数化方案（辐射、对流、边界层等）
• 创新点:

1. 端到端可微分: 整个系统（动力学+ML参数化）端到端可微分
2. 物理+数据驱动混合: 大尺度运动由物理方程约束，亚网格过程由ML学习
3. 天气+气候统一: 同一模型框架可用于5-15天天气预报和数十年气候模拟

技术细节

属性	详情
分辨率	0.7°, 1.4°, 2.8° 多个版本
预报范围	天气(1-15天) 及气候(数十年)
训练数据	ERA5
框架	JAX
垂直层	多层sigma坐标

优势

• 物理一致性: 保证了质量、能量守恒等物理约束
• 可解释性: 动力学部分可解释，ML部分仅负责参数化
• 天气+气候: 唯一能在同一框架内处理天气和气候的AI模型
• 涌现现象: 能产生真实的热带气旋频率和轨迹
• 开源: 基于JAX的开源实现

劣势

• 由于保留物理求解器，推理速度不如纯ML模型
• 分辨率目前低于0.25°级别的纯ML模型
• 物理核心的计算瓶颈
• 耦合训练的稳定性挑战

3.9 AIFS (ECMWF, 2024)

论文: "AIFS - ECMWF's data-driven forecasting system"作者: Simon Lang 等发表: arXiv 2406.01465

架构设计

• 核心组件: GNN Encoder + Sliding Window Transformer Processor + GNN Decoder
• 基本思想: 结合GNN和Transformer的优势，GNN处理非规则网格映射，Transformer处理全局信息交互
• 创新点:

1. 模块化设计: Encoder/Processor/Decoder可独立替换和优化
2. 多级并行: 支持数据并行、模型并行等多种并行策略
3. 业务化设计: 从一开始就面向实际业务运行设计

技术细节

属性	详情
分辨率	0.25° × 0.25°
训练数据	ERA5 + ECMWF业务分析场
运行频率	每天运行4次（与HRES同步）
状态	已投入准业务化运行

优势

• 业务化运行: 唯一真正投入业务化运行的AI天气预报模型
• 实际验证: 经过ECMWF严格的业务化验证流程
• 持续改进: 由ECMWF持续维护和改进的活跃项目
• 开放数据: 预报结果通过ECMWF开放数据政策公开

劣势

• 作为业务系统，论文中公开的技术细节相对较少
• 目前主要作为补充而非替代HRES

3.10 ClimaX (Microsoft/UCLA, 2023)

论文: "ClimaX: A foundation model for weather and climate"作者: Tung Nguyen, Johannes Brandstetter 等发表: ICML 2023; arXiv 2301.10343

架构设计

• 核心组件: 扩展的Vision Transformer + 变量特定嵌入 + 变量聚合
• 基本思想: 构建灵活的基础模型，能处理不同变量集、不同分辨率的输入
• 创新点:

1. 变量无关的输入处理: 每个变量独立tokenize，通过variable aggregation融合
2. CMIP6预训练: 在大量气候模拟数据上自监督预训练
3. 灵活性: 预训练时可使用不同的变量子集

技术细节

属性	详情
分辨率	可处理多种分辨率 (5.625° 预训练, 1.40625° 微调)
预训练数据	CMIP6气候模拟数据
微调数据	ERA5
开源	完全开源 (github.com/microsoft/ClimaX)

优势

• 灵活的基础模型设计
• 在低分辨率和有限计算预算下也有竞争力
• 能处理非标准变量组合
• 完全开源

劣势

• 在0.25°分辨率的天气预报上不如专门的模型
• 较低的原生分辨率
• 预训练-微调gap

3.11 Stormer (UCLA/ANL, 2023)

论文: "Stormer: A Simple, Efficient and Scalable Transformer for Weather Forecasting"作者: Tung Nguyen, Rohan Shah 等发表: NeurIPS 2024; arXiv 2312.03876

架构设计

• 核心组件: 标准Vision Transformer + 气象特定改进
• 基本思想: 证明标准Transformer架构经过恰当的改进就能达到SOTA水平，无需复杂的专用架构
• 创新点:

1. weather-specific embedding: 针对气象数据的嵌入层设计
2. 随机化动态预报 (randomized dynamics forecast): 训练时使用随机时间间隔
3. 气压加权损失: 不同气压层使用不同权重

优势

• 架构简洁，易于实现和扩展
• 7天以上预报超越其他方法
• 训练数据和计算量需求远小于其他模型
• 良好的scaling特性
• 完全开源

劣势

• 在短期预报上可能不如专门优化的模型
• 标准ViT结构在超高分辨率时计算量大

3.12 其他重要模型

Keisler GNN (2022)

• 作者: Ryan Keisler
• 意义: 早期证明GNN可接近NWP水平的先驱工作
• 特点: 使用GNN进行6小时步长的自回归预报，在ERA5和GFS数据上训练

SEEDS (Google, 2023)

• 特点: 使用扩散的集合生成模型
• 意义: 从少量种子成员（如HRES预报）快速生成大规模集合，极大降低集合预报成本

FuXi-Extreme (复旦, 2023)

• 特点: FuXi + 扩散模型，专门针对极端天气事件
• 意义: 用扩散模型解决确定性模型低估极端降水和强风的问题

FuXi-S2S (复旦, 2024)

• 特点: 将AI预报扩展到次季节-季节(S2S)尺度，预报范围达42天
• 意义: 首个在S2S尺度具有竞争力的纯ML模型

Pangu-Sigma (华为, 2024)

• 特点: 将Pangu-Weather从气压层坐标改为sigma(地形追随)坐标
• 意义: 改善了近地面和复杂地形区域的预报质量

Prithvi WxC (NASA/IBM, 2024)

• 特点: 基于MERRA-2再分析数据预训练的基础模型，支持160个变量
• 意义: NASA与IBM联合开发的开放基础模型，面向多种气候和天气下游任务

AtmoRep (Juelich, 2023)

• 特点: BERT式掩码token预测的大气自监督表征学习
• 意义: 在欧洲超算中心开发，探索大规模无标签预训练用于大气科学

SwinVRNN (清华, 2023)

• 特点: Swin Transformer + 变分RNN
• 意义: 学习扰动策略实现集合预报离散度控制

W-MAE (Salesforce, 2023)

• 特点: 天气领域的Masked Autoencoder预训练
• 意义: 将MAE自监督预训练范式成功引入天气预报

CorrDiff (NVIDIA, 2023)

• 特点: 基于残差扩散模型的超分辨率/降尺度(25km→2km)
• 意义: 生成物理一致的高分辨率天气场

FengWu-GHR (上海AI Lab, 2024)

• 特点: 0.09°(~9km)分辨率的全球AI天气预报
• 意义: 目前最高分辨率的全球AI天气模型之一

FengWu-4DVar / FengWu-Adas (上海AI Lab, 2024)

• 特点: 将可微FengWu模型嵌入四维变分(4DVar)数据同化
• 意义: 探索AI预报与数据同化的端到端耦合，迈向全链路AI天气系统

NeuralLAM (Linkoping Univ., 2023-2024)

• 特点: 专为有限区域(LAM)设计的GNN天气预报
• 意义: 开源的区域天气预报方案，在北欧区域验证

MetNet-3 (Google, 2023)

• 特点: 区域短临预报(0-24小时)，轴向注意力 + lead time conditioning
• 意义: 在美国区域短期降水预报上超越NWP（注：非全球中期模型）

4. 训练数据

4.1 ERA5再分析数据

ERA5 (ECMWF Reanalysis v5) 是当前几乎所有AI天气预报模型的核心训练数据源。

基本信息

属性	详情
生产者	ECMWF (欧洲中期天气预报中心)
时间范围	1940年1月 - 至今（持续更新，通常滞后约5天）
空间分辨率	0.25° × 0.25° (约31km)，对应谱分辨率TL639
时间分辨率	逐小时（较ERA-Interim的6小时有重大改进）
垂直层	137个模式层（地面至0.01hPa/~80km）；同时提供37个标准气压层
变量	240+个大气、地面、海洋变量
数据量	约5PB (完整数据集)
获取方式	CDS (Climate Data Store) 免费下载
生产方法	IFS Cy41r2 + 4D-Var数据同化（12小时同化窗口）
同化观测量	早期75万/每12h窗口，近年2400万/每12h窗口
不确定性估计	10成员集合（0.5°分辨率）提供不确定性范围

37个标准气压层 (hPa): 1000, 975, 950, 925, 900, 875, 850, 825, 800, 775, 750, 700, 650, 600, 550, 500, 450, 400, 350, 300, 250, 225, 200, 175, 150, 125, 100, 70, 50, 30, 20, 10, 7, 5, 3, 2, 1

注意: 1979年前数据为"初步"版本，由于卫星观测缺乏，不确定性明显更大

主要变量

• 高空变量: 位势高度(Z)、温度(T)、U风、V风、相对/比湿度(Q)
• 地面变量: 2米温度(T2m)、10米风(U10/V10)、平均海平面气压(MSLP)、总降水量(TP)、总辐射等
• 静态变量: 地形高度、土地类型、海陆掩膜

各模型数据使用对比

模型	训练年份	变量数	气压层数	气压层选择	特殊处理
FourCastNet	1979-2015	~20	部分层	选取部分关键层	标准化
Pangu-Weather	1979-2021	69 (5×13+4)	13	50,100,150,200,250,300,400,500,600,700,850,925,1000	3D cube
GraphCast	1979-2017	227 (6×37+5+静态)	37	全部37个标准层	图结构映射+5个静态/强迫场
FengWu	39年	类似GraphCast	37	全部37个标准层	多模态分割
FuXi	1979-2017	~69 (类似Pangu)	13	同Pangu-Weather	Cube Embedding
GenCast	多decade	80+	多层	多层	扩散输入处理, 12h步长
Aurora	100万+小时	灵活	灵活	灵活	多源异构(ERA5+CMIP6+业务分析)
NeuralGCM	ERA5	动力学变量	sigma坐标	连续sigma层	物理态变量, prescribed SST
ClimaX	CMIP6+ERA5	灵活	灵活	灵活	CMIP6预训练→ERA5微调

4.2 数据预处理

常见预处理流程

1. 空间降采样: 部分模型将0.25°降为较低分辨率训练
2. 标准化/归一化: 通常使用逐变量、逐层的均值-标准差标准化
3. 纬度加权: 考虑经纬度网格在不同纬度面积不同
4. 时间采样: 多数模型使用6小时步长(00/06/12/18Z)
5. 数据分割: 典型分割为1979-2015训练 / 2016-2017验证 / 2018+测试

4.3 数据挑战

1. 分布偏移: ERA5作为再分析数据，与真正的业务分析场存在差异
2. 极端事件稀有性: 训练数据中极端天气事件样本不足
3. 时间非平稳性: 气候变化导致数据分布随时间变化
4. 变量完整性: 某些要素（如降水）在再分析中质量较低
5. 观测不均匀: 南半球、海洋区域的观测稀疏影响ERA5质量

5. 评估方法与基准

5.1 标准评估指标

确定性指标

• RMSE (Root Mean Square Error): 最常用的评估指标，通常使用纬度加权（因为等经纬度网格在高纬度区域网格更密）其中为纬度权重
• ACC (Anomaly Correlation Coefficient): 异常相关系数，衡量预报异常场与实况异常场的空间相关其中为气候平均值。ACC > 0.6 通常被认为是有用预报的阈值
• MAE (Mean Absolute Error): 平均绝对误差
• Bias: 系统偏差

概率预报指标

• CRPS (Continuous Ranked Probability Score): 用于评估概率预报的综合指标，越小越好
• Spread-Skill Ratio: 集合离散度与预报误差的比值
• Reliability Diagram: 校准曲线
• Brier Score: 用于概率预报的二分类评价

5.2 对比基准

ECMWF HRES (IFS)

• 全球最优秀的确定性NWP模型
• 分辨率: 0.1° (约9km)
• 是AI模型的主要对比基准
• 在WeatherBench 2中作为最强baseline

ECMWF ENS

• HRES的集合版本，51个成员
• 概率预报的对比基准
• GenCast等概率模型与之对比

GFS (Global Forecast System)

• 美国NCEP运行的全球模型
• 另一个常用baseline

5.3 WeatherBench 2

WeatherBench 2 (Rasp et al., 2023) 是当前最权威的ML天气预报评估基准。

核心特征

• 标准化的评估框架和数据集
• 统一的headline scores定义
• 持续更新的排行榜 (sites.research.google/weatherbench)
• 包含物理模型和数据驱动模型的结果
• 开放数据：训练数据、ground truth、baseline数据

Headline Scores

• Z500 (500hPa位势高度) RMSE/ACC
• T850 (850hPa温度) RMSE
• T2m (2米温度) RMSE
• U10/V10 (10米风) RMSE
• Q700 (700hPa比湿度) RMSE
• MSLP (平均海平面气压) RMSE

5.4 各模型性能对比

Z500 RMSE (m²/s²) — 不同Lead Time

模型	3天	5天	7天	10天
ECMWF HRES	~100	~250	~450	~700
GraphCast	~95	~230	~420	~680
Pangu-Weather	~100	~240	~430	~700
FengWu	~93	~225	~410	~651
FuXi	~98	~235	~425	~690
GenCast (ens mean)	~90	~220	~400	~650

注：以上数值为近似值，基于各论文报告和WeatherBench 2结果

关键发现

1. 大多数顶级AI模型在3-7天范围内超越HRES
2. 10天以上预报，级联模型(FuXi)和集合方法(GenCast)优势更明显
3. 热带气旋路径预报，AI模型普遍优于NWP；但强度预报（最大风速、最低气压）AI系统性低估（ERA5在0.25°下仅捕获60-70%的真实TC强度）
4. 降水预报仍是AI模型的弱项
5. 极端事件强度预报（如台风最大风速）AI模型倾向于低估
6. Z500 ACC=0.6有效预报时限：HRES约9.5天，GraphCast/Pangu约10天，提升约0.5-1天——相当于传统NWP约10年的改进量

5.5 当前评估方法的局限

1. 循环验证问题: AI模型在ERA5上训练又在ERA5上验证，对ERA5偏差具有"内在优势"。HRES产生的更物理合理的状态可能反而被判为"误差"。WeatherBench 2通过提供HRES分析场作为替代验证目标部分缓解此问题
2. RMSE奖励过度平滑: RMSE其实鼓励模糊预报，因为去除小尺度细节可降低对单一真值的误差。需要功率谱分析、结构函数等补充指标
3. 批量统计掩盖极端事件: RMSE/ACC在时空上取平均，可能掩盖在特定事件上的灾难性失败
4. 降水评估不足: 降水高度非高斯、间歇性强；标准RMSE不适用，需要FSS(Fraction Skill Score)、Equitable Threat Score、面向对象(object-based)方法
5. 缺乏物理一致性评估: 很少系统评估AI模型是否产生负湿度、违反静力平衡等非物理状态
6. 缺乏条件/分层评估: 模型在不同流型（阻塞、NAO相位、ENSO状态）下表现可能差异很大
7. 初始场依赖性: ERA5初始化(回顾性、最优分析)的评估结果 ≠ 业务初始化(实时、有数据时延)的评估结果

6. 工程化与部署

6.1 训练资源对比

模型	GPU/TPU	数量	训练时间	框架
FourCastNet	A100 80GB	64 (Selene超算)	~16小时 (单步) + 微调	PyTorch (NVIDIA Modulus)
Pangu-Weather	V100	192	~16天 (4个模型)	MindSpore (华为), 社区PyTorch/ONNX
GraphCast	TPU v4 (32GB HBM)	32	3-4周	JAX / Jraph
FengWu	A100 80GB	32	~10天	PyTorch
FuXi	A100 80GB	8 (每个子模型)	~5天/子模型	PyTorch
GenCast	TPU v5e	32-64 (估计)	数周 (扩散模型更昂贵)	JAX
Aurora	A100 80GB	4 (微调), 大集群(预训练)	~2天微调, 数周预训练	PyTorch
NeuralGCM	TPU v4	32	数天-数周	JAX
AIFS	A100 80GB	64 (ECMWF Atos HPC)	数天-数周	PyTorch
Stormer	A100	4-8	数天	PyTorch

说明:

• Transformer/Attention类模型(FourCastNet, Pangu, Aurora)训练时通常需要每卡40-80GB显存，因此A100 80GB成为主流选择
• GraphCast的GNN在多尺度icosahedral mesh上的图操作内存密集，需要TPU v4的高带宽内存
• GenCast作为扩散模型，需要多步去噪和存储中间状态，内存需求高于确定性模型
• FuXi以较少的硬件资源(8×A100)实现了有竞争力的性能，工程效率突出

6.2 推理效率

模型	单步推理时间	10天预报总时间	对比HRES
FourCastNet	<50ms	~2秒	~百万倍加速
Pangu-Weather	~1.4秒	~1分钟	~万倍加速
GraphCast	~60秒	~1分钟	~千倍加速
FengWu	~600ms	~1分钟	~万倍加速
FuXi	~数百ms	~30秒	~万倍加速
GenCast	~8分钟(全集合)	~8分钟	~千倍加速
NeuralGCM	分钟级	数分钟	~百倍加速
HRES (传统NWP)	N/A	~1小时	基准

6.3 开源状态

模型	代码开源	权重开源	许可证
FourCastNet	✅	✅	BSD-3
Pangu-Weather	✅ (推理)	✅	自定义
GraphCast	✅	✅	Apache 2.0
FengWu	部分	部分	CC BY-NC-ND
FuXi	✅	✅	CC BY 4.0
GenCast	✅	✅	Apache 2.0
Aurora	✅	✅	微软许可
NeuralGCM	✅	✅	Apache 2.0
ClimaX	✅	✅	MIT
Stormer	✅	✅	开放
AIFS	✅	部分	Apache 2.0

6.4 业务化部署现状

ECMWF AIFS — 最成熟的业务化

• 2024年6月起每天运行4次
• 与HRES并行运行，预报结果在ECMWF图表平台(charts.ecmwf.int)作为"实验"产品展示
• 预报结果通过ECMWF开放数据政策公开
• 持续改进中

ECMWF AIFS路线图:

• Phase 1 (2024): AIFS作为实验产品运行，使用图神经网络架构
• Phase 2 (2025): 更深集成 — AIFS输出用于集合后处理和灾害天气预警
• Phase 3 (2026-2027): AIFS可能成为正式的确定性/集合预报组件，与IFS并行或部分替代
• 长期愿景: 物理动力核心(IFS)与ML组件(AIFS)协同的混合系统

NVIDIA Earth-2平台

• 提供FourCastNet、CorrDiff等模型的云端推理
• 面向企业和研究机构的API服务，集成NVIDIA Omniverse用于3D可视化
• CorrDiff: 条件扩散模型，将25km AI预报降尺度到2km分辨率
• StormCast (2024): NVIDIA区域对流尺度AI模型，专注于风暴级预测
• 与The Weather Company(IBM)、各国气象局及私营气象公司合作

Microsoft天气AI生态

• Aurora: 地球系统基础模型，已集成Azure云服务
• ClimaX: 较早期的基础模型，ICML 2023发表
• Azure Maps/Azure AI集成，面向企业客户提供AI天气服务
• 与ECMWF、NOAA等机构合作

各国气象局探索

• 中国气象局：Zhiji系统探索中
• 英国Met Office：与DeepMind合作探索GraphCast/GenCast
• 多国气象局评估AI模型作为NWP补充

6.6 AI模型与传统NWP的互补关系

当前共识是互补而非替代：

方面	传统NWP	AI模型	结合方式
物理约束	显式求解，守恒律保证	隐式学习，无保证	混合模型(NeuralGCM式)
速度	小时级	秒-分钟级	AI用于快速更新，NWP用于锚定
分辨率	高(局地模型<1km)	粗(~25km全球)	AI全球 + AI降尺度
集合预报	昂贵(50成员=50倍成本)	廉价(GenCast式)	AI集合对NWP集合校准
数据同化	成熟(4D-Var, EnKF)	起步阶段	AI模型仍依赖NWP数据同化
极端事件	显式物理	可能遗漏罕见事件	预报员综合两者

已涌现的应用模式:

1. 快速集合生成: GenCast/AIFS在分钟内生成50+成员的概率图
2. 间隙填充: AI模型在NWP运行间隔生成预报（如逐小时更新代替每6小时）
3. 后处理改善: AI模型对NWP输出进行偏差校正、降尺度、校准
4. 热带气旋追踪: AI模型在TC路径预报上展现特殊技巧，已被部分机构用作参考

6.7 业务化挑战

1. 可靠性: AI模型偶现异常预报（如不符合物理规律的输出），业务系统需要质控
2. 可解释性: 黑箱模型难以解释预报原因，影响预报员信任
3. 初始场依赖: 需要传统数据同化系统提供初始场
4. 极端事件: 在极端天气强度预报上的系统性低估
5. 物理一致性: 不保证质量守恒、能量守恒等
6. 变量完整性: 多数模型只预报有限变量，不能满足全部业务需求
7. 区域适应性: 全球模型在区域尺度表现可能不足

7. 当前局限与未来方向

7.0 跨模型关键洞察

在深入分析各模型后，有几个贯穿性的洞察值得强调：

球面几何处理——方法谱系

不同模型对地球球面几何的处理差异很大，直接影响预报质量：

• 最佳: NeuralGCM（球谐函数，精确处理）、GraphCast/GenCast（正二十面体网格，近均匀覆盖）
• 中等: Pangu-Weather（Earth-Specific位置编码）、AIFS（缩减高斯网格）
• 基础: FourCastNet, ClimaX, Aurora, Stormer, FuXi, FengWu（等经纬度网格+纬度加权）

训练策略与架构同等重要

GraphCast的多步课程学习训练可能与其GNN架构同等重要。仅做单步训练的模型（早期FourCastNet）在长期rollout中误差严重累积，而采用多步微调的模型（GraphCast, FengWu, Aurora）显著更稳健。

确定性→概率：前沿已转移

领域重心已从确定性预报（2022-2023）转向概率预报（GenCast, 2024）。集合预报能力对业务使用至关重要，因为不确定性信息是决策的关键依据。

基础模型vs专用模型：两种哲学

• (a) 专用模型: 针对单一任务优化（GraphCast, Pangu）— 当前性能最强
• (b) 基础模型: 广泛预训练后微调（ClimaX, Aurora）— 长期可能主导，因为摊销训练成本并支持迁移到数据稀疏任务

残差预测是通用策略

GraphCast等模型预测的是当前状态的**变化量（残差）**而非绝对状态，这一简单技巧有效利用了大气状态的短期持续性。

7.1 当前主要局限

预报模糊化 (Blurring)

• MSE/MAE损失函数倾向于预报气候平均，特别是在长lead time
• 细小尺度特征（锋面、对流等）逐渐丢失
• 解决方向: 扩散模型(GenCast)、对抗训练、频域损失

物理不一致

• 不保证质量守恒、能量守恒
• 可能产生气象学上不合理的状态
• 解决方向: 物理约束损失、NeuralGCM类混合方法、后处理修正

极端事件低估

• 训练数据中极端事件稀少，模型倾向于保守预报
• 台风最大风速、极端降水量系统性偏低
• 解决方向: focalloss、oversampling极端事件、条件训练

降水预报困难

• 降水的间断性和高度局地性使其难以预报
• 大多数模型在降水评分上不如NWP
• 解决方向: 单独的降水后处理模型、生成模型

初始场问题

• 当前AI模型依赖ERA5或NWP分析场作为初始条件
• 如何建立端到端的AI数据同化+预报系统是开放问题
• 解决方向: DiffDA等AI数据同化方法

7.2 未来发展方向

1. 更高分辨率: 从0.25°向0.1°甚至更高推进
2. 端到端系统: 从观测到预报的全链路AI系统（含数据同化）
3. 耦合模型: 大气-海洋-冰-陆面耦合的AI模型
4. 气候尺度: 从天气预报扩展到季节预报和气候投影
5. 区域细化: AI降尺度和区域化方法
6. 多模态融合: 卫星遥感、雷达、地面观测等多源数据融合
7. 可解释AI: 增强模型可解释性以赢得预报员信任
8. 实时学习: 在线学习适应最新大气状态

8. 总结对比表

模型	机构	年份	架构	分辨率	预报范围	类型	核心创新	主要优势	主要劣势
FourCastNet	NVIDIA	2022	AFNO	0.25°	7天	确定性	傅里叶域注意力	极快推理	精度已被超越
Pangu-Weather	华为	2022	3D Earth Transformer	0.25°	7天	确定性	3D处理+多步长	首个超越NWP	多模型维护
GraphCast	DeepMind	2022	GNN	0.25°	10天	确定性	多尺度图	全面开源	确定性仅
FengWu	上海AI Lab	2023	多模态Transformer	0.25°	10.75天	确定性	多模态融合	超越GraphCast	复杂度高
FuXi	复旦	2023	U-Transformer	0.25°	15天	确定性	级联策略	15天预报	边界不连续
FuXi-Extreme	复旦	2023	FuXi+扩散	0.25°	5天	概率	扩散增强极端事件	极端天气更准	限于特定变量
FuXi-S2S	复旦	2024	级联Transformer	0.25°	42天	确定性	S2S尺度预报	超长期预报	技巧有限
GenCast	DeepMind	2023	扩散+GNN	0.25°	15天	概率	扩散概率预报	概率校准	推理较慢
SEEDS	Google	2023	扩散	0.25°	集合生成	概率	快速集合生成	巨大集合	依赖种子
Aurora	Microsoft	2024	3D Swin+Perceiver	0.25°~0.1°	多任务	基础模型	大规模异构预训练	多任务通用	预训练成本高
NeuralGCM	Google	2023	物理+ML混合	0.7°-2.8°	天气+气候	混合	端到端可微	物理一致	分辨率较低
AIFS	ECMWF	2024	GNN+Transformer	0.25°	10天	确定性+集合	业务化设计	已业务运行	技术细节少
ClimaX	MS/UCLA	2023	ViT	多尺度	灵活	基础模型	变量无关	灵活通用	精度有限
Stormer	UCLA/ANL	2023	ViT	0.25°	14天	确定性	随机时间训练	简洁高效	短期稍弱
Pangu-Sigma	华为	2024	Transformer(sigma坐标)	0.25°	7天	确定性	sigma坐标	地形区改善	限于Pangu框架
Prithvi WxC	NASA/IBM	2024	基础模型	灵活	灵活	基础模型	MERRA-2预训练	160变量	精度待验证
FengWu-GHR	上海AI Lab	2024	Transformer	0.09°	10天	确定性	~9km高分辨率	最高分辨率	计算量大
Keisler GNN	个人	2022	GNN	1°	10天	确定性	早期GNN天气	先驱工作	分辨率低
CorrDiff	NVIDIA	2023	扩散	25km→2km	降尺度	概率	残差扩散降尺度	高分辨率生成	依赖粗分辨率输入
NeuralLAM	Linkoping	2023	GNN	区域	区域	确定性	GNN区域预报	开源区域方案	仅限区域

模型适用场景推荐

使用场景	推荐模型
快速确定性天气预报	GraphCast, FengWu
概率/集合预报	GenCast, SEEDS
超长期预报（10-15天）	FuXi, GenCast
次季节-季节(S2S)预报	FuXi-S2S
极端天气预报	FuXi-Extreme, GenCast
多任务地球系统	Aurora
天气+气候统一	NeuralGCM
业务化部署参考	AIFS
高分辨率全球预报	FengWu-GHR
降尺度/超分辨率	CorrDiff
区域有限区域预报	NeuralLAM
端到端AI同化+预报	FengWu-4DVar/Adas
教学/研究入门	ClimaX, Stormer
快速原型/大集合	FourCastNet
复杂地形区近地面预报	Pangu-Sigma

参考文献

1. Pathak, J. et al. "FourCastNet: A Global Data-driven High-resolution Weather Model using Adaptive Fourier Neural Operators" arXiv:2202.11214, 2022.
2. Bi, K. et al. "Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast" Nature, 2023.
3. Lam, R. et al. "Learning skillful medium-range global weather forecasting" Science, 2023.
4. Chen, K. et al. "FengWu: Pushing the Skillful Global Medium-range Weather Forecast beyond 10 Days Lead" Commun. Earth Environ., 2025.
5. Chen, L. et al. "FuXi: A cascade machine learning forecasting system for 15-day global weather forecast" npj Climate and Atmospheric Science, 2023.
6. Price, I. et al. "GenCast: Diffusion-based ensemble forecasting for medium-range weather" Nature, 2025.
7. Bodnar, C. et al. "Aurora: A Foundation Model of the Earth System" Nature, 2025.
8. Kochkov, D. et al. "Neural General Circulation Models for Weather and Climate" Nature, 2024.
9. Lang, S. et al. "AIFS - ECMWF's data-driven forecasting system" arXiv:2406.01465, 2024.
10. Nguyen, T. et al. "ClimaX: A foundation model for weather and climate" ICML, 2023.
11. Nguyen, T. et al. "Stormer: A Simple, Efficient and Scalable Transformer for Weather Forecasting" NeurIPS, 2024.
12. Keisler, R. "Forecasting Global Weather with Graph Neural Networks" arXiv:2202.07575, 2022.
13. Rasp, S. et al. "WeatherBench 2: A benchmark for the next generation of data-driven global weather models" arXiv:2308.15560, 2023.
14. Hersbach, H. et al. "The ERA5 global reanalysis" Quarterly Journal of the Royal Meteorological Society, 2020.
15. Zhong, X. et al. "FuXi-Extreme: Improving extreme rainfall and wind speed prediction with diffusion model" arXiv, 2023.
16. Chen, L. et al. "FuXi-S2S: An AI-based Subseasonal-to-Seasonal Weather Forecasting Model" arXiv, 2024.
17. Bi, K. et al. "Pangu-Sigma: A Foundation Model for Weather Forecasting on Sigma Coordinates" arXiv, 2024.
18. Li, J. et al. "SEEDS: Emulation of Weather Forecast Ensembles with Diffusion Models" arXiv, 2023.
19. Chen, K. et al. "FengWu-GHR: Learning the Global High-Resolution Weather Forecasting" arXiv, 2024.
20. Chen, K. et al. "FengWu-4DVar: Coupling the Data-driven Weather Forecasting Model with 4D Variational Assimilation" arXiv, 2024.
21. Mardani, M. et al. "Residual Corrective Diffusion Modeling for Km-scale Atmospheric Downscaling" arXiv, 2023.
22. Oskarsson, J. et al. "NeuralLAM: A Graph Neural Network for Limited Area Weather Forecasting" arXiv, 2023.
23. Andrychowicz, M. et al. "MetNet-3: A Neural Weather Model for Precipitation Forecasting" arXiv, 2023.
24. Nguyen, T. et al. "Prithvi WxC: Foundation Model for Weather and Climate" arXiv, 2024.
25. Lessig, C. et al. "AtmoRep: A stochastic model of atmosphere dynamics using large scale representation learning" arXiv, 2023.
26. Man, Y. et al. "W-MAE: Pre-trained weather model with masked autoencoder for multi-variable weather forecasting" arXiv, 2023.
27. Chen, H. et al. "SwinRDM: Integrate SwinRNN with Diffusion Model towards High-Resolution and High-Quality Weather Forecasting" arXiv, 2023.

注: 本报告基于截至2026年初的公开信息。AI天气预报领域发展极为迅速，建议定期查阅WeatherBench 2排行榜 (sites.research.google/weatherbench) 获取最新结果。

目录

1. 概述

发展时间线

2. 模型全景图

2.1 主要模型分类

A. 确定性预报模型（Deterministic）

B. 概率/集合预报模型（Probabilistic/Ensemble）

C. 基础模型（Foundation Model）

D. 物理-ML混合模型（Hybrid Physics-ML）

E. 极端天气与特殊用途模型

F. 数据同化与端到端系统

G. 区域与降尺度模型

H. 其他值得关注的模型

3. 各模型详细分析

3.1 FourCastNet (NVIDIA, 2022)

架构设计

技术细节

训练策略

优势

劣势

3.2 Pangu-Weather (华为, 2022)

架构设计

技术细节

训练策略

优势

劣势

3.3 GraphCast (DeepMind, 2022)

架构设计

技术细节

训练策略

优势

劣势

3.4 FengWu (上海AI实验室, 2023)

架构设计

技术细节

优势

劣势

3.5 FuXi / FuXi-2 (复旦大学, 2023/2024)

架构设计

FuXi-2改进

技术细节

优势

劣势

3.6 GenCast (DeepMind, 2023)

架构设计

技术细节

优势

劣势

3.7 Aurora (Microsoft, 2024)

架构设计

技术细节

优势

劣势

3.8 NeuralGCM (Google, 2023)

架构设计

技术细节

优势

劣势

3.9 AIFS (ECMWF, 2024)

架构设计

技术细节

优势

劣势

3.10 ClimaX (Microsoft/UCLA, 2023)

架构设计

技术细节

优势

劣势

3.11 Stormer (UCLA/ANL, 2023)

架构设计

优势

劣势

3.12 其他重要模型

Keisler GNN (2022)

SEEDS (Google, 2023)

FuXi-Extreme (复旦, 2023)

FuXi-S2S (复旦, 2024)

Pangu-Sigma (华为, 2024)

Prithvi WxC (NASA/IBM, 2024)

AtmoRep (Juelich, 2023)