
目录
1. 概述 2. 模型全景图 3. 各模型详细分析 4. 训练数据 5. 评估方法与基准 6. 工程化与部署 7. 当前局限与未来方向 8. 总结对比表
1. 概述
近年来,基于深度学习的天气预报模型发展迅猛,标志着天气预报领域的范式转变。传统数值天气预报(NWP)依赖于求解大气物理方程(如原始方程组),需要巨大的计算资源(超级计算机)且预报一次需要数小时。而AI模型通过直接从历史再分析数据中学习大气演化规律,能够在秒级到分钟级内生成全球预报,且在多数指标上已达到甚至超越了ECMWF的HRES(高分辨率确定性预报)水平。
发展时间线
2. 模型全景图
2.1 主要模型分类
根据建模方法,可将现有AI天气预报模型分为以下几类:
A. 确定性预报模型(Deterministic)
• FourCastNet (NVIDIA, 2022) • Pangu-Weather (华为, 2022) • GraphCast (DeepMind, 2022) • FengWu (上海AI实验室, 2023) • FuXi / FuXi-2 (复旦大学, 2023/2024) • Stormer (UCLA/ANL, 2023) • AIFS (ECMWF, 2024)
B. 概率/集合预报模型(Probabilistic/Ensemble)
• GenCast (DeepMind, 2023) — 扩散模型 • SEEDS (Google, 2023) — 扩散模型生成集合成员 • FuXi-ENS (复旦, 2024) — FuXi的集合预报版本
C. 基础模型(Foundation Model)
• ClimaX (Microsoft/UCLA, 2023) — 天气+气候基础模型 • Aurora (Microsoft, 2024) — 地球系统基础模型 • W-MAE (2023) — 自监督预训练
D. 物理-ML混合模型(Hybrid Physics-ML)
• NeuralGCM (Google, 2023) — 可微分动力学+ML参数化
E. 极端天气与特殊用途模型
• FuXi-Extreme (复旦, 2023) — 扩散模型增强极端降水和风速预报 • FuXi-S2S (复旦, 2024) — 次季节到季节尺度预报(42天) • Pangu-Sigma (华为, 2024) — sigma坐标系改进近地面和山区预报
F. 数据同化与端到端系统
• FengWu-4DVar (上海AI Lab, 2024) — AI预报模型嵌入4DVar同化 • FengWu-Adas (上海AI Lab, 2024) — 端到端可微数据同化系统 • DiffDA (2024) — 基于扩散的数据同化
G. 区域与降尺度模型
• CorrDiff (NVIDIA, 2023) — 基于扩散的降尺度(25km→2km) • NeuralLAM (Linkoping Univ., 2023) — GNN区域有限区域预报 • MetNet / MetNet-2 / MetNet-3 (Google, 2020/2021/2023) — 区域短期降水预报(非全球中期)
H. 其他值得关注的模型
• Keisler GNN (2022) — 早期GNN天气预报先驱 • AtmoRep (Juelich超算中心, 2023) — BERT式大气表征学习 • SwinRDM (清华, 2023) — Swin Transformer + 残差扩散 • SwinVRNN (清华, 2023) — Swin Transformer + 变分RNN集合预报 • W-MAE (Salesforce, 2023) — 天气Masked Autoencoder预训练 • Prithvi WxC (NASA/IBM, 2024) — 基于MERRA-2再分析的基础模型,160个变量 • FengWu-GHR (上海AI Lab, 2024) — 0.09°(~9km)高分辨率全球预报 • Zhiji (清华, 2024) — 高分辨率区域AI预报 • WeatherDiff (2023) — 扩散模型天气预报 • Aardvark Weather (英国Alan Turing研究所衍生, 2024) — 基础模型方法的业务预报初创公司 • WindBorne AI (WindBorne Systems, 2024-2025) — 结合专有气球观测与AI模型
3. 各模型详细分析
3.1 FourCastNet (NVIDIA, 2022)
论文: "FourCastNet: A Global Data-driven High-resolution Weather Model using Adaptive Fourier Neural Operators"作者: Jaideep Pathak, Shashank Subramanian 等发表: arXiv 2202.11214
架构设计
• 核心组件: Adaptive Fourier Neural Operator (AFNO) • 基本思想: 在傅里叶空间中高效执行全局注意力机制。AFNO先将输入进行2D FFT变换到频域,在频域中执行token mixing(通过MLP),再逆变换回空间域 • 网络结构: 类Vision Transformer的patch embedding (patch size 8) + 多层AFNO block (通常8个block)。每个block包含:LayerNorm → AFNO token mixer → LayerNorm → MLP前馈网络 • 优势: 在频域中实现全局感受野,计算复杂度为O(N log N),远低于标准Transformer的O(N²)
技术细节
| 分辨率 | |
| 预报变量 | |
| 预报步长 | |
| 训练数据 | |
| 推理速度 | |
| 参数量 |
训练策略
• 两阶段训练:先训练单步预报(6小时),再进行多步微调 • 损失函数:纬度加权MSE • 使用预训练+微调策略
优势
• 推理速度极快,可生成数千成员的大规模集合 • AFNO架构在处理全球场数据时计算效率高 • 开源代码和模型权重
劣势
• 较长lead time下预报存在平滑模糊问题 • 仅处理有限数量的变量 • 作为早期工作,在精度上已被后来的模型超越 • 降水预报能力有限
3.2 Pangu-Weather (华为, 2022)
论文: "Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast"作者: Kaifeng Bi, Lingxi Xie 等发表: Nature, 2023; arXiv 2211.02556
架构设计
• 核心组件: 3D Earth-Specific Transformer (3DEST) • 基本思想: 将大气状态建模为3D立体数据(经度×纬度×气压层),设计Earth-Specific的位置偏置来处理球面几何 • 创新点: 1. 3D立体处理: 不同于其他模型将垂直层展平为通道,Pangu直接在3D空间中操作 2. Earth-Specific位置偏置: 根据地球几何特性设计的注意力位置编码,考虑赤道与两极的差异 3. 层次化时间聚合: 训练4个独立模型分别负责1h、3h、6h、24h步长的预报,通过组合实现任意lead time
技术细节
| 分辨率 | |
| 预报变量 | |
| 预报步长 | |
| 训练数据 | |
| 参数量 | |
| 训练硬件 | |
| 训练时间 |
训练策略
• 每个时间步长单独训练一个模型 • 24小时模型直接跳跃预报,避免6小时步长的误差累积 • 损失函数:纬度加权MSE + 地面变量加权
优势
• 首个在Nature发表的AI天气预报模型 • 3D处理方式更好地捕获垂直层间的相互作用 • 多步长策略有效减少长期误差累积 • 在台风路径预报方面表现出色
劣势
• 需要训练4个独立模型,增加了训练和维护成本 • 3D Transformer计算量较大 • 模型间可能存在不一致性 • 未开源训练代码(仅提供推理代码和权重)
3.3 GraphCast (DeepMind, 2022)
论文: "Learning skillful medium-range global weather forecasting"作者: Remi Lam, Alvaro Sanchez-Gonzalez, Peter Battaglia 等发表: Science, 2023; arXiv 2212.12794
架构设计
• 核心组件: Encode-Process-Decode GNN框架 • 基本思想: 将地球离散化为多尺度图(icosahedral mesh),通过消息传递在图上进行信息流动 • 创新点: 1. 多尺度图结构: 使用icosahedral mesh建立6层不同分辨率的网格(从约2500km到约28km),通过边连接实现多尺度信息交互 2. 三步骤流程: • Encoder: 网格点→图节点的映射 • Processor: 16轮消息传递更新 • Decoder: 图节点→网格点的映射 3. 自回归训练: 通过2步展开(12小时)进行训练
技术细节
| 分辨率 | |
| 预报变量 | |
| 预报步长 | |
| 训练数据 | |
| 参数量 | |
| 训练硬件 | |
| 训练时间 |
训练策略
• 课程学习: 先训练1步预报,再扩展到2步展开 • 噪声注入: 在输入中加入随机噪声以提高鲁棒性 • 损失函数: 纬度和变量加权的MSE,不同变量和层使用独立权重以平衡贡献 • 框架: JAX / DeepMind Jraph • 梯度检查点: 使用gradient checkpointing将长rollout放入显存
优势
• 在Science发表,影响巨大 • 在WeatherBench 2上90%的变量/lead time组合超越HRES • 图结构自然适应球面几何 • 完全开源(代码+权重,Apache 2.0) • 参数量较少但性能很强
劣势
• 从图结构到经纬度网格的映射引入误差 • 单一确定性预报,缺乏不确定性量化 • 自回归推理时误差累积 • 在极端天气事件强度预报上仍有不足 • JAX实现可能限制某些用户的使用便捷性
3.4 FengWu (上海AI实验室, 2023)
论文: "FengWu: Pushing the Skillful Global Medium-range Weather Forecast beyond 10 Days Lead"作者: Kang Chen, Tao Han 等发表: Commun. Earth Environ., 2025; arXiv 2304.02948
架构设计
• 核心组件: 多模态多任务Transformer • 基本思想: 将不同类型的气象变量(高空场和地面场)视为不同模态,使用各自的encoder-decoder处理,并通过cross-attention进行融合 • 创新点: 1. 多模态融合: 高空变量和地面变量分别用独立编码器处理,通过cross-modal fusion Transformer交换信息 2. 不确定性损失: 自适应的region-adaptive不确定性权重,自动平衡不同区域和变量的损失 3. 回放缓冲机制 (Replay Buffer): 在训练中混合早期和后期时间步的数据,增强中期预报稳定性
技术细节
| 分辨率 | |
| 预报变量 | |
| 预报步长 | |
| 训练数据 | |
| 推理速度 |
优势
• 在80%的评估指标上超越GraphCast • 将Z500 ACC > 0.6的有效预报延伸到10.75天 • 多模态设计更好地处理异质变量 • 不确定性损失自动平衡优化
劣势
• 架构复杂度较高 • 未完全开源 • 多模态方法的可解释性较弱
3.5 FuXi / FuXi-2 (复旦大学, 2023/2024)
论文: "FuXi: A cascade machine learning forecasting system for 15-day global weather forecast"作者: Lei Chen, Xiaohui Zhong 等发表: npj Climate and Atmospheric Science, 2023; arXiv 2306.12873
架构设计
• 核心组件: U-Transformer(类U-Net的Transformer架构)+ 级联策略 • 基本思想: 认识到单一模型难以同时优化短期和长期预报,使用3个独立模型分别负责不同lead time范围 • 创新点: 1. 级联架构 (Cascade): • 模型1: 0-5天预报 • 模型2: 5-10天预报 • 模型3: 10-15天预报每个模型针对其lead time范围独立优化 2. U-Transformer: 结合U-Net的多尺度特征提取和Transformer的全局注意力 3. Cube Embedding: 将气压层维度与空间维度一起处理的3D patch embedding
FuXi-2改进
• 引入更多变量和更高分辨率 • 改进的训练策略,增加了更长的自回归展开步数 • 集合预报版本 FuXi-ENS
技术细节
| 分辨率 | |
| 预报变量 | |
| 预报步长 | |
| 预报范围 | |
| 训练数据 |
优势
• 首个ML模型在15天预报上匹敌ECMWF集合平均 • 级联策略有效缓解长期误差累积 • 训练和推理效率较高
劣势
• 需要维护多个独立模型 • 级联边界处可能存在不连续性 • 对降水等复杂变量的预报能力有限
3.6 GenCast (DeepMind, 2023)
论文: "GenCast: Diffusion-based ensemble forecasting for medium-range weather"作者: Ilan Price, Alvaro Sanchez-Gonzalez 等发表: Nature, 2025; arXiv 2312.15796
架构设计
• 核心组件: 条件扩散模型 + 图神经网络 • 基本思想: 与确定性模型不同,GenCast直接建模天气状态的概率分布,通过扩散去噪过程生成多个可能的未来状态 • 创新点: 1. 扩散模型用于天气预报: 使用score-matching训练的去噪扩散模型,每次生成一个集合成员 2. 条件生成: 以当前和前一时间步的天气状态为条件 3. 球面图上的扩散: 在icosahedral mesh上执行扩散过程,尊重球面几何 4. 概率校准: 生成的集合天然具有合理的离散度
技术细节
| 分辨率 | |
| 预报变量 | |
| 预报步长 | |
| 预报范围 | |
| 推理速度 | |
| 训练数据 |
优势
• 概率预报: 在1320个评估目标中97.4%优于ECMWF ENS • 极端天气: 更好地预测热带气旋、极端温度 • 物理一致性: 扩散模型生成的集合成员具有空间一致性 • 风电预测: 展示了下游应用价值 • 开源: 代码和权重已公开
劣势
• 推理时间比确定性模型长(每个成员需要多步去噪) • 扩散模型训练复杂度较高 • 12小时时间步长限制了时间分辨率 • 在某些小尺度现象上仍有挑战
3.7 Aurora (Microsoft, 2024)
论文: "Aurora: A Foundation Model of the Earth System"作者: Cristian Bodnar, Wessel P. Bruinsma 等发表: Nature, 2025; arXiv 2405.13063
架构设计
• 核心组件: 柔性3D Swin Transformer + Perceiver-based编码/解码 • 基本思想: 构建一个统一的地球系统基础模型,通过大规模预训练+领域微调,实现天气、空气质量、海浪等多任务预报 • 创新点: 1. 大规模异构预训练: 在超过100万小时的多源数据上预训练(不仅限于ERA5) 2. 灵活的输入/输出: 使用perceiver-like架构处理不同分辨率和变量组合 3. 多领域微调: 一个基础模型微调用于多个地球系统任务 4. LoRA适配: 使用低秩适配实现高效微调
技术细节
| 分辨率 | |
| 预报范围 | |
| 预训练数据 | |
| 参数量 | |
| 框架 |
优势
• 基础模型范式,一次训练多任务应用 • 超越专用模型在多个领域的表现 • 可处理多种分辨率和变量 • 在空气质量、海浪等非传统任务上也表现优秀 • 推理成本远低于传统方法
劣势
• 预训练成本高(大规模GPU集群) • 基础模型的黑箱特性更强 • 微调仍需领域专业知识 • 某些特定任务上可能不如专门设计的模型
3.8 NeuralGCM (Google, 2023)
论文: "Neural General Circulation Models for Weather and Climate"作者: Dmitrii Kochkov, Janni Yuval 等发表: Nature, 2024; arXiv 2311.07222
架构设计
• 核心组件: 可微分动力学求解器 + 神经网络参数化 • 基本思想: 保留传统GCM的大尺度动力学核心(求解原始方程),但用神经网络替代传统的物理参数化方案(辐射、对流、边界层等) • 创新点: 1. 端到端可微分: 整个系统(动力学+ML参数化)端到端可微分 2. 物理+数据驱动混合: 大尺度运动由物理方程约束,亚网格过程由ML学习 3. 天气+气候统一: 同一模型框架可用于5-15天天气预报和数十年气候模拟
技术细节
| 分辨率 | |
| 预报范围 | |
| 训练数据 | |
| 框架 | |
| 垂直层 |
优势
• 物理一致性: 保证了质量、能量守恒等物理约束 • 可解释性: 动力学部分可解释,ML部分仅负责参数化 • 天气+气候: 唯一能在同一框架内处理天气和气候的AI模型 • 涌现现象: 能产生真实的热带气旋频率和轨迹 • 开源: 基于JAX的开源实现
劣势
• 由于保留物理求解器,推理速度不如纯ML模型 • 分辨率目前低于0.25°级别的纯ML模型 • 物理核心的计算瓶颈 • 耦合训练的稳定性挑战
3.9 AIFS (ECMWF, 2024)
论文: "AIFS - ECMWF's data-driven forecasting system"作者: Simon Lang 等发表: arXiv 2406.01465
架构设计
• 核心组件: GNN Encoder + Sliding Window Transformer Processor + GNN Decoder • 基本思想: 结合GNN和Transformer的优势,GNN处理非规则网格映射,Transformer处理全局信息交互 • 创新点: 1. 模块化设计: Encoder/Processor/Decoder可独立替换和优化 2. 多级并行: 支持数据并行、模型并行等多种并行策略 3. 业务化设计: 从一开始就面向实际业务运行设计
技术细节
| 分辨率 | |
| 训练数据 | |
| 运行频率 | |
| 状态 |
优势
• 业务化运行: 唯一真正投入业务化运行的AI天气预报模型 • 实际验证: 经过ECMWF严格的业务化验证流程 • 持续改进: 由ECMWF持续维护和改进的活跃项目 • 开放数据: 预报结果通过ECMWF开放数据政策公开
劣势
• 作为业务系统,论文中公开的技术细节相对较少 • 目前主要作为补充而非替代HRES
3.10 ClimaX (Microsoft/UCLA, 2023)
论文: "ClimaX: A foundation model for weather and climate"作者: Tung Nguyen, Johannes Brandstetter 等发表: ICML 2023; arXiv 2301.10343
架构设计
• 核心组件: 扩展的Vision Transformer + 变量特定嵌入 + 变量聚合 • 基本思想: 构建灵活的基础模型,能处理不同变量集、不同分辨率的输入 • 创新点: 1. 变量无关的输入处理: 每个变量独立tokenize,通过variable aggregation融合 2. CMIP6预训练: 在大量气候模拟数据上自监督预训练 3. 灵活性: 预训练时可使用不同的变量子集
技术细节
| 分辨率 | |
| 预训练数据 | |
| 微调数据 | |
| 开源 |
优势
• 灵活的基础模型设计 • 在低分辨率和有限计算预算下也有竞争力 • 能处理非标准变量组合 • 完全开源
劣势
• 在0.25°分辨率的天气预报上不如专门的模型 • 较低的原生分辨率 • 预训练-微调gap
3.11 Stormer (UCLA/ANL, 2023)
论文: "Stormer: A Simple, Efficient and Scalable Transformer for Weather Forecasting"作者: Tung Nguyen, Rohan Shah 等发表: NeurIPS 2024; arXiv 2312.03876
架构设计
• 核心组件: 标准Vision Transformer + 气象特定改进 • 基本思想: 证明标准Transformer架构经过恰当的改进就能达到SOTA水平,无需复杂的专用架构 • 创新点: 1. weather-specific embedding: 针对气象数据的嵌入层设计 2. 随机化动态预报 (randomized dynamics forecast): 训练时使用随机时间间隔 3. 气压加权损失: 不同气压层使用不同权重
优势
• 架构简洁,易于实现和扩展 • 7天以上预报超越其他方法 • 训练数据和计算量需求远小于其他模型 • 良好的scaling特性 • 完全开源
劣势
• 在短期预报上可能不如专门优化的模型 • 标准ViT结构在超高分辨率时计算量大
3.12 其他重要模型
Keisler GNN (2022)
• 作者: Ryan Keisler • 意义: 早期证明GNN可接近NWP水平的先驱工作 • 特点: 使用GNN进行6小时步长的自回归预报,在ERA5和GFS数据上训练
SEEDS (Google, 2023)
• 特点: 使用扩散的集合生成模型 • 意义: 从少量种子成员(如HRES预报)快速生成大规模集合,极大降低集合预报成本
FuXi-Extreme (复旦, 2023)
• 特点: FuXi + 扩散模型,专门针对极端天气事件 • 意义: 用扩散模型解决确定性模型低估极端降水和强风的问题
FuXi-S2S (复旦, 2024)
• 特点: 将AI预报扩展到次季节-季节(S2S)尺度,预报范围达42天 • 意义: 首个在S2S尺度具有竞争力的纯ML模型
Pangu-Sigma (华为, 2024)
• 特点: 将Pangu-Weather从气压层坐标改为sigma(地形追随)坐标 • 意义: 改善了近地面和复杂地形区域的预报质量
Prithvi WxC (NASA/IBM, 2024)
• 特点: 基于MERRA-2再分析数据预训练的基础模型,支持160个变量 • 意义: NASA与IBM联合开发的开放基础模型,面向多种气候和天气下游任务
AtmoRep (Juelich, 2023)
• 特点: BERT式掩码token预测的大气自监督表征学习 • 意义: 在欧洲超算中心开发,探索大规模无标签预训练用于大气科学
SwinVRNN (清华, 2023)
• 特点: Swin Transformer + 变分RNN • 意义: 学习扰动策略实现集合预报离散度控制
W-MAE (Salesforce, 2023)
• 特点: 天气领域的Masked Autoencoder预训练 • 意义: 将MAE自监督预训练范式成功引入天气预报
CorrDiff (NVIDIA, 2023)
• 特点: 基于残差扩散模型的超分辨率/降尺度(25km→2km) • 意义: 生成物理一致的高分辨率天气场
FengWu-GHR (上海AI Lab, 2024)
• 特点: 0.09°(~9km)分辨率的全球AI天气预报 • 意义: 目前最高分辨率的全球AI天气模型之一
FengWu-4DVar / FengWu-Adas (上海AI Lab, 2024)
• 特点: 将可微FengWu模型嵌入四维变分(4DVar)数据同化 • 意义: 探索AI预报与数据同化的端到端耦合,迈向全链路AI天气系统
NeuralLAM (Linkoping Univ., 2023-2024)
• 特点: 专为有限区域(LAM)设计的GNN天气预报 • 意义: 开源的区域天气预报方案,在北欧区域验证
MetNet-3 (Google, 2023)
• 特点: 区域短临预报(0-24小时),轴向注意力 + lead time conditioning • 意义: 在美国区域短期降水预报上超越NWP(注:非全球中期模型)
4. 训练数据
4.1 ERA5再分析数据
ERA5 (ECMWF Reanalysis v5) 是当前几乎所有AI天气预报模型的核心训练数据源。
基本信息
| 生产者 | |
| 时间范围 | |
| 空间分辨率 | |
| 时间分辨率 | |
| 垂直层 | |
| 变量 | |
| 数据量 | |
| 获取方式 | |
| 生产方法 | |
| 同化观测量 | |
| 不确定性估计 |
37个标准气压层 (hPa): 1000, 975, 950, 925, 900, 875, 850, 825, 800, 775, 750, 700, 650, 600, 550, 500, 450, 400, 350, 300, 250, 225, 200, 175, 150, 125, 100, 70, 50, 30, 20, 10, 7, 5, 3, 2, 1
注意: 1979年前数据为"初步"版本,由于卫星观测缺乏,不确定性明显更大
主要变量
• 高空变量: 位势高度(Z)、温度(T)、U风、V风、相对/比湿度(Q) • 地面变量: 2米温度(T2m)、10米风(U10/V10)、平均海平面气压(MSLP)、总降水量(TP)、总辐射等 • 静态变量: 地形高度、土地类型、海陆掩膜
各模型数据使用对比
4.2 数据预处理
常见预处理流程
1. 空间降采样: 部分模型将0.25°降为较低分辨率训练 2. 标准化/归一化: 通常使用逐变量、逐层的均值-标准差标准化 3. 纬度加权: 考虑经纬度网格在不同纬度面积不同 4. 时间采样: 多数模型使用6小时步长(00/06/12/18Z) 5. 数据分割: 典型分割为1979-2015训练 / 2016-2017验证 / 2018+测试
4.3 数据挑战
1. 分布偏移: ERA5作为再分析数据,与真正的业务分析场存在差异 2. 极端事件稀有性: 训练数据中极端天气事件样本不足 3. 时间非平稳性: 气候变化导致数据分布随时间变化 4. 变量完整性: 某些要素(如降水)在再分析中质量较低 5. 观测不均匀: 南半球、海洋区域的观测稀疏影响ERA5质量
5. 评估方法与基准
5.1 标准评估指标
确定性指标
• RMSE (Root Mean Square Error): 最常用的评估指标,通常使用纬度加权(因为等经纬度网格在高纬度区域网格更密)其中 为纬度权重 • ACC (Anomaly Correlation Coefficient): 异常相关系数,衡量预报异常场与实况异常场的空间相关其中 为气候平均值。ACC > 0.6 通常被认为是有用预报的阈值 • MAE (Mean Absolute Error): 平均绝对误差 • Bias: 系统偏差
概率预报指标
• CRPS (Continuous Ranked Probability Score): 用于评估概率预报的综合指标,越小越好 • Spread-Skill Ratio: 集合离散度与预报误差的比值 • Reliability Diagram: 校准曲线 • Brier Score: 用于概率预报的二分类评价
5.2 对比基准
ECMWF HRES (IFS)
• 全球最优秀的确定性NWP模型 • 分辨率: 0.1° (约9km) • 是AI模型的主要对比基准 • 在WeatherBench 2中作为最强baseline
ECMWF ENS
• HRES的集合版本,51个成员 • 概率预报的对比基准 • GenCast等概率模型与之对比
GFS (Global Forecast System)
• 美国NCEP运行的全球模型 • 另一个常用baseline
5.3 WeatherBench 2
WeatherBench 2 (Rasp et al., 2023) 是当前最权威的ML天气预报评估基准。
核心特征
• 标准化的评估框架和数据集 • 统一的headline scores定义 • 持续更新的排行榜 (sites.research.google/weatherbench) • 包含物理模型和数据驱动模型的结果 • 开放数据:训练数据、ground truth、baseline数据
Headline Scores
• Z500 (500hPa位势高度) RMSE/ACC • T850 (850hPa温度) RMSE • T2m (2米温度) RMSE • U10/V10 (10米风) RMSE • Q700 (700hPa比湿度) RMSE • MSLP (平均海平面气压) RMSE
5.4 各模型性能对比
Z500 RMSE (m²/s²) — 不同Lead Time
注:以上数值为近似值,基于各论文报告和WeatherBench 2结果
关键发现
1. 大多数顶级AI模型在3-7天范围内超越HRES 2. 10天以上预报,级联模型(FuXi)和集合方法(GenCast)优势更明显 3. 热带气旋路径预报,AI模型普遍优于NWP;但强度预报(最大风速、最低气压)AI系统性低估(ERA5在0.25°下仅捕获60-70%的真实TC强度) 4. 降水预报仍是AI模型的弱项 5. 极端事件强度预报(如台风最大风速)AI模型倾向于低估 6. Z500 ACC=0.6有效预报时限:HRES约9.5天,GraphCast/Pangu约10天,提升约0.5-1天——相当于传统NWP约10年的改进量
5.5 当前评估方法的局限
1. 循环验证问题: AI模型在ERA5上训练又在ERA5上验证,对ERA5偏差具有"内在优势"。HRES产生的更物理合理的状态可能反而被判为"误差"。WeatherBench 2通过提供HRES分析场作为替代验证目标部分缓解此问题 2. RMSE奖励过度平滑: RMSE其实鼓励模糊预报,因为去除小尺度细节可降低对单一真值的误差。需要功率谱分析、结构函数等补充指标 3. 批量统计掩盖极端事件: RMSE/ACC在时空上取平均,可能掩盖在特定事件上的灾难性失败 4. 降水评估不足: 降水高度非高斯、间歇性强;标准RMSE不适用,需要FSS(Fraction Skill Score)、Equitable Threat Score、面向对象(object-based)方法 5. 缺乏物理一致性评估: 很少系统评估AI模型是否产生负湿度、违反静力平衡等非物理状态 6. 缺乏条件/分层评估: 模型在不同流型(阻塞、NAO相位、ENSO状态)下表现可能差异很大 7. 初始场依赖性: ERA5初始化(回顾性、最优分析)的评估结果 ≠ 业务初始化(实时、有数据时延)的评估结果
6. 工程化与部署
6.1 训练资源对比
说明:
• Transformer/Attention类模型(FourCastNet, Pangu, Aurora)训练时通常需要每卡40-80GB显存,因此A100 80GB成为主流选择 • GraphCast的GNN在多尺度icosahedral mesh上的图操作内存密集,需要TPU v4的高带宽内存 • GenCast作为扩散模型,需要多步去噪和存储中间状态,内存需求高于确定性模型 • FuXi以较少的硬件资源(8×A100)实现了有竞争力的性能,工程效率突出
6.2 推理效率
6.3 开源状态
6.4 业务化部署现状
ECMWF AIFS — 最成熟的业务化
• 2024年6月起每天运行4次 • 与HRES并行运行,预报结果在ECMWF图表平台(charts.ecmwf.int)作为"实验"产品展示 • 预报结果通过ECMWF开放数据政策公开 • 持续改进中
ECMWF AIFS路线图:
• Phase 1 (2024): AIFS作为实验产品运行,使用图神经网络架构 • Phase 2 (2025): 更深集成 — AIFS输出用于集合后处理和灾害天气预警 • Phase 3 (2026-2027): AIFS可能成为正式的确定性/集合预报组件,与IFS并行或部分替代 • 长期愿景: 物理动力核心(IFS)与ML组件(AIFS)协同的混合系统
NVIDIA Earth-2平台
• 提供FourCastNet、CorrDiff等模型的云端推理 • 面向企业和研究机构的API服务,集成NVIDIA Omniverse用于3D可视化 • CorrDiff: 条件扩散模型,将25km AI预报降尺度到2km分辨率 • StormCast (2024): NVIDIA区域对流尺度AI模型,专注于风暴级预测 • 与The Weather Company(IBM)、各国气象局及私营气象公司合作
Microsoft天气AI生态
• Aurora: 地球系统基础模型,已集成Azure云服务 • ClimaX: 较早期的基础模型,ICML 2023发表 • Azure Maps/Azure AI集成,面向企业客户提供AI天气服务 • 与ECMWF、NOAA等机构合作
各国气象局探索
• 中国气象局:Zhiji系统探索中 • 英国Met Office:与DeepMind合作探索GraphCast/GenCast • 多国气象局评估AI模型作为NWP补充
6.6 AI模型与传统NWP的互补关系
当前共识是互补而非替代:
已涌现的应用模式:
1. 快速集合生成: GenCast/AIFS在分钟内生成50+成员的概率图 2. 间隙填充: AI模型在NWP运行间隔生成预报(如逐小时更新代替每6小时) 3. 后处理改善: AI模型对NWP输出进行偏差校正、降尺度、校准 4. 热带气旋追踪: AI模型在TC路径预报上展现特殊技巧,已被部分机构用作参考
6.7 业务化挑战
1. 可靠性: AI模型偶现异常预报(如不符合物理规律的输出),业务系统需要质控 2. 可解释性: 黑箱模型难以解释预报原因,影响预报员信任 3. 初始场依赖: 需要传统数据同化系统提供初始场 4. 极端事件: 在极端天气强度预报上的系统性低估 5. 物理一致性: 不保证质量守恒、能量守恒等 6. 变量完整性: 多数模型只预报有限变量,不能满足全部业务需求 7. 区域适应性: 全球模型在区域尺度表现可能不足
7. 当前局限与未来方向
7.0 跨模型关键洞察
在深入分析各模型后,有几个贯穿性的洞察值得强调:
球面几何处理——方法谱系
不同模型对地球球面几何的处理差异很大,直接影响预报质量:
• 最佳: NeuralGCM(球谐函数,精确处理)、GraphCast/GenCast(正二十面体网格,近均匀覆盖) • 中等: Pangu-Weather(Earth-Specific位置编码)、AIFS(缩减高斯网格) • 基础: FourCastNet, ClimaX, Aurora, Stormer, FuXi, FengWu(等经纬度网格+纬度加权)
训练策略与架构同等重要
GraphCast的多步课程学习训练可能与其GNN架构同等重要。仅做单步训练的模型(早期FourCastNet)在长期rollout中误差严重累积,而采用多步微调的模型(GraphCast, FengWu, Aurora)显著更稳健。
确定性→概率:前沿已转移
领域重心已从确定性预报(2022-2023)转向概率预报(GenCast, 2024)。集合预报能力对业务使用至关重要,因为不确定性信息是决策的关键依据。
基础模型vs专用模型:两种哲学
• (a) 专用模型: 针对单一任务优化(GraphCast, Pangu)— 当前性能最强 • (b) 基础模型: 广泛预训练后微调(ClimaX, Aurora)— 长期可能主导,因为摊销训练成本并支持迁移到数据稀疏任务
残差预测是通用策略
GraphCast等模型预测的是当前状态的**变化量(残差)**而非绝对状态,这一简单技巧有效利用了大气状态的短期持续性。
7.1 当前主要局限
预报模糊化 (Blurring)
• MSE/MAE损失函数倾向于预报气候平均,特别是在长lead time • 细小尺度特征(锋面、对流等)逐渐丢失 • 解决方向: 扩散模型(GenCast)、对抗训练、频域损失
物理不一致
• 不保证质量守恒、能量守恒 • 可能产生气象学上不合理的状态 • 解决方向: 物理约束损失、NeuralGCM类混合方法、后处理修正
极端事件低估
• 训练数据中极端事件稀少,模型倾向于保守预报 • 台风最大风速、极端降水量系统性偏低 • 解决方向: focalloss、oversampling极端事件、条件训练
降水预报困难
• 降水的间断性和高度局地性使其难以预报 • 大多数模型在降水评分上不如NWP • 解决方向: 单独的降水后处理模型、生成模型
初始场问题
• 当前AI模型依赖ERA5或NWP分析场作为初始条件 • 如何建立端到端的AI数据同化+预报系统是开放问题 • 解决方向: DiffDA等AI数据同化方法
7.2 未来发展方向
1. 更高分辨率: 从0.25°向0.1°甚至更高推进 2. 端到端系统: 从观测到预报的全链路AI系统(含数据同化) 3. 耦合模型: 大气-海洋-冰-陆面耦合的AI模型 4. 气候尺度: 从天气预报扩展到季节预报和气候投影 5. 区域细化: AI降尺度和区域化方法 6. 多模态融合: 卫星遥感、雷达、地面观测等多源数据融合 7. 可解释AI: 增强模型可解释性以赢得预报员信任 8. 实时学习: 在线学习适应最新大气状态
8. 总结对比表
模型适用场景推荐
参考文献
1. Pathak, J. et al. "FourCastNet: A Global Data-driven High-resolution Weather Model using Adaptive Fourier Neural Operators" arXiv:2202.11214, 2022. 2. Bi, K. et al. "Pangu-Weather: A 3D High-Resolution Model for Fast and Accurate Global Weather Forecast" Nature, 2023. 3. Lam, R. et al. "Learning skillful medium-range global weather forecasting" Science, 2023. 4. Chen, K. et al. "FengWu: Pushing the Skillful Global Medium-range Weather Forecast beyond 10 Days Lead" Commun. Earth Environ., 2025. 5. Chen, L. et al. "FuXi: A cascade machine learning forecasting system for 15-day global weather forecast" npj Climate and Atmospheric Science, 2023. 6. Price, I. et al. "GenCast: Diffusion-based ensemble forecasting for medium-range weather" Nature, 2025. 7. Bodnar, C. et al. "Aurora: A Foundation Model of the Earth System" Nature, 2025. 8. Kochkov, D. et al. "Neural General Circulation Models for Weather and Climate" Nature, 2024. 9. Lang, S. et al. "AIFS - ECMWF's data-driven forecasting system" arXiv:2406.01465, 2024. 10. Nguyen, T. et al. "ClimaX: A foundation model for weather and climate" ICML, 2023. 11. Nguyen, T. et al. "Stormer: A Simple, Efficient and Scalable Transformer for Weather Forecasting" NeurIPS, 2024. 12. Keisler, R. "Forecasting Global Weather with Graph Neural Networks" arXiv:2202.07575, 2022. 13. Rasp, S. et al. "WeatherBench 2: A benchmark for the next generation of data-driven global weather models" arXiv:2308.15560, 2023. 14. Hersbach, H. et al. "The ERA5 global reanalysis" Quarterly Journal of the Royal Meteorological Society, 2020. 15. Zhong, X. et al. "FuXi-Extreme: Improving extreme rainfall and wind speed prediction with diffusion model" arXiv, 2023. 16. Chen, L. et al. "FuXi-S2S: An AI-based Subseasonal-to-Seasonal Weather Forecasting Model" arXiv, 2024. 17. Bi, K. et al. "Pangu-Sigma: A Foundation Model for Weather Forecasting on Sigma Coordinates" arXiv, 2024. 18. Li, J. et al. "SEEDS: Emulation of Weather Forecast Ensembles with Diffusion Models" arXiv, 2023. 19. Chen, K. et al. "FengWu-GHR: Learning the Global High-Resolution Weather Forecasting" arXiv, 2024. 20. Chen, K. et al. "FengWu-4DVar: Coupling the Data-driven Weather Forecasting Model with 4D Variational Assimilation" arXiv, 2024. 21. Mardani, M. et al. "Residual Corrective Diffusion Modeling for Km-scale Atmospheric Downscaling" arXiv, 2023. 22. Oskarsson, J. et al. "NeuralLAM: A Graph Neural Network for Limited Area Weather Forecasting" arXiv, 2023. 23. Andrychowicz, M. et al. "MetNet-3: A Neural Weather Model for Precipitation Forecasting" arXiv, 2023. 24. Nguyen, T. et al. "Prithvi WxC: Foundation Model for Weather and Climate" arXiv, 2024. 25. Lessig, C. et al. "AtmoRep: A stochastic model of atmosphere dynamics using large scale representation learning" arXiv, 2023. 26. Man, Y. et al. "W-MAE: Pre-trained weather model with masked autoencoder for multi-variable weather forecasting" arXiv, 2023. 27. Chen, H. et al. "SwinRDM: Integrate SwinRNN with Diffusion Model towards High-Resolution and High-Quality Weather Forecasting" arXiv, 2023.
注: 本报告基于截至2026年初的公开信息。AI天气预报领域发展极为迅速,建议定期查阅WeatherBench 2排行榜 (sites.research.google/weatherbench) 获取最新结果。
夜雨聆风