数据越多越好?这篇ENSO预测论文给出了三个意想不到的答案
做气候预测的人都知道一个"常识":训练数据越多,模型越好。
这篇论文说——不一定。
而且它不只是说说而已,用实验数据把这个"常识"推翻了三次。
加了更多数据,预测反而变差了
现在做AI气候预测,最流行的做法是把CMIP6大型气候模式的模拟数据拿来训练——几十个模式、几百年的数据,样本量大到令人羡慕。
这篇文章也做了这个实验,把CMIP6数据加进来做迁移学习,然后和只用观测数据训练的混合模型做对比。
结果:加了CMIP6之后,CP型厄尔尼诺的空间分布出现明显西偏,无法再现中太平洋型El Niño,整体表现反而不如不加。
原因不难理解。CMIP6模式有一个众所周知的问题:赤道东太平洋存在系统性冷舌偏差,El Niño多样性也不够充分。用这些带偏差的数据训练,AI把模式的错误也一并学进去了——数量多,但质量差。
最终他们的选择是:用1856–1974年的Kaplan SST观测配合LDEO5动力模式的输出进行训练,截至1974年是为了保留1979–2022年作为独立测试集,拒绝使用CMIP6。
这个决定背后的逻辑很简单:数据质量比数据数量更重要。在气候预测这个领域,干净的小样本往往比带偏差的大样本更值得信赖。
20个月技巧的背后,有一个隐藏前提
论文的核心结论是:有效预测技巧达到20个月,显著优于8个NMME动力模式集合(约6–12个月)和Ham et al.(2019)CNN模型(约17个月)。
听起来很厉害。
但这里有一个需要说清楚的隐藏前提:这20个月的结果,依赖于LDEO5可以被积分到22个月,并在长时效上仍保留一定的物理信号供AI利用。LDEO5本身的有效预测技巧与其他动力模式相当,大约只有6–12个月——但即便超出这个范围,它的预报输出并不是随机噪声,仍然携带温跃层状态、充放电过程等物理结构信息。AI做的事,是在这些残余物理信号的基础上放大并修正残差,而不是凭空延伸预报时效。
如果底层动力模式只能积分6个月,这套方法的天花板也只有6个月。论文没有明说这个前提,是结论呈现上值得留意的地方。
所以更准确的表述应该是:在动力模式能提供物理输出的时间范围内,AI混合订正显著提升了预报技巧。这和"AI把ENSO可预测极限延伸到20个月"是两件完全不同的事。读论文的时候保持这个清醒,很重要。
不同时效,需要不同的模型
这是这篇文章方法论上最值得借鉴的地方。
大多数后处理方法的做法是:训练一个模型,然后用它订正所有预报时效——1个月、6个月、12个月,用同一套参数。
这篇文章反其道而行:每个预报时效训练一个专用的ConvLSTM模型,从1个月时效开始,将上一时效的AI预测结果滚动填入输入序列,替换掉序列最前端的那个观测月份,依次迭代到22个月时效。
结果证明这样做是对的——预测技巧在几乎所有时效上都有显著提升。
但论文没有专门展开为什么这样做更好。这里补充一个延伸判断:不同预报时效的误差性质根本不同。短时效的误差主要来自初始场的不确定性,偏随机;长时效的误差来自动力模式的系统性漂移,偏稳定、偏规律。用同一个模型统一订正,是在假设这两种误差的结构是一样的——而这个假设是错的。这是读完论文之后的延伸判断,不是论文原文的结论,供参考。
这个思路放到次季节-季节预测的后处理里,同样成立:提前1个月和提前6个月的偏差,在空间分布、量级、物理来源上都不一样,分开对待是更诚实的做法。
统计对了还不够,物理也要对
文章用了BJ指数(Bjerknes稳定性指数)来验证订正结果。BJ指数把ENSO的增长率分解成几个物理反馈项——纬向平流、Ekman反馈、温跃层反馈等。
订正之后,除热力学阻尼项外,这几个反馈项的估算都显著接近观测。也就是说,模型不只是让Niño3.4指数的数字变准了,背后的物理机制表达也更真实了。
这是一个很好的验证思路:AI订正的结果,不只用RMSE和相关系数来评价,还要用物理诊断量来检验。统计对了不代表物理对了;物理也对了,才算真的对了。
我的判断
这篇文章的架构在气候AI领域很有代表性:物理模式提供先验和动力演变,AI负责消除系统性误差,物理诊断验证结果的可信度。
它不是最炫的工作——ConvLSTM不新,滚动训练也不是首创——但它把这套框架做得很完整,每一步都有清晰的物理逻辑支撑。
三个发现背后其实是同一个判断:在气候预测里,尊重物理约束,AI才有价值。数据质量比数量重要,动力模式的先验不能丢,不同时效的误差要分开对待——这些都是"让AI在物理约束下工作"的具体体现。
代码和数据已开源,可以直接复现:
代码:https://doi.org/10.5281/zenodo.14560870
数据:https://doi.org/10.5281/zenodo.14560360
来源:Feng et al., “Achieving Explainable ENSO Prediction Using Small Data Training”, Geophysical Research Letters (2026). DOI: 10.1029/2025GL117573
你在自己的工作里,有没有因为训练数据质量踩过坑?欢迎留言。
夜雨聆风