乐于分享
好东西不私藏

AI大模型与四农普(四):作物识别——实战派的7种方案对比

AI大模型与四农普(四):作物识别——实战派的7种方案对比

AI大模型与四农普(四):作物识别——实战派的7种方案对比

——RF统治实战项目,UTAE/Mamba无人采用,物候特征工程才是真壁垒

题图

地块边界画出来了,下一个问题:每个地块种的什么?

四农普的作物识别和地块分割是完全不同的技术路线。地块分割靠的是空间特征——边界、形状、纹理,一张图就能搞定。作物识别靠的是时间特征——小麦3月返青、5月抽穗、6月收获,玉米6月播种、9月成熟,同一个地块在不同月份看起来完全不一样。

这意味着:作物识别不能只看一张图,必须看时间序列

从Random Forest的物候特征工程,到UTAE的时间注意力,到SITSMamba的线性复杂度时序建模,再到Prithvi-EO-2.0的遥感基础模型——2025-2026年,作物识别的技术栈在快速演进。

但本文不只是罗列模型。我调研了四农普遥感测量项目中多个实战团队的技术方案,把学术前沿生产实战做了一个全面对比——结论可能会让你意外。

作物识别技术栈

一、作物识别的核心逻辑:物候是关键

先搞清楚一个底层逻辑:作物分类的核心特征不是”学出来的”,是”算出来的”。

NDVI时间序列的物候指标——起始期、峰值时间、累积值、下降速率——才是区分作物的真正关键。不同作物的NDVI曲线长这样:

作物
关键物候特征
最佳识别窗口
冬小麦
10月播种→3月返青→5月抽穗→6月收获
3-5月NDVI”双峰”曲线
春玉米
4-5月播种→7-8月峰值→9-10月收获
6-8月NDVI单调上升
大豆
5-6月播种→8月峰值→9月收获
与玉米高度混淆,需红边指数
水稻
移栽期田面覆水→独特光谱
移栽期(华南3月、华北6月)
冬油菜
3-4月盛花期黄色花瓣
3月下旬至4月中旬
棉花
4月播种→生育期最长→10月吐絮
9-10月吐絮期

一张单时相影像几乎不可能准确区分作物。 多时相比单时相精度提升10-20%。这就是为什么作物识别必须用时间序列模型。


二、五条技术路线 + 生产验证

路线一:RF/XGBoost + 物候特征(绝对主力)

别急着上深度学习。在实际四农普项目中,RF/XGBoost是使用最广泛的分类器——多个实战团队中有5个以RF或XGBoost为主力分类器。

指标
表现
典型精度
OA 85-98%
训练速度
快,CPU即可
样本需求
500个以上
可解释性
特征重要性排序,决策规则可视化
生产验证
5/7实战团队采用,通过率最高

为什么RF依然能打?因为它的输入不是原始像素,而是手工计算的物候特征:NDVI时间序列、红边指数(Sentinel-2 B5/B6/B7)、纹理特征(GLCM)、SAR后向散射。这些特征已经把物候信息提炼出来了,RF只需要学会分类规则。

物候特征工程的三个层次:

基础层:NDVI时序的统计特征——均值、方差、最大值、最小值、偏度、峰度。大部分团队做到这一步,精度约85-90%。

进阶层:逐像素物候指标提取——NDVI峰值出现日期(DOY)、上升期起始日期、累积NDVI、下降速率。有团队专利记录显示,这种逐像素物候匹配可以将地市级精度提升约17%。

壁垒层全国作物精细物候数据集——覆盖全国1000+粮食大县、积累20年的物候观测+光谱数据库。这是某个三农普核心团队用863重点项目积累出来的,不是花钱就能买到的东西。这才是RF/XGBoost精度能到98%的真正原因——不是模型多先进,是特征工程多深厚。

XGBoost是RF的有效替代。有团队在山区/丘陵区域用XGBoost替代RF,配合地形特征(海拔、坡度),效果优于RF。实战中的常见策略是:平原用一种模型,山区用另一种模型,两种模型的结果互为训练样本

实战案例:

  • • 多源时序+RF,OA达98%(20年物候数据集支撑)
  • • 多源归一化+PCA+GLCM+SVM,OA达91%(新疆棉花/玉米/冬小麦)
  • • 半干旱区Sentinel-2物候指标+RF,OA达93%

路线二:U-Net/DeepLab/语义分割(辅助角色)

把作物分类当作语义分割来做——每个像素预测一个作物类别。

生产验证:多个实战团队中,没有任何一个把语义分割作为作物识别的主力模型。

但在特定场景下有价值:

  • • 有团队在平原区使用改进的UNet+Transformer混合架构(U-MixFormer,WACV 2025),mIoU比主流提升3-4.1%
  • • 配合XGBoost形成”双模型协同”——XGBoost结果作为U-MixFormer训练样本
  • • 田块级精细分类时,语义分割比像素级分类更合理

LGD-DeepLabV3+(局部-全局双分支)在作物分类中mIoU达58.48%,比原版提升8.83%,是值得关注的改进。

结论:语义分割在作物识别中是”锦上添花”,不是”雪中送炭”。RF/XGBoost做不好的场景,语义分割通常也做不好——问题不在模型,在数据。


路线三:UTAE / Mamba 时序模型(学术SOTA,生产未采用)

专门为卫星时间序列设计的深度学习架构。

UTAE(Unstructured Temporal Attention Encoder):法国INRIA开发,将时间注意力与空间编码解耦,对不规则采样的卫星时序数据进行自适应时间聚合。在PASTIS-R基准上长期保持SOTA。

SITSMamba(2024):用Mamba状态空间模型替代Transformer的自注意力机制,线性复杂度解决了Transformer处理长时序数据的O(n²)瓶颈。

维度
UTAE (Transformer)
SITSMamba (Mamba)
时间复杂度
O(n²)
O(n)
长时序处理
受限于序列长度
无限制
精度
SOTA基准
与UTAE相当
四农普生产验证
未采用 未采用

GMAT(2025)将Mamba与Attention通过门控方式融合,进一步提升了时序作物分类精度。

为什么学术SOTA在生产中无人采用?

  1. 1. 太新:UTAE 2021年发表,SITSMamba 2024年——四农普项目需要经过验证的稳定方案
  2. 2. GPU成本:时序Transformer训练需要大量GPU,省级项目不一定有预算
  3. 3. 边际收益不大:3-5种主粮的省级分类,RF+精细物候特征已达95%+精度
  4. 4. 可解释性差:四农普是国家级统计任务,需要可审计的分类过程。RF可以输出特征重要性排序,Transformer不行
  5. 5. 只在极端场景有优势:物候高度重叠的长江中下游(冬小麦/冬油菜/双季稻混淆)才真正需要

路线四:遥感基础模型(学术前沿,生产未采用)

模型
参数量
预训练数据
作物分类表现
Prithvi-EO-2.0

 (NASA/IBM)
300M/600M
420万全球HLS时序样本
GEO-bench 75.6%
SSL4EO-S12
22M-350M
300万+ Sentinel-2
优于ImageNet预训练
AgriFM
大型
多源多时相
专为农业制图设计
CropSTS
22.4M
3300个Sentinel-2样本
专用作物分类SOTA

生产验证:多个实战团队中没有任何一个使用基础模型。

原因和路线三类似:四农普需要可解释、可复现、可审计的方法。基础模型的”黑箱”特性在统计调查中是风险。RF的分类过程可以通过特征重要性排序和决策规则可视化来解释——统计局需要这个。

基础模型的价值在”未来”:预训练阶段已学过全球各种地表类型的时序特征,微调只需少量本地样本。从”从头训练”转向”预训练+微调”是趋势,但2026年的四农普还用不上。


路线五:多源融合 SAR+光学(南方省份核心技术)

长江以南多云多雨,光学遥感数据获取困难。解决方案是光学+SAR融合。

这是5条路线中”生产验证最扎实”的一条——负责南方省份的实战团队全部采用了SAR方案。

SAR作物识别的完整管线(来自专利技术):

Sentinel-1 VH/VV极化数据 → Lee Sigma滤波去噪 → VH/VV交叉极化比计算
→ 双逻辑斯蒂回归拟合时序 → S-G平滑滤波 → DTW/twDTW曲线匹配 → RF分类

实测指标:春玉米F1=0.86,夏玉米F1=0.88。

云修复技术(解决光学数据缺失问题):

构建”虚拟星座”(Landsat-8/9 + Sentinel-1/2),针对4种变化场景分别处理:自然发散、人为发散、同向变化、无变化。实测全面优于传统MNSPI方法。

多源光谱归一化

另一个关键技术:以Sentinel-2A为基准,构建线性转换方程,将不同卫星(高分WFV、Landsat OLI等)的NDVI统一到同一标准下,形成无缝的10m分辨率NDVI时间序列。这不是简单的数据拼接,而是把不同传感器的光谱差异系统性地消除了。

数据源
优势
局限
Sentinel-2(光学)
多光谱、免费、重访5天
受云雨影响
Sentinel-1(SAR)
全天候、穿透云层
信息量少于光学
高分/吉林一号
高分辨率(0.5-2m)
成本高、覆盖有限
无人机
厘米级
面积小、成本高

CROMA(350M参数)是专门做SAR+光学融合的基础模型,在多云雨地区作物分类中表现突出。

五条路线对比

三、五条路线 vs 生产实战:一张对比表说清楚

维度
学术定位
生产实际
差距
RF/XGBoost
“最成熟”
绝对主力(5/7实战团队采用)
学术低估了RF的统治地位
语义分割
“精细分类”
辅助角色,双模型协同
学术夸大了单模型能力
UTAE/Mamba
“当前SOTA”
无人采用
学术SOTA ≠ 生产SOTA
基础模型
“最前沿”
无人采用
太新,统计任务需可解释
SAR融合
“多云雨必选”
南方项目全部采用
实战比学术深入得多

核心结论:真正的壁垒不在模型架构,在三个地方——

  1. 1. 物候特征工程:20年数据积累 vs 现算NDVI,精度差10%+
  2. 2. 后处理精细化:多源光谱归一化、SAR管线、云修复,这些不在任何论文里
  3. 3. 按区域分区部署:平原用XGBoost/深度学习,山区用RF,南方用SAR+云修复——没有”万能模型”,只有”按区域组合”

四、四农普实操:六大农业区各有打法

东北:RF + Sentinel-2时序 + 红边指数

地块大、种植单一(春玉米、大豆、春小麦)。大豆和玉米在7-8月NDVI均达峰值,是主要混淆对。需要红边指数(Sentinel-2 B5/B6/B7)辅助区分。

推荐:Sentinel-2多时相NDVI + 红边指数 + RF分类。简单高效,精度可达95%+。如果想追求极致,可以加20年积累的全国作物物候数据集。

华北:RF/DeepLab + 多时相关键期

冬小麦-夏玉米一年两熟制。5-6月是转换期,NDVI曲线呈典型”V”形。棉花生育期最长(4-10月),9-10月吐絮期是区分窗口。

推荐:RF(省级尺度)或 DeepLabV3+(田块级精细),抓关键物候期影像。

长江中下游:时序深度学习 + 多源融合 + SAR

双季稻+冬油菜+冬小麦,物候期高度重叠。全国最难搞的作物识别区域。 冬油菜3-4月盛花期的黄色花瓣是最佳区分特征。冬油菜与冬小麦的光谱混淆最典型——没有多时相数据根本分不开。

推荐:UTAE/SITSMamba时序模型 + Sentinel-1/2融合 + SAR云修复 + 野外验证。这个区域是唯一”必须上时序深度学习”的地方——RF确实不够用。

华南:SAR为主 + 光学补充

甘蔗+双季稻+热带水果。多云多雨是最大障碍。

推荐:Sentinel-1 SAR为主数据源 → VH/VV极化比+DTW曲线匹配 → RF分类。光学影像能获取到时补充。云修复技术在这里是刚需。

西南:无人机 + 野外验证为主

地形复杂、地块破碎、多云多雨。卫星遥感在这里力不从心,AI辅助只能做到局部提效。

推荐:无人机航拍获取关键物候期影像 + RF/DeepLab分类 + 大量野外验证。这个区域,外业是主力,遥感是辅助。

西北:RF + 地膜光谱指数

新疆棉花全国最大面积,地膜覆盖在春季影像上有明显光谱特征。灌溉农业与旱地的光谱差异显著。

推荐:RF + 地膜光谱指数(PGHI)+ 多时相NDVI + 多源光谱归一化。技术难度相对较低。

六大区域方案

五、物候匹配迁移学习:一个被低估的方向

有一个技术方向值得单独说——物候匹配迁移学习

核心思路:利用已有的成熟作物数据集(如美国USDA CDL),通过计算物候时间差,找到最佳匹配时间范围,将”知识”迁移到中国的新区域。

管线:

时序重建(异常检测+线性插值+S-G滤波)→ 逐像素物候特征提取
→ 物候时间差计算 → 最佳匹配时间范围 → RF分类

实测:地市级精度提升约17%。这意味着你不需要从零开始标样本——只要找到物候相似的参考区域,就可以借用已有知识。

这个方向在四农普中的实际价值很大:中国2800多个县,不可能每个县都有足够的训练样本。物候匹配迁移学习提供了一种”低样本快速部署”的路径。


六、多源光谱归一化:让不同卫星”说同一种语言”

四农普要求分辨率优于2米(比三农普的16米提升了8倍),单一卫星数据源很难满足全覆盖需求。实际项目中需要混合使用多颗卫星的数据——但不同传感器的光谱响应不一样。

解决方法:以Sentinel-2A为基准,构建线性转换方程,将不同卫星的NDVI统一到同一标准下。

GF-1 WFV NDVI → 线性转换 → 统一10m NDVI
Landsat OLI NDVI → 线性转换 → 统一10m NDVI
Sentinel-2 NDVI → 基准(不转换)

转化后形成无缝的10m分辨率NDVI时间序列。这不是简单的数据拼接——是把不同传感器的光谱差异系统性地消除了。 然后在统一的NDVI时序上计算物候特征(PCA + GLCM纹理 + 物候指标),送入SVM/RF分类。

实测(新疆沙雅县,棉花/玉米/冬小麦):OA 91.11%


七、实操建议

  1. 1. 先做物候分析,再选模型。 搞清楚你所在区域的主导作物和关键物候期。3-5种主粮用RF/XGBoost就够,物候高度重叠区域才需要UTAE/Mamba。
  2. 2. 物候特征工程比模型架构重要10倍。 RF精度85%→98%的差距,不在模型,在特征。逐像素物候指标、20年积累的物候数据库、红边指数辅助——这些才是精度的来源。
  3. 3. 按地形分区部署模型。 平原用XGBoost/U-MixFormer,山区用RF,南方用SAR管线。没有万能模型,只有按区域组合。
  4. 4. 关注物候匹配迁移学习。 样本不足时,找物候相似的参考区域迁移知识,地市级精度可提升17%。比从零标样本高效得多。
  5. 5. 南方省份必须掌握SAR管线。 VH/VV极化比→滤波→DTW匹配→分类,这套管线是南方多云雨区的标配。没有SAR,光学数据缺太多。
  6. 6. 多源光谱归一化是基础功夫。 混合使用多颗卫星时,先统一光谱标准再提取特征。跳过这一步直接分类,精度会打折扣。
  7. 7. 野外验证不能省。 AI再强也替代不了地面真值。预算里给野外验证留足时间和经费,否则模型精度再高也是自嗨。

你们省的作物分类用的什么方案?RF还是深度学习?评论区聊聊。


本文是”AI大模型与四农普”系列第四篇。上期聊了地块勾画,5种分割模型的实战对比。下期聊遥感标注工具——X-AnyLabeling实战技巧,把前两期的模型落地到标注操作中。

参考资料:

  • • Prithvi-EO-2.0: https://github.com/NASA-IMPACT/Prithvi-EO-2.0
  • • SITSMamba: https://github.com/XiaoleiQinn/SITSMamba
  • • PASTIS-R基准数据集: https://github.com/VSainteuf/utae-paps