AI大模型与四农普(五):遥感标注工具——5款主流工具深度对比
——X-AnyLabeling模型最全,EISeg最接近遥感原生,LabelImg还能用但别选它做新项目

前两期聊了地块分割和作物识别的模型选型,但有个问题一直没展开:模型选好了,训练数据怎么标?
全国2800多个县,每个县几万到几十万个地块。光靠人手一个个勾画,项目周期根本撑不住。AI模型再强,没有标注数据就是一堆参数文件。标注数据从哪来?要么花钱雇人标,要么用工具加速标。
遥感标注和通用CV标注是两回事。通用CV标注对象是猫、狗、汽车,形状规整、背景干净。遥感标注对象是地块、温室、作物,形状不规则、目标密集、多光谱通道、还要处理GeoTIFF和坐标系。拿通用工具标遥感数据,踩坑是必然的。
2026年的开源标注工具生态已经分化:X-AnyLabeling主打AI模型全家桶,LabelMe是轻量多边形标注老牌选手,LabelImg已归档停更但仍在大量教学和入门场景中使用,CVAT是团队协作的Web方案,EISeg是唯一对遥感有多光谱+切片支持的工具。
今天把5款工具拉出来做一次硬核对比。

一、5款工具逐个拆解
1. X-AnyLabeling:AI模型最多的开源标注工具
GitHub 7,500+ stars,GPL-3.0许可,2026年4月仍在密集更新。
核心卖点:100+AI模型开箱即用。SAM 1/2/3、YOLO全系(v5-v26)、Grounding DINO、Qwen3-VL、PaddleOCR——全塞进一个桌面界面。pip install一条命令装完,CPU也能跑,完全离线。
标注能力全表:
导出格式:COCO、VOC、YOLO、DOTA(遥感旋转框标准)、MOT(追踪)、MASK、PPOCR(OCR)——主流ML格式全覆盖。
三个核心工作流:
工作流A——SAM3文本分割(最快):
Ctrl+A → 选SAM3 → 输入"greenhouse" → 5秒全图出结果输入一个词,全图所有匹配目标一次性分割。SAM1/2是交互式的——你得一个一个点。SAM3是搜索引擎——你说要什么,它全给你找出来。
工作流B——YOLO预检+SAM精修(最实用):
YOLO11-Obb全图预检测 → SAM3对每个框精确分割 → 人工修正遗漏纯人工30-60分钟/张,三步法2-5分钟/张,效率提升10-20倍。
工作流C——VLM+SAM3 Agent(最智能):
输入"靠河流右侧的大面积塑料大棚" → VLM解析语义 → SAM3执行分割VLM负责理解复杂描述,SAM3负责执行。ReasonSeg验证集gIoU从65.0提升到76.0。
关键优势:
• 唯一原生支持DOTA旋转框的开源标注工具——遥感目标检测的刚需 • 内置Ultralytics训练平台:标注→训练→新模型回注,闭环迭代 • 一键批量推理:整个任务目录全量AI标注 • TensorRT后端加速:推理速度比ONNX快2-3倍
关键劣势:
• 不支持GeoTIFF——卫星影像必须预切片成PNG • 不导出GIS格式——COCO/YOLO需转换为Shapefile • 没有团队协作——纯单机工具 • GPL-3.0许可——商业项目需注意传染性
2. LabelMe:多边形标注的经典老牌
GitHub 12,000+ stars,MIT许可,2025-2026年仍在更新。
核心定位:轻量级多边形标注工具。画多边形、矩形、圆、线、点——基本的标注形状全支持。
AI能力(2025年后新增):
• 通过OSAM库集成SAM——点击一个点,自动生成多边形轮廓 • 支持YOLO-World + SAM3的文本到标注功能 • EfficientSAM轻量化选项
导出格式:原生JSON、VOC(语义/实例)、COCO(实例)。
LabelMe vs X-AnyLabeling的关键区别:
| 100+个 | ||
| 一键全目录 | ||
| 原生DOTA | ||
| Ultralytics闭环 | ||
结论:LabelMe是"标注界的记事本"——简单可靠,但只适合小规模标注。当你需要批量处理上千张影像时,它的逐张操作模式效率太低。
3. LabelImg:归档停更,仍能打但不值得投入
GitHub 23,000+ stars(曾经的王者),2024年2月已归档停更。官方推荐迁移到Label Studio。
先说清楚:归档≠不能用。 LabelImg 2026年装上照样跑,矩形框标注功能完整,YOLO格式导出正常。很多大学课程和YouTube教程仍然在教LabelImg,原因很简单——pip install labelImg,30秒装好,快捷键只有三个(W画框、A上一张、D下一张),新手5分钟上手。这个简洁度,X-AnyLabeling做不到。
但它的局限性也很明确:
什么场景还可以用LabelImg:
• 初学者入门YOLO标注,先学会"画框"这个基本动作 • 只需要标注几百张图的矩形框,不想折腾环境配置 • 教学演示,追求最简安装和操作
什么场景不应该选LabelImg:
• 新项目需要多边形、旋转框、掩膜等标注类型 • 标注量上千张,需要AI辅助提速 • 团队协作、审核流程 • 需要长期维护的项目——归档意味着遇到bug没人修
4. CVAT:团队协作的唯一开源选择
GitHub 14,000+ stars,MIT许可,Intel开发维护。基于Web,Docker部署。
核心定位:企业级团队标注平台。多人协作、任务分配、审核流程、质量控制——这些是其他单机工具做不到的。
AI能力:
• SAM交互式分割(点击生成多边形) • Faster RCNN、YOLO v3/v7检测器 • SiamMask、TransT目标追踪 • Roboflow集成:50,000+预训练模型 • HuggingFace集成:自定义模型 • BYOM(Bring Your Own Model):部署自己的模型
导出格式最全:CVAT XML、PASCAL VOC、YOLO、COCO、MOT、MOTS、LabelMe 3.0、ImageNet、CamVid、Cityscapes、KITTI、ICDAR、Open Images、Ultralytics YOLO(检测/OBB/分割/姿态)、Supervisely等——20+种格式。
关键优势:
• 多人Web协作,任务分配+审核流程 • 格式支持最全面 • Roboflow/HuggingFace模型生态丰富 • MIT许可,商业友好
关键劣势:
• 需要Docker部署——技术门槛比桌面工具高 • 免费版数据限制(500MB、10个任务) • 不支持GeoTIFF/坐标系——和X-AnyLabeling一样有遥感硬伤 • AI模型数量不如X-AnyLabeling
CVAT的定位很清晰:如果你有10人以上标注团队,需要任务分配和审核流程,CVAT是唯一选择。个人标注用X-AnyLabeling,团队管理用CVAT。
5. EISeg:最接近遥感原生的交互式分割工具
PaddleSeg生态的交互式分割工具,Apache-2.0许可。
核心定位:PaddlePaddle框架下的专业交互式分割。和X-AnyLabeling的"AI全家桶"不同,EISeg专注在像素级语义分割这一件事上。
为什么说EISeg最接近遥感原生:
| 支持 | |||||
| 多宫格切片 | |||||
| 建筑/遥感专用模型 | |||||
| 支持 |
EISeg的遥感专用能力:
• 多光谱通道选择:可以指定RGB对应的波段,不用预处理成3通道 • 大幅面切片:大尺寸遥感影像自动切片为多宫格,逐格标注 • 遥感预训练模型:建筑提取专用模型,比通用SAM更贴合遥感场景 • Shapefile导出:标注结果可直接导出为Shapefile——其他开源工具都做不到
交互方式:正/负点击提示。点一下正样本,模型实时生成分割掩膜;点一下负样本,模型修正边界。2021年v0.4优化后单次点击响应速度提升10倍。
关键劣势:
• 开发已停滞——最后主要更新在2022年12月(v1.1),PaddleSeg父项目仍在维护但EISeg模块更新很少 • 深度绑定PaddlePaddle——不能用PyTorch生态的模型 • 功能单一——只做交互式分割,不支持目标检测、旋转框、追踪等 • Shapefile导出有坐标bug——官方issue里有多个坐标偏移报告
EISeg的现状很尴尬:技术上最接近遥感标注需求,但开发停滞让它和X-AnyLabeling的差距越来越大。如果百度Paddle团队重启EISeg开发,加上SAM3集成,它会是遥感标注的最优解。但目前,它更适合作为X-AnyLabeling的补充——多光谱通道选择这个能力是独家的。

二、YOLO标注工作流:从标注到训练的完整管线
YOLO系列(v5-v26)是目标检测的事实标准。四农普中温室大棚检测、农机识别、地块边界框提取,都用YOLO。它的标注工作流值得单独说。
YOLO标注格式:
# 每张图一个.txt文件,每行一个目标
# class_id x_center y_center width height(归一化坐标0-1)
0 0.4523 0.3812 0.1234 0.0876
1 0.7891 0.5234 0.0912 0.0654完整YOLO标注管线:
方案A:X-AnyLabeling(推荐)
YOLO模型预检测 → 人工审核修正 → 导出YOLO格式 → Ultralytics训练 → 新模型回注
方案B:LabelImg(已停更)
手动画矩形框 → 保存YOLO格式 → 训练 → 无回注机制
方案C:Ultralytics自动标注
model.predict(source) → 自动生成YOLO标注 → 人工抽检X-AnyLabeling的闭环优势:
X-AnyLabeling内置了Ultralytics训练平台。这意味着一个完整的迭代闭环:
SAM3辅助标注 → 导出YOLO格式 → 内置训练 → 新模型回注 → 继续标注每一轮迭代,模型都更贴合本省的地形特征和作物类型。通用模型是拐杖,本地模型才是腿。 SAM3负责冷启动,本地YOLO负责主力输出。
这个闭环在省级团队中特别实用——不需要深度学习工程师,不需要GPU集群,一台工作站就能跑起来。
三、语义分割标注:DeepLab/SegFormer的标注工具链
作物分类(19篇)用的是语义分割——每个像素预测一个类别。语义分割的标注和目标检测完全不同:不是画框,是画区域。
语义标注 vs 实例标注的区别:
语义分割标注工具推荐:
EISeg(首选):交互式点击分割,遥感专用模型。适合:需要像素级作物分类标签的场景。多光谱通道选择+大幅面切片是独家能力。
X-AnyLabeling + SAM(次选):SAM交互式分割生成像素掩码,导出MASK格式。适合:已有切片好的影像,需要批量处理。
LabelMe + SAM(小规模):点击生成多边形,导出VOC语义分割格式。适合:几张图的小规模标注。
QGIS + AI插件(最专业):原生GeoTIFF+坐标系支持,但AI辅助功能弱。适合:已有模型预测结果需要人工精修。
四、遥感标注三大坑:不是不能用,是得绕着用
5款工具没有一款原生支持GeoTIFF+坐标系。这是遥感标注最大的痛点。
坑一:不支持GeoTIFF(最致命)
卫星和无人机输出的正射影像全是GeoTIFF格式。5款工具都只认JPG/PNG/BMP/TIFF(无地理信息)。
解决方案:GDAL预切片 + Python回贴。
切片:GeoTIFF → 512×512/1024×1024 PNG瓦片 + 坐标映射表(仿射变换矩阵)
标注:任一标注工具加载PNG瓦片 → AI标注 → 导出JSON/TXT
回贴:标注结果 + 仿射变换矩阵 → GeoPandas转回地理坐标系 → Shapefilesegment-geospatial(samgeo)这个Python库能简化这个过程——原生支持GeoTIFF读写+SAM3集成。
坑二:ML格式和GIS格式不互通
四农普上图入库要Shapefile/GeoJSON,标注工具导出的是COCO/YOLO/DOTA这些ML格式。
解决方案:Python + GeoPandas写一个转换脚本。标注JSON里的像素坐标,通过切片时记录的仿射变换矩阵转成地理坐标,再导出Shapefile。脚本写一次,每个项目复用。
坑三:没有协作+审核流程
X-AnyLabeling、LabelMe、EISeg全是单机工具。10人标注团队怎么分工?谁标了哪些?质量怎么审?
解决方案:AI标注用单机工具,审核管理用Web平台。 CVAT或Label Studio导入AI标注结果做集中审核。两个工具各管一段。
没有任何一款工具能从头到尾搞定四农普标注。组合使用才是正解。
五、四农普标注实战场景
场景一:地块边界标注(实例分割)
GDAL切片GeoTIFF → X-AnyLabeling加载PNG瓦片
→ SAM3文本提示"farmland"全图地块自动分割
→ YOLO11-Obb补充遗漏小地块
→ 人工质检修正
→ 导出COCO/YOLO → GeoPandas转Shapefile → QGIS质检入库地块分割占标注工作量60-70%。SAM3文本分割能把初始标注量减少80%。
场景二:作物分类标注(语义分割)
EISeg加载多光谱影像(选择NDVI对应的波段组合)
→ 交互式点击分割:冬小麦区域、玉米区域、其他
→ 导出灰度标签PNG
→ GDAL回贴到GeoTIFF坐标系
→ 用于RF/DeepLab模型训练EISeg的多光谱通道选择在这里是关键能力——不用预合成RGB,直接在多波段数据上标注。
场景三:温室大棚标注(目标检测)
X-AnyLabeling → YOLO11-Obb旋转框预检测
→ 人工审核 → 导出DOTA格式
→ Ultralytics训练本地化大棚检测模型
→ 新模型回注迭代四农普要求温室大棚逐一上图。YOLO-OBB的旋转框比水平矩形框更贴合大棚形状,精度提升显著。
六、工具选型决策树
根据你的实际情况选工具:
个人标注 / 小团队(1-3人)
→ X-AnyLabeling(主力)+ EISeg(多光谱补充)
中等团队(5-10人)
→ X-AnyLabeling(AI标注)+ CVAT(审核管理)
大团队(10+人)
→ CVAT(全员协作)+ X-AnyLabeling(AI预标注导出后导入CVAT)
只需画几个多边形
→ LabelMe(最快上手)
只需要矩形框
→ LabelImg仍能用(入门最简),但新项目建议X-AnyLabeling

七、安装踩坑指南
X-AnyLabeling(推荐pip安装):
conda create --name xal python=3.12 -y
conda activate xal
pip install -U uv
uv pip install --pre "x-anylabeling-cvhub[gpu]"# CUDA 12.x
uv pip install --pre "x-anylabeling-cvhub[gpu-cu11]"# CUDA 11.x
uv pip install --pre "x-anylabeling-cvhub[cpu]"# 无GPU三个必须知道的坑:
1. GUI安装包(.exe/.dmg)不支持GPU加速——必须pip安装 2. CUDA版本必须匹配——12.x用 [gpu],11.x用[gpu-cu11]3. Python仅支持3.11-3.13——推荐3.12
EISeg:
pip install eiseg
# 或从PaddleSeg安装
pip install paddleseg坑:深度绑定PaddlePaddle,和PyTorch环境可能冲突。建议单独创建conda环境。
CVAT:
git clone https://github.com/cvat-ai/cvat.git
cd cvat
docker compose up -d坑:需要Docker,最低配置8GB内存+50GB磁盘。
八、模型选择速查
九、实操建议
1. 切片脚本第一天就写好。 GeoTIFF预切片+标注回贴+格式转换,三段脚本花一天写好,以后每个项目都用。磨刀不误砍柴工。 2. SAM3冷启动,本地模型接力。 项目初期用SAM3零样本出初版标注,然后训练本地化YOLO模型迭代。通用模型是起点,本地模型是终点。 3. X-AnyLabeling做主力,EISeg补多光谱。 这两个工具组合覆盖了四农普标注的绝大部分需求。CVAT只在团队超过5人时才需要。 4. LabelImg不是不能用,而是不值得投入。 归档停更意味着遇到bug没人修,新项目建议直接用X-AnyLabeling。但如果只是标几百个框入门学习,LabelImg的简洁度仍然是优势。 5. AI减量80%,人工收尾20%。 别指望AI做到100%准确。把AI当成一个手脚快但偶尔犯错的初级标注员——快速出大量结果,资深标注员审核修正。 6. 关注segment-geospatial(samgeo)。 这个Python库把SAM3和GeoTIFF原生集成,能省掉大量切片回贴的工作。如果你的标注流程可以纯Python化,samgeo比X-AnyLabeling+手动切片更省事。
你们标注团队用的什么工具?纯人工还是AI辅助?评论区聊聊。
本文是"AI大模型与四农普"系列第五篇。上期聊了作物识别(19篇),RF物候特征工程是真正的壁垒。本篇把前两期的模型落地到标注操作中——5款标注工具各有定位,组合使用才是正解。
参考资料:
• X-AnyLabeling: https://github.com/CVHub520/X-AnyLabeling • LabelMe: https://github.com/labelmeai/labelme • LabelImg: https://github.com/heartexlabs/labelImg • CVAT: https://github.com/cvat-ai/cvat • EISeg: https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.8/EISeg • SAM3论文: https://arxiv.org/abs/2511.16719 • segment-geospatial: https://samgeo.gishub.org/
夜雨聆风