AI病理数据集周荐|第01期(2026.05.16)
每周六介绍一个公开数据集,让好数据不再难找!
本期介绍的STHELAR数据集是一个多组织、多模态公开数据集,核心特点是将 Xenium 空间转录组数据与对应的 H&E 全切片病理图像进行了精确配准,并进一步生成细胞级类型标注。
数据集主入口位于 BioStudies 数据库,项目编号为 S-BIAD2146,下载地址为:https://doi.org/10.6019/S-BIAD2146。
这里更接近“完整版数据入口”,包含每张切片对应的 SpatialData(.zarr)对象,以及配准后的 H&E 图像、DAPI 图像、空间转录组 transcript 信息、细胞/细胞核边界、细胞类型标签、图像块坐标、分割与分类掩码、部分预计算特征和技术验证相关文件等,适合希望深入分析空间转录组与病理图像配准关系的研究者使用。
如果主要目的是直接开展病理 AI 模型训练,可以优先使用 Hugging Face 上整理好的 patch 级数据版本。作者分别提供了 40× 和 20× 两个版本:
40×版本: https://doi.org/10.57967/hf/600837
20×版本: https://doi.org/10.57967/hf/600938
Hugging Face 版本可以理解为更方便下载和调用的“训练友好版”:数据以 parquet 格式组织,核心内容是从配准后的 H&E 全切片中切出的 256×256 图像块,并配套提供 cell ID mask 和细胞类型汇总表。40×版本共 587,555 张图像块,更适合细胞核级细节建模;20×版本共 154,814 张图像块,视野更大,更适合兼顾局部组织结构与细胞组成分析。
作者提示: 个人观点,仅供参考
广东,5月16日 10:22,2026年6月3日
夜雨聆风