软件学报 | 当时空数据管理遇到时空AI:进展、挑战与展望(附论文)

面对海量、动态、多源异构的时空数据，传统数据库技术难以高效应对。与此同时，人工智能技术的迅猛发展为时空数据的管理与挖掘带来了新的契机。当“时空数据管理”遇上“时空人工智能”，两者将如何协同进化？本次为大家带来重庆大学Start Lab最新在软件学报收录的文章《当时空数据管理遇到时空AI：进展、挑战与展望》，系统梳理这一交叉领域的研究范畴与研究分类，并聚焦不同数据类型，深入介绍ST-AI4DM和ST-DM4AI的代表性工作。

一、背景

海量时空数据不仅对存储与管理提出了更高要求，也为数据分析与智能应用带来了新的机遇。在此背景下，时空数据管理（STDB）与时空人工智能（STAI）相互促进、协同发展。STDM关注时空数据的高效存储、索引与查询，以优化数据管理与访问效率；STAI则借助人工智能技术挖掘时空数据中的模式和规律，进而支持智能决策。时空数据不仅具备海量、动态及多源异构的特征，还呈现出复杂的时空分布规律：在空间维度上常表现为倾斜性与层次性；在时间维度上则具有显著的周期性与趋势性。上述特性使得传统数据库技术难以满足STDM对实时处理与计算效率的需求。人工智能技术能够学习数据分布特征并感知系统工作负载，从而优化时空数据组织与查询引擎设计，提高STDM的效率。同时，相较于传统基于统计的方法，STAI在时空特征学习方面虽表现优越，但在实际应用中仍面临效率较低和使用不便等问题。STDM可有效整合多源异构的时空数据，提升STAI的训练效率，降低其使用门槛。

本综述从时空数据类型的独特视角出发，系统梳理和总结近年来在两个关键方向上的研究进展：一是运用AI技术提升时空数据管理的智能化水平（ST-AI4DM），二是如何构建面向STAI应用的高效时空数据管理技术（ST-DM4AI）。

二、时空数据及其特性

如图1所示，论文首先根据数据点间的时空依赖关系，将时空数据划分为“独立数据”与“关联数据”两大类。独立数据指数据点间无显著时空依赖的数据；关联数据则指在空间上存在拓扑关系或时间上存在序列依赖的数据。在此基础上，进一步根据数据的动静态特性，将上述两大类数据细分为静态与动态两种类型。最终，论文形成了一个包含四类数据的分类体系：

（1）静态独立数据：指具有固定空间位置、且不随时间产生读数的独立数据。此类数据通常反映的是静态的空间实体，如兴趣点（POI）数据。

（2）动态独立数据：指空间位置随着时间变化的独立数据，如签到数据、交通事故的发生地点数据等。

（3）静态关联数据：指在空间上固定、与其他数据元素存在拓扑关系、且不随时间产生读数的数据。例如，城市的道路网络和公共设施的空间布局。

（4）动态关联数据：指空间位置或数据点属性值随时间动态变化，且不同数据点之间存在拓扑关系或者时序依赖的数据，如车辆轨迹数据。空间时序数据（如空气质量监测站点数据）也属于此类。

图1 时空数据分类及需关注的重点特性

三、研究框架：ST-AI4DM与ST-DM4AI

基于第一节建立的时空数据分类体系，论文构建了图2所示的研究框架。该框架将ST-AI4DM研究进一步划分为基于学习的时空数据存储、基于学习的时空数据索引和基于学习的时空查询优化三个层面；将ST-DM4AI的工作划分为基于DM的时空数据准备、基于DM的时空模型训练和基于DM的时空模型使用三个阶段，并从数据类型的视角出发总结各研究方向的代表性研究。

图2 ST-AI4DM和ST-DM4AI的研究分类

四、ST-AI4DM

4.1基于学习的时空数据存储

在分布式系统中，高效的数据存储是实现可伸缩性和高性能的关键。基于学习的数据分区通过学习数据特征、数据分布或访问模式，生成更智能、更适应负载的分区策略。如图3所示，基于学习的分区策略可进一步细分为以下三类：

模型代替分区。模型直接学习从原始数据到分区结果的映射关系。

AI辅助分区。模型评估多种传统分区技术在特定数据集和查询工作负载下的表现，从中选择最优方案。

AI优化分区构建。将分区过程建模为优化问题，通过自动调整传统分区方法中的关键参数（如网格大小、树的深度或划分阈值），以动态优化分区结构。

与此同时，海量时空数据的有效管理是另一核心挑战。对于动态关联数据，其数据量通常极为庞大且包含大量冗余信息。数据简化因此成为关键的预处理技术，旨在以最小的信息损失减小数据规模。

图3 基于学习的时空分区方法

基于学习的时空数据存储研究总结如表1所示。

表1 基于学习的数据存储研究总结

静态独立数据：静态独立数据的空间位置相对固定且不随时间产生读数，其空间分布特性通常是设计高效空间分区方案的核心依据。如ClusterPar基于K-Means聚类算法对静态独立数据进行空间分区，其分区数量与计算系统线程数一致；SA-Partitioner利用盒计数函数量化数据集分布偏斜度，基于数据集的特征参考量E0和E2构建了一个基于规则的决策树模型，用于自动选择合适的分区方式；DRL-Partitioner将空间数据分区优化问题建模为一个深度强化学习任务。

动态独立数据：动态独立数据具有时间属性，数据量通常较大，且多采用分布式存储方式。针对此类数据的分区构建，基于AI的方法主要侧重于参数自动调优与结构增量维护两个层面。前者如ST-kNNJ提出了一种结合扫描线算法与四叉树的时空分区方法；后者如CBP框架引入基于线性回归的学习型成本模型，通过拟合少量的查询样本数据预测不同分区状态下的范围查询耗时，实现了在动态数据流下的分区质量自适应优化。

4.2基于学习的时空数据索引

基于学习的数据索引主要分为两类：学习索引与AI辅助索引。如图4所示，学习索引可进一步细分为以下三类：

（1）基于累积分布函数（CDF）的学习索引。其核心思想是利用CDF预测数据位置以加速检索。针对高维的时空数据，首先通过映射函数将其降维到一维，再采用分层模型架构学习数据分布与物理存储间的映射关系。

（2）基于网格分区的学习索引。将数据划分为若干个局部区域，利用学习模型建立从空间位置到分区的预测映射，并在每个分区内部建立局部模型或结构以实现数据点的快速定位。

（3）基于布隆过滤器的学习索引。将布隆过滤的任务视为二分类的概率预测问题，并辅以一个小型备用布隆过滤器以消除漏报。

如图5所示，AI辅助索引可以进一步细分为以下两类：

索引构建优化。即利用AI模型优化索引的划分策略、结构设计或参数配置。

查询感知索引。在查询过程中引入AI决策模块，实现候选过滤、路径剪枝或目标预测等优化。

图4 学习索引分类图

图5 AI辅助索引分类图

基于学习的时空数据索引研究总结如表2所示。

表2 基于学习的数据索引研究总结

静态独立数据：静态独立数据具有查询频率高和更新频率低的特点，索引设计的核心是最大化查询效率，且需要高效支持点、范围及KNN查询等关键空间操作，以满足如地图服务等真实应用中的检索需求。如ZM索引采用Z-order曲线将多维数据映射到一维有序整数值Z-address，然后构建多阶段模型建立Z-address和有序数组中位置的映射关系。

动态独立数据：动态独立数据更新频繁，此类数据的索引设计需要同时兼顾高效的数据查询和低成本的维护。AI辅助索引相关的研究主要集中在如何高效构建索引以应对数据的动态更新。如HELM引入多智能体强化学习机制。通过多个智能体之间的协作实时监控空间数据的动态演变，在线自动寻找最优的分区边界和配置参数，并保证在索引优化和重构过程中，查询和更新操作仍能高性能运行。

动态关联数据：动态关联数据的查询需求远比静态数据复杂，如未来位置预测查询和相似性查询等。针对这些特定查询，基于学习的索引设计必须与查询处理过程深度融合。如BT树利用强化学习，根据轨迹数据的内在特征与历史查询负载，灵活选择经度、纬度或时间等维度划分数据空间。

4.3基于学习的时空查询优化

如图6所示，论文将查询优化任务分为以下三类：（1）参数估计。此类研究致力于精准预测选择率、基数和成本等核心指标，通常将参数估计建模为回归问题。（2）执行计划选择。该类方法旨在为查询直接推荐最优的执行路径或策略。（3）查询重写。该类研究通过智能地改写查询语句本身或改写特定的约束。

图6 基于学习的时空查询优化方法

基于学习的时空数据查询优化研究总结如表3所示。

表3 基于学习的数据查询研究总结

静态独立数据：其分布相对稳定，基于学习的查询优化研究重点在于通过离线学习提升复杂空间计算的效率。如PivNet以O(1)的复杂度一次性输出完整的k-NN距离向量，实现了无需访问原始数据的高效估计。

动态独立数据：动态独立数据的特点是数据分布和查询负载都具有高度的动态性和时效性，基于学习的查询优化研究侧重于提升模型的增量学习能力和自适应能力。如LATEST用增量学习（Hoeffding树）适应流式变化。

静态关联数据：静态关联数据对象之间存在较稳定的拓扑关系，最典型的场景是空间连接查询，这类数据的查询优化挑战在于准确估计连接操作的基数和成本。如PolyCard针对复杂多边形的相交查询，通过自适应采样技术将变长顶点转换为固定维度的几何特征向量，并结合合成数据增强策略训练轻量级MLP模型，实现了微秒级的空间基数估计。

动态关联数据：基于学习的查询优化研究重点在于设计模型来应对数据的稀疏性和高维性。如GL+CNN通过查询切片与数据切片增强轨迹相似性基数估计的准确性，并利用全局模型预筛选相关数据切片以降低计算开销。

五、ST-DM4AI

如图7所示，时空AI的核心流程可归纳为数据准备、模型训练和模型使用三个阶段。

图7 STAI 模型三阶段示意图

ST-DM4AI研究总结如表4所示。

表 4 ST-DM4AI 研究总结

5.1基于STDM的时空数据准备

STDM在数据准备阶段的突出贡献在于确保时空数据的准确性和实时性。

静态独立数据：静态独立数据的数据准备流程的核心是确保其空间位置和属性的精确性。如SPARCLE框架将“空间感知”注入到基于规则的数据清洗系统核心引擎中。

动态独立数据：如SPEAR定义了了分布式流式时空数据类型StreamingST（n）和相应函数，可直接处理分布式查询状态的实时变化，并提出基于GeoHash的动态空间分区策略。

5.2基于STDM的时空模型训练

基于STDM的时空模型训练旨在从模型效果与模型效率两个维度优化STAI的训练过程。

静态独立数据：PAIRS AutoGeo框架通过提供预定义地理空间优化模型、自动优选最佳模型以及网格搜索自动调参，解决了模型训练初期模型选择与参数配置的复杂耗时问题。

动态关联数据：STDM通过内存计算和硬件加速等技术，显著提升了空间操作的速度，如Catfish利用远程直接内存访问机制优化了分布式系统中的 R 树处理，通过低延迟查询和工作负载分流来提升吞吐量。

5.3基于STDM的时空模型使用

现代时空数据管理正积极推动数据存储与分析功能的深度整合，用户无需关注底层的分布式计算或复杂的模型推理流程，即可通过熟悉的接口完成任务。

静态独立数据：如JUST通过扩展SQL接口，允许用户直接在空间数据集上执行聚类操作。

动态独立数据：如Google BigQueryML等云数据仓库扩展了SQL语法，支持直接对动态独立数据进行时序预测。

动态关联数据：GNOSIS等视频数据管理系统通过集成深度学习框架支持视觉任务，用户可通过扩展SQL语法直接调用这些功能。

六、总结

本文系统梳理了时空数据管理与时空人工智能协同发展的研究进展，提出了面向独立数据与关联数据的分类体系，详细介绍了ST-AI4DM与ST-DM4AI两大方向的关键技术与代表性工作。随着AI技术的不断演进，时空数据管理系统正朝着智能化、一体化、自动化方向快速发展。未来，我们期待更多跨环境、跨模型、跨任务的智能时空数据平台问世，为智慧城市、自动驾驶、环境监测等应用提供坚实支撑。

-End-

本文作者

苏赛男

重庆大学计算机技术专业 2024级硕士生，重庆大学 Start Lab团队成员。

主要研究方向：AI4DB

重庆大学时空实验室（Spatio-Temporal Art Lab，简称Start Lab），旨在发挥企业和高校的优势，深入探索时空数据收集、存储、管理、挖掘、可视化相关技术，并积极推进学术成果在产业界的落地！年度有3~5名研究生名额，欢迎计算机、GIS等相关专业的学生报考！

图文｜苏赛男王可欣

校稿｜苏赛男

编辑｜刘苧锐

审核｜李瑞远

审核｜杨广超

关注公众号，回复“STAI4DB”获取论文