
一、 分层文档模型:兼容多变的大模型输出
解法是采用Base + Attributes分层文档模型。
Attributes层采用动态JSON字典承载稀疏语义标签。业务新增VLM标签(如ppe_status、custom_behavior、vehicle_type)只需写入字典,无需执行DDL。查询引擎通过嵌套字段索引与数组匹配语法,即可高效穿透动态字典,避免全表扫描。让系统能够应对非标化业务的蔓延以及VLM版本升级导致的输出字段变化。
Base层复合索引保障高频查询性能,Attributes层动态扩展不牺牲查询效率。

二、 混合检索引擎:精准过滤与语义泛化
单一检索模式无法同时满足两类截然不同的查询需求。一方面,业务方需要基于确定性条件(如"摄像头C03、10:00-11:00、越界事件")进行精准过滤;另一方面,又需要支持模糊语义检索(如"查找所有类似徘徊行为的片段"),突破传统"硬标签匹配"的限制。
为解决该问题,可采用混合检索引擎通过统一查询网关封装异构数据库复杂性,结合多种检索方式的优点。
主存储(MongoDB)负责完整事件文档持久化。通过复合索引实现高频的时间、空间、确定性事件类型的极速过滤。标量过滤先行,大幅收敛候选集维度,为后续向量检索降低计算成本。
向量库(Milvus Lite)负责关键帧Embedding存储。突破传统"硬标签匹配"的限制,解决姿态相似、环境干扰、模糊语义的泛化召回问题。仅保留事件ID与轻量元数据,详情通过主存储反查,杜绝数据冗余。

三、 轻量时空知识图谱:打破单镜头孤岛的因果推理引擎
文档与向量检索只能解决"单点事件查找",无法应对复杂的跨时空推理场景。
这些问题的本质是跨摄像头、跨时段的因果链还原,需要系统具备"关系推理"能力,而非简单的"标签匹配"。传统方案依赖人工逐帧回放与肉眼关联,效率极低且易遗漏关键线索。
可以引入图数据库,将离散事件构建为可推理的轻量时空知识图谱,来实现因果推理能力。
3.1 异构建模:Entity与Event双节点解耦
图谱节点设计采用双类型解耦策略。Entity节点代表人员、车辆、物理区域等持久化对象,提供静态约束(如权限、型号、风险等级)与身份归一化。Entity节点生命周期长,属性缓慢变化,是图谱的"稳定锚点"。
Event节点代表越界、徘徊、物品交接、跌倒等瞬时行为。承载因果推理与置信度,属性包括时间窗口、行为类型、置信度等,Event节点生命周期短,是图谱的"动态驱动因子"。
解耦的价值在于避免将主体属性与行为动作混为一谈,显著降低图算法伪相关率,提升遍历效率。查询时可根据需求灵活组合——"查找某人员(Entity)触发的所有越界事件(Event)"或"查找某区域(Entity)内发生的所有异常行为(Event)"。
3.2 三层关联网络:从时空邻接到因果推理
图谱边关系按语义分层构建,形成三层关联网络。
第一层:时空邻接边。基于预置摄像头物理拓扑矩阵与滑动时间窗自动计算,属性包括时间差、空间距离、视野重叠率。自动识别同一轨迹在不同摄像头的接力出现,支撑跨镜追踪。
第二层:交互关系边。基于VLM稀疏打标或显式规则判定,属性包括交互类型(人-车、人-物、人-人)、置信度。捕捉实体间的直接交互行为。
第三层:因果关系边。通过离线批处理与时序模式挖掘发现深度链路关联,属性包括置信度、发现方法、因果链标识。还原事件演进的深层逻辑。
3.3 按需构建:避免算力与存储雪崩
全量视频实时建图必然导致资源崩溃,仅当产生高价值/高危事件才提取节点/边写入图数据库。过滤90%低价值流水,避免无效建图消耗资源。异步执行,不阻塞主干事件写入流水线。
查询性能保护方面,强制限制遍历深度,避免全图扫描导致的级联延迟。强制前置时间范围过滤,先收敛时间窗口,再执行图遍历,大幅降低计算量。高频查询物化子图缓存至内存,避免重复计算。

3.4 典型应用场景
园区安防人员需要还原某可疑人员的完整活动轨迹时,以人员Entity节点为起点,遍历时空邻接边,自动串联其在不同摄像头的出现记录,生成时间轴动线图。
禁区闯入事件发生后,需要分析是否存在前序异常行为(如徘徊、踩点)。以闯入Event节点为终点,反向遍历因果关系边,自动发现前序关联事件,形成"徘徊→踩点→闯入"的因果链。帮助安保人员识别有组织行为,提前干预。
四、 结语
工业场景的合规底线是"结论必带证据"。生成式AI虽然能流畅输出自然语言结论,但在安防审计、司法取证、安全复盘等场景中,缺乏证据支撑的AI结论,合规风险极高。当数据从"原始像素流"转化为"可检索、可关联、可追溯的结构化知识",才有可能实现AI视频监控全链路证据追溯,真正的打破"AI黑盒"。
夜雨聆风