乐于分享
好东西不私藏

AI的眼睛从不眨眼:实时追踪背后,一场关于「连续性」的哲学战争

AI的眼睛从不眨眼:实时追踪背后,一场关于「连续性」的哲学战争

 
 

   AI的眼睛从不眨眼:实时追踪背后,一场关于「连续性」的哲学战争
 

 

   安防摄像头每秒处理30帧画面,体育转播要锁定高速运动的球,自动驾驶要同时盯住几十个行人。这些场景背后是同一个问题:当世界在动,AI怎么知道「这一帧的他」和「上一帧的他」是同一个人?这个问题比你想象的难得多。
 

 

   先做一个思想实验。你走进一个派对,认识了一个穿红衣服的人。五分钟后,人群里有个穿红衣服的人经过,你会下意识认为是同一个人。但如果他换了件衣服呢?如果灯光变暗了呢?如果他背对着你呢?人类大脑处理这些情况毫不费力,因为我们在用整个神经系统的全部历史经验在「猜」。AI做同样的事,则需要把这种「猜」变成一套可以量化的数学框架。
 

 

   检测只是入场券,追踪才是正题
 

 

   很多人以为AI的物体追踪就是「识别+定位」,检测到了就算追踪了。这是最常见的误解。检测(Detection)回答的是「这一帧里有什么」,追踪(Tracking)回答的是「上一帧的那个东西,现在在哪」。两者之间隔着一道本质的鸿沟:时间上的同一性。一个物体消失在柱子后面再出现,AI怎么确认是同一个?两个人交叉走过,AI怎么不把身份搞混?这些问题,单靠识别模型根本无法回答。
 

 

   真正的追踪难点不是「找到目标」,而是「在混乱中维持目标的身份连续性」——这和人类认知里的「物体恒常性」是同一个问题。
 

 

   卡尔曼滤波:一个1960年的答案,今天还在用
 

 

   追踪领域最经典的工具叫卡尔曼滤波,1960年由匈牙利裔工程师鲁道夫·卡尔曼提出,最初是为了解决阿波罗飞船的轨道计算问题。它的核心逻辑极其优雅:用过去的运动规律预测未来的位置,再用实际观测值来修正预测,循环迭代。换句话说,它不是被动地「等着看目标在哪」,而是主动地「猜目标应该在哪,然后验证」。这种预测-修正的机制,让系统在目标短暂遮挡时依然能维持追踪,而不是每次都从零开始重新识别。
 

 

   60+
 

 

   卡尔曼滤波诞生至今的年数,它依然是现代多目标追踪系统的核心组件之一
 

 

   但卡尔曼滤波有个致命假设:运动是线性的、噪声是高斯分布的。现实世界里,一个突然变向的足球运动员,或者一辆急刹的汽车,会直接让这个假设崩掉。所以现代系统通常把卡尔曼滤波作为「骨架」,在它外面包一层深度学习模型来处理外观特征——当运动预测失效时,用「这个人长什么样」来重新锚定身份。
 

 

   多目标追踪:一道组合爆炸的数学题
 

 

   单目标追踪已经够复杂,多目标追踪是另一个维度的挑战。想象一个足球场,22个球员同时在动。每一帧,系统要把检测到的若干个边界框,和上一帧已知的若干个轨迹,做最优匹配。这是一个经典的「指派问题」,用匈牙利算法可以求解。但当目标数量增加、遮挡增多、新目标不断进入画面,计算复杂度会指数级上升。SORT、DeepSORT、ByteTrack,这些近年来流行的追踪算法,本质上都是在用不同策略压缩这道组合题的搜索空间。
 

 

1SORT:只用运动信息做匹配,速度极快,但遮挡后容易丢失身份

2DeepSORT:引入外观特征(Re-ID),遮挡恢复能力更强,但计算量更大

3ByteTrack:把「低置信度检测框」也纳入匹配,大幅减少漏追踪,是目前工业界主流

 

   不同场景,其实是不同的「容错哲学」
 

 

   安防监控和体育转播,看起来都是「追踪人」,但对错误的容忍完全不同。安防系统最怕的是「ID切换」——同一个人被系统认成两个人,或者两个人的身份被互换,这在刑事调查中可能是灾难性的。所以安防侧重的是追踪的准确性和身份的稳定性,宁可漏追也不要错追。体育转播则相反,观众需要的是流畅的视觉体验,短暂的ID混淆可以用人工修正,但如果追踪频繁断掉、镜头跳动,体验会直接崩溃。所以体育侧重的是追踪的连续性和实时性。同一套技术,因为「错误成本」不同,系统设计的取舍方向完全相反。
 

 

 

   衡量一个追踪系统的好坏,关键不是它能追多准,而是它在「快要追丢」时如何做决策。
 

 

 

   边缘计算带来的新战场
 

 

   过去,追踪算法跑在云端服务器上,画面传上去、结果传回来,延迟以秒计。这在安防回放分析里没问题,但自动驾驶和实时机器人系统等不起。现在的趋势是把推理压缩进芯片,直接在摄像头或车载计算单元里完成追踪。这带来了一个有趣的工程悖论:模型越小越快,但小模型在复杂场景下更容易出错,而复杂场景恰恰是自动驾驶最需要准确追踪的时刻。如何在算力受限的条件下维持关键场景的追踪质量,是当前工业界最烧脑的问题之一。
 

 
 

   回到最开始的问题:AI怎么知道「这一帧的他」和「上一帧的他」是同一个人?答案是:它其实永远无法百分之百确定,它只是在用数学维持一个「最可能正确」的假设,并不断用新的观测来检验这个假设。这和人类的认知机制惊人地相似——我们也不是真的「知道」,我们只是在用经验和逻辑持续地猜,并且猜得足够快、足够准,以至于感觉不像在猜。
 

 

   ✦ 小结
 

 

   实时物体追踪不是一个识别问题,而是一个关于「连续性」的推理问题。从卡尔曼滤波到深度外观特征,从单目标到多目标,核心挑战始终是:在一个不停变化的世界里,如何用尽可能少的信息维持对「同一性」的判断。不同应用场景的差异,本质上是对「犯错代价」的不同定义。理解了这一点,才算真正理解了追踪。
 

 实时追踪计算机视觉DeepSORT边缘计算多目标追踪