
在日常拍摄中,视频里闯入路人、杂物,或是消除目标后留下尴尬阴影,一直是内容创作的痛点。
针对这一需求,小米大模型应用团队推出了 SVOR(Stable Video Object Removal,稳定视频物体消除) 框架。
与以往多在理想条件下验证的算法不同,SVOR 专为复杂的真实世界场景设计,旨在解决视频消除任务落地时的“最后一公里”难题。该项目不仅在多个标准数据集上达到了 SOTA(当前最佳)水平,还荣膺 CVPR 2026 物理感知视频实例消除挑战赛冠军。
功能特点
SVOR 提供了一站式的视频物体消除能力,其核心功能包括:
智能去物
精准移除视频中不需要的动态或静态对象(如路人、车辆、杂物等)。
阴影清除
不仅能去掉物体,还能同步消除物体投下的阴影或表面反射,避免“物去影留”的假感。
容错消除
支持不完美的输入条件,即使提供的遮罩(Mask)边缘粗糙或略有偏差,仍能输出高质量的修复画面。
稳定追踪
面对物体的快速移动或画面突变,能保持消除区域的时序一致性,避免画面闪烁或“跟丢”导致的漏帧。
核心创新
为了应对真实场景中的三类“不完美条件”(阴影残留、运动抖动、遮罩缺陷),

SVOR 融合了三项核心技术:
MUSE(窗口化联合策略):针对快速运动导致的抖动与漏帧,MUSE 放弃传统的逐帧孤立处理,转而分析时间窗口内的遮罩联合情况。这就像凭肉眼追踪轨迹一样,确保运动物体在各帧中被完整、稳定地消除。
DA-Seg(去噪感知分割):针对遮罩边界不准的问题,该模块充当了“纠错机制”。即便用户输入的掩码有缺陷,DA-Seg 也能智能修正并补全缺失区域,极大提升了模型对不完美输入的容错能力。
课程式两阶段训练
第一阶段:利用真实背景视频进行自监督预训练,让模型掌握自然的时序运动规律;
第二阶段:使用合成数据进行精调,专门攻克阴影和反射残留的难题。
这种“先学走路再学跑步”的策略显著增强了模型的跨场景适应性。
应用场景
视频创作与剪辑:帮助创作者轻松去除旅拍视频中的路人、电线杆等干扰元素,让成片更干净自然,告别“一眼假”的修复痕迹。
开发者集成:基于开源代码(GitHub: xiaomi-research/svor),开发者可快速将工业级的视频消除能力集成到各类音视频编辑工具或 App 中。
学术与行业研究:为视频修复、生成式内容编辑等领域提供了面向真实不完美条件的强基线(Strong Baseline),推动视频 AI 从实验室玩具走向实际落地。
GitHub:https://github.com/xiaomi-research/svor欢迎扫码加入社群
一起交流AI前沿技术!

小编免费共享AI开源项目知识库,
实现大家的AI资讯自由!
直接扫码或点击链接即可查看!

AI开源项目知识库:https://qyxznlkmwx.feishu.cn/wiki/BwWIwsCOuiMWGmkUzNHcKLvPnPh
夜雨聆风