故事是这样的,昨天刷X的时候看到一张动图,说实话我当时愣住了。
一段看起来很普通的街头视频,画面里一个人在走路。然后演示者在旁边打了段文字,大概意思是把左边那辆车变成黄色,结果那辆车真就变了,就变了,而且变得特别自然,阴影、反光、车身轮廓全对。我当时脑子里只有三个字,这也行?
这就是Runway API刚推出的Aleph 2.0视频编辑功能。
说真的我自己还没上手试过,毕竟API刚发,文档我都还没啃完。但看了几个演示效果之后,我确实被震了一下。Aleph 2.0的逻辑跟之前完全不一样,它不是让你调一堆参数滑块,而是直接用文字描述你要改什么,然后就给你改好了。
你想想看以前做视频后期,换个颜色你得先抠像、调色、跟踪运动、逐帧检查,一套流程下来没个半小时搞不定。现在呢,打段话就完事了。
我特别在意的一点是它对光影的处理。看了几个演示,改颜色不只是把像素替换掉,而是重新计算了光线在物体表面的反射,这太离谱了。坦率讲我之前试过的几款AI视频工具,改颜色的时候经常会出现物体边缘发虚,或者光影不协调的问题,看上去一眼假。但Aleph 2.0的演示里,我没看出这种痕迹。

这个事儿让我想起去年试Runway Gen-3的时候,当时觉得文字生成视频已经很震撼了。但这次Aleph 2.0干了件不一样的事,它不是在生成新视频,而是在理解现有视频,然后精准地做局部修改。这两个能力完全不是一回事。
理解视频意味着模型能识别画面里有哪些物体,知道它们的位置关系,还能判断光照方向。修改意味着它要在保持其他部分不变的情况下,只动你指定的那个部分。我对技术的了解比较有限,这种能力背后应该是用了更精细的时空注意力机制,但具体怎么实现的我也还在看。
做视频的朋友应该能理解这种感受。我们平时接到的修改需求里,有一大半都是改个颜色、去掉个物体、换个背景这种看起来简单但操作起来繁琐的活儿。如果Aleph 2.0真能做到演示里那个精度,这些重复劳动基本就能交给它了。
当然要泼点冷水。API版现在才发,实际效果能不能稳定复现,不同视频在不同条件下的表现会不会打折扣,这些都还不知道。我自己应该在接下来一两天里找时间试试,到时候再跟大家细聊。
反正我觉得,视频编辑这个领域的变化速度比我想象的快太多。半年之前我们还在惊叹AI能生成几秒的短视频,现在它已经开始学会改视频里的细节了。想想就觉得兴奋,也稍微有点慌。
夜雨聆风