上个月帮朋友做一条60秒的产品视频,8个场景,同一个发言人。听起来是AI视频最该拿下的活,低成本,不用请演员,不用布光,不用租棚。我用了可灵、Runway、Sora一共三套工具,折腾了两天,生成了大概120条片段。最后朋友说:还是请个人拍吧。AI生成的那批素材,被他拿去当分镜草稿用了。
先说可灵3.0。今年2月更新的版本,第一个支持原生4K直出的AI视频模型,15秒多分镜,自动切正反打镜头,口型和方言同步。你给它一段剧情描述,它自己决定用中景还是特写,人物什么时候转身,什么时候切远景。我第一次用确实惊了,提示词里完全没写请用低角度追拍,它自己就用了。这已经不是生成视频了,是在导演。但问题出在一个很细的地方:同一个角色,同一个场景,夹克的颜色在不同镜头里会变,深蓝变浅蓝,浅蓝变灰色。衣服款式也会偷偷变,拉链款变纽扣款。你盯着看感觉不对劲,又说不上来哪里不对。这就是AI视频现在最大的通病,角色跨镜头一致性。单看每条都挺好,两条放一起就露馅了。5月还传出快手要把可灵分拆独立融资,估值200亿美元,技术上确实在领跑,但就这一个衣服颜色的问题,商业项目就不敢用。
Sora2今年3月刚开放API,加了几个关键能力:20秒时长、角色档案功能也就是上传一次参考图跨场景复用、横竖屏双格式一次输出。OpenAI的技术底子摆在那,Sora2对物理规律的还原是所有工具里最好的,光影、重力、流体,很少出现可灵那种人浮在半空中走路的诡异感。但有两个致命伤。第一,中文提示词理解稀烂,你写机油味混着檀香气,它生成的是欧洲古董店。第二,角色档案功能虽然跨场景一致性比之前强了,但肤色随场景光线漂移、广角镜头下面部结构走形这些老问题还在。对一个国内创作者来说,想用Sora得先把剧本翻成英文,再对着生成结果人工修正,效率还不如直接用可灵。
Runway Gen-4.5的画面是这三家里最逼真的。去年底他们做了一个测试:找1000个人,给他们看AI生成的视频和真人拍的视频,10秒内判断真假。结果只有57%的人能分辨出来。这个数字放在以前不敢想,AI视频已经从一眼假走到了安能辨我是AI。Runway的Aleph编辑器支持像素级控制,你可以在生成的画面里框选一个残影单独调它的透明度,这种精细度可灵和Sora都做不到。但Runway的角色漂移也是最严重的,同一个人的头发长度会变,肤色随场景偏暖,中景切特写的时候直接跳脸,像换了个长得差不多的人。中文支持就更不用想了,基本没做本土化。说白了,Runway适合英文工作流、不要求角色多次出现、追求单镜画面质感的创作者。如果你要做的是一个人从头演到尾的短剧,它会让你崩溃。
踩了这么多坑之后,我的判断是:能用的场景包括漫剧因为二次元角色对一致性要求低、分镜草稿让导演和摄影师沟通效率翻倍、单镜广告一个人一个场景做一件事不超过15秒、氛围镜头比如空镜转场城市夜景。不能用的场景包括同一个人多个镜头的剧情因为切三次人就变样了、需要精确品牌色的商业片因为logo还是一团糊、中文台词加中文场景除了可灵稍微好点其他两家基本没戏、客户验收因为专业人士一眼看出哪里不对。有一个细节让我印象很深。所有AI视频工具的官网demo,你仔细看,全是单镜头。5秒,一个角色做件漂亮的事,配文"this changes everything"。你不会看到同一个角色出现在第二个镜头里。不是他们忘了展示,是目前的技术做不到。一个朋友问我,他做短视频账号日更一条,能不能用AI取代真人。我说分两种情况:如果每条内容都是新角色新场景独立叙事,AI现在就能用;如果你是打造一个固定IP主角每集都要出现,建议还是请个真人。不是因为AI不够好,是因为AI还没学会记住一个人。可灵估值200亿,Sora背后站着OpenAI的千亿估值,Runway融资30亿。钱到位了,技术也在飞奔,但记住一个角色的脸跨三个镜头不跑偏,这个听起来特别简单的事目前还是没人能做到。AI视频的广告,少看点,真要用先从单镜头开始试。
夜雨聆风