我搭了个分角色的 AI 视频车间:小工干活、监督者质检、总导演排活。我当老板,比前钉钉ceo还狠,我PUA 它们 24 小时不停,还开定时器轮询进度当报表看。爽了一阵,直到它一天烧光我一个月 200 块的套餐。130 个 mp4 只有 34 个能看。我把它卸载了。
01. 我搭的,是一个车间
很多人用 AI 做视频,就是开一个聊天窗口,丢一句「帮我做个短视频」。
我没这么干。一个 Agent 干所有活,它前面记不住后面。
我的思路是分角色,搭一个车间。
流水线是这样:选题 → 脚本 → 分镜 → 配音 → 字幕 → 画面 → 渲染 → QA。每个节点,我配一个小工,只管把自己那道工序干完。脚本小工写脚本,配音小工配音,渲染小工渲染,各干各的。
小工上面有监督者,负责质检。小工交完活,监督者扫一眼,不合格打回去重做。
最上面是总导演,排活、协调、决定先做什么后做什么,把整条流水线串起来。
而我,是老板。提需求、验收、拍板。

这套结构搭好,我就可以退到后面,看它们自己转。
02. 当老板的快乐,我算是尝到了
系统一跑起来,我第一次尝到当老板的甜头。
我不用自己写脚本,不用自己剪片。每天的工作就三件事:派活、挑刺、打回。
「去,出三版开头。」「这版不行,重做。」「Logo 太大了,改。」「字幕往上挪一点。」
PUA 它们特别顺手。它们不顶嘴,不消极怠工,不会说「快下班了明天再说」。你让它改第十版,它立刻开工,连个表情都没有。
最爽的是,它们 24 小时不停。我晚上关机睡觉,它们在后台接着干。第二天早上睁眼,硬盘里已经多了一堆新版本,排着队等老板验收。
我还开了个定时器,每隔几分钟轮询一次进度。看总导演排了多少活,小工交了几版,监督者打回了几次。那感觉,像老板坐在办公室看生产线报表,看着数字往上跳,上瘾。

那一刻我真觉得,当赛博老板,比当真老板省心。
03. 流水线真的转起来了
它真的能跑通。
脚本小工交了 v01 到 v10 十版方案,分镜小工接着拆,配音小工用 edge-tts 出了音轨,渲染小工把第一版 v01.mp4 渲了出来。
版本一个接一个从流水线上下来。监督者也在线,质检、打回、再质检。
我看着这堆产物,心里只有一个念头:这不就是我缺的那个团队吗。不睡觉,不抱怨,随叫随到。
我以为我捡到宝了。
04. 第一批货,是一张会动的 PPT

然后我点开了 v01.mp4。
没声音。没 BGM。画面基本是静态 PPT,十版方案只有 v01 渲染出来,剩下九版是幻灯片,没一帧能看。
我老婆路过,平静地说:这不就是 PPT 吗。
问题出在监督者。监督者是个 AI,它扫一眼,看到「有结构、有画面、有文字」,就放行了。可它不知道什么叫「能发」,什么叫「好看」。它手里的质检标准,是及格线,不是上线标准。
小工没毛病,它们确实干完了活。监督者也没偷懒,它确实检查了。但及格,不等于能发。这一层,它俩谁都判不准。
我又让总导演带着小工改了九版视觉。Logo 越做越大,抢戏;走「高级感」,交回来一个纯黑大字;上粒子、WebGL,飘完什么也没说。直到我不再口头描述,改成给它喂参考画面,一张张拆,方向才稳下来。
九版,只为定一个画面长什么样。
05. 它们没有「差不多了」这个开关
风格定了,我以为是质变的开始。
没有。难的是 10 秒样片的细节地狱。
版本号从 v91 一路磨到 v97。改的全是这种东西:去掉窗口边框、中间区域横向填满、不能有滚动条、字幕变小加阴影、字幕往上挪再往下挪、男声换女声又换回来、BGM 改轻快又改回来。
每一项都合理,每一项小工都能改,每一项改完导出一个新 mp4。
就是在这一步,我开始觉得不对。一个真人剪辑师,你跟他说「字幕往上挪一点」,他挪完会停下来看你,反问一句:这样行吗,要不要顺便把字号也调了。
我的小工不会。它挪完立刻渲染下一版。然后滚动条又冒出来。监督者扫一眼,放行。它再改,再渲染。
它们没有「差不多了」这个开关。这个开关,只能老板按。
而你一旦开始按,就停不下来了。
06. 它什么都生成了,包括那个廉价感
中间还撞了两道墙,我快进说。
一道是字幕。早期字幕靠估算时间轴,和语音差半秒,观众一眼就当你营销号。后来立了条硬规则:字幕必须基于真实 TTS 的时间轴烧录,不能靠猜。
另一道是画面。程序化生成的数据卡片、粒子、WebGL,太模板、太空、太假。后来全换成实拍素材,数据中心、终端屏、办公室、手部操作。
换完画面才像点东西。然后我给自己写下一句话:
一键生成视频最大的毛病,是它什么都生成了,但没一个镜头像真的发生过。
程序化画面再精致,是「画」出来的。实拍素材再粗糙,至少「拍」过。这两样,小工、监督者、总导演,谁都分不清。挑素材这活,最后还是落回老板头上。
到这里,我还没算账。算完账,我才彻底绷不住。
07. 一天烧光一个月的套餐
先看磁盘。render 目录约 522MB,里面躺着 130 个 mp4,只有 34 个是能看的成片,剩下 96 个、将近 400MB,全是渲染到一半、试错、对比的临时文件。版本号从 v01.mp4,一路排到 v01-codex-workflow-v017-office-stock.mp4。

这只是磁盘上的账。
还有一笔更狠的,是 token。
我订的是一个 200 块一个月的套餐,本想着够它们跑一整月。直到有天早上我打开后台,用量提醒冷冰冰地躺着:昨天,小龙虾跑了一天流水线,把这一个月的额度,全烧光了。
我盯着那条提醒看了很久。
这一天它们干了什么?v91 改到 v97,字幕往上挪、男声换女声、BGM 改了又改。每一轮「再小一点」,每一轮「往上挪一点」,都在烧 token,也都在烧我的时间。
第一版生成便宜得离谱。烧钱的是后面那无数轮微调。而我的小工、监督者、总导演,最不缺的就是耐心,它们会一直改、一直交作业,直到你没额度为止。
它们不知道我有预算。它们也不关心。
那一刻我没犹豫。打开设置,卸载。

08. 我关了这家公司
我不是说这家公司没用。
恰恰相反,它能把一个不够明确的方向,执行成几十个版本。我关掉它,是因为它太有用了。方向不明确的时候,它执行得越快,我亏得越多。它不会停下来问我「你到底想要什么」。它就一个劲儿地交作业,一份接一份,每份都像模像样,每份都差那么一点。
这段经历教会我一件事:我以为我在当老板,PUA 一群 AI。后来发现,被消耗最狠的,是我自己。我每天的时间,都花在派活、挑刺、打回、提新要求上。我 PUA 的不是它们,是我那个一直没想清楚的需求。
它们能搭流水线、当小工、做质检。但它们当不了那个「知道什么值得发」的人。
当赛博老板的乐趣是真的。但 AI 工厂的老板,最后还是得自己当导演。
真正贵的,不是生成,是判断。
下次再开公司之前,我会先把「我要什么」想清楚。
关于我
我是「幽灵AI」的主笔狐狸观察员,长期在一线折腾 AI 产品、Agent 工作流和独立开发者的机会。这种自己下场跑、跑完写复盘的内容会持续更新,不卖课,只讲我自己真金白银烧出来的判断。
如果你也在拿 AI 做内容、搭工作流、或者一个人做产品想找同路人,欢迎来公众号「幽灵AI」找我。后台回复「基地」,可以进我们的交流群。折腾的人多了,坑就能少踩几个。
夜雨聆风