星标⭐我,更新不迷路。
视频剪辑行业有个不成文的规矩:剪辑师坐在 Premiere 或达芬奇前,手动标记入出点,一刀一刀地切。
现在有人打破了这个规矩。
Claude Code 的团队成员 Thariq 分享了一件事:他在 Claude Code 里用 Claude Fable 5,把 Fable 5 的官方发布视频从头到尾剪完了——全程 0 次打开任何视频剪辑软件。
说得更直白一点:介绍 Claude Fable 5 的宣传片,是由 Claude Fable 5 本身剪出来的。
25GB 的 4K 原始素材,17 条录制,4 个场景,最终输出 4K 24fps、时长 3 分钟、文件大小 653MB 的成片。
总花费:约 100 美元。耗时:4 天。
一、起点:一段 Prompt,启动整条流水线
Thariq 的第一条指令,是一段普通到不能再普通的文字描述:
"我在处理一批视频录制文件,脚本在这里。我希望你先对每个文件跑转录服务,然后把最好的镜头拼成一条完整的成片。几点说明:每个场景有多条备选,最好的通常是靠后拍的、嗯字最少的那条,但不绝对。最后一个场景我重新补拍了。开头有几条我说了一句热身话,要剪掉。请生成一个 JSON 文件,记录每个场景用哪条素材、用哪段时间,然后用 ffmpeg 生成成片。不要停,直到输出最终视频。"
这条 Prompt 没有提到 Premiere,没有提到达芬奇,甚至没有提到"剪辑"两个字。但 Claude Fable 5 接收到这个指令后,把接下来的事情全部自己决定了。
二、第一关:Whisper 转录,给每个词打上毫秒级时间戳
Claude Fable 5 的第一个动作,是用 Whisper(在 M4 Max 本地运行)把 17 条素材全部转录一遍。
不只是转成文字,而是每一个词都打上毫秒级时间戳。
这步看起来只是前期准备,实际上是整条流水线的底座。后续所有的剪辑决策、图形动画时间对齐,全部都依赖这份转录文件。
有个小插曲:Whisper 把 Thariq 识别成了"Sark"。不影响时间戳精度,但 Thariq 本人估计很无语。
三、第二关:多智能体协作,零嗯字剪辑
拿到转录文件后,Claude Fable 5 没有随机挑素材。它派出了多个子智能体,每个场景一个,外加一个交叉验证的智能体。
每个子智能体的任务是:分析当前场景的所有候选素材,找出嗯字最少、停顿最少、结尾最干净的那条,记录入出点,写进 JSON 文件。
决策过程有迹可查:
场景一:
C017被排除,原因是中间有 5.8 秒停顿;C003被选中,原因是嗯字数量为零,结尾干净场景三:选
C012,入点落在一段自然停顿里
最终成片里保留的嗯字数量:0。
JSON 文件记录了每个场景的候选列表、最终选择、选择依据、入出点。这不是黑盒决策,是可以核查的记录。
四、第三关:手写调色 LUT,7 套方案从零生成
初剪拼完,时长 2 分 50 秒。但素材是 S-Log3——这是索尼相机拍摄时保留最大动态范围的原始格式,调色之前看起来灰蒙蒙一片。
Thariq 的指令很简单:"现在的调色太闷了,能不能搞几个方案让我选?"
Claude Fable 5 没有调用现成的 LUT 预设包,而是从头开始手写 .cube 格式的 LUT 文件——.cube 是纯文本,就是一堆数字,描述颜色如何从输入映射到输出。
生成了 7 套,每套对应不同风格:
| 方案 | 风格 |
|---|---|
| 标准 Rec.709 | 标准色彩还原 |
| 暖色电影感 | 暖调电影风 |
| 高对比度 | 强反差感 |
| 青橙色调 | 流行调色风格 |
| …另外 3 套 | 冷色、中性等变体 |
全部完成 S-Log3 → Rec.709 的色彩空间转换。Thariq 最后选了偏冷偏中性的方案。
换成专业调色师的工作量:这通常需要用达芬奇,手动调曲线,一条素材一条素材地套用。
五、第四关:11 张静态 PNG → 11 个 React 动画组件
发布视频里有图形动效——那些出现在画面里的文字卡片、数据标注、品牌元素。
Thariq 给了 11 张静态 PNG 设计图。没有动画规格,没有时间节点,没有说明哪个词出现时切入哪张图。
Claude Fable 5 接了这个任务,用 Remotion(把 React 组件渲染成视频帧的工具)把 11 张 PNG 重建成了 11 个带动画的 React 组件。
整套动效只用 6 个数字控制:
| 参数 | 说明 |
|---|---|
| 元素入场时长 | 每个元素出现所需帧数 |
| 子元素交错间隔 | 子元素依次出现的时间差 |
| 面板滑入时长 | 面板动画持续时长 |
| 淡出时长 | 元素消失动画时长 |
| 强调词出现延迟 | 关键词延迟出现时间 |
| 统一缓动曲线 | 所有动画共用的 easing 函数 |
更关键的是时间对齐:Claude Fable 5 在转录文件里搜索对应关键词,找到时间戳,把组件的入点精确对齐到那一帧。
举个例子:关键词 right 出现在第 295 帧,对应的图形组件就在第 295 帧切入。
不是手动对齐,是从转录文件自动推算的。
六、第五关:Figma 导出,设计团队改完再同步回视频
组件做完,Claude Fable 5 通过 Figma MCP 把所有内容导出到 Figma,供设计团队审核。
导出内容包括:
组件页
调色控制页
带实时渲染 GIF 的动效预览页
HTML 版调色控制面板(可拖动滑块实时预览,一键复制参数为提示词)
设计团队把奶油色卡片风格改成了更简洁的透明风格。
Thariq 随后说了一句话:"设计团队已经在 Figma 里更新了设计,请把视频同步过来。"
Claude Fable 5 通过 Figma MCP 读取更新后的设计文件,重建 React 组件,重新渲染。
整个同步流程,Thariq 没有手动修改一行代码。
七、最终渲染
npx remotion render一行命令。
输出参数:
分辨率:3840 × 2160(4K)
帧率:24 fps
总帧数:4334 帧
时长:3 分钟
文件大小:653 MB
渲染前 Claude Fable 5 做了逐帧截图自检,确认没有异常帧才输出最终文件。
八、这件事真正打破了什么
传统视频剪辑的核心是时间轴。剪辑师的技能是在时间轴上做判断——哪里切、怎么调色、图形出现在哪一刻。
Thariq 的这套工作流,把时间轴换成了文本文件:
| 传统工作流 | 新工作流 |
|---|---|
| 剪辑决策靠手动标记 | 剪辑决策 = JSON 文件 |
| 调色靠调色软件的曲线工具 | 调色 = 纯文本 .cube 文件 |
| 图形动效靠 AE / Motion | 图形动效 = React 代码 |
| 字幕时间靠手动对齐 | 字幕时间 = 转录时间戳 |
| 渲染靠导出界面 | 渲染 = 一行命令行 |
所有资产都是可读、可 diff、可重新渲染的纯文本。
没有 .prproj,没有 .drp,没有专有格式。任何人拿到这个文件夹,都能理解每一个剪辑决策是怎么做出来的,也能在任何环境重新渲染。
这套流程不是"AI 帮你剪辑",而是把剪辑这件事的本质重新定义了一遍:剪辑不是在软件里拖时间轴,剪辑是对时间和画面的决策,而决策可以用文本来表达。
成本:转录 + 剪辑约 10 美元,UI 迭代占了大头,总计约 100 美元,4 天。
完整的演示地址在 Thariq 的 GitHub Pages:https://thariqs.github.io/cc-video-editing-deck/
想复现这套流程的,核心工具链就三个:Whisper + ffmpeg + Remotion。
如果这篇文章对你有用,点个赞让我知道 👍关注收藏,一天一个小技能。
夜雨聆风