最近一直困在视频制作上,苦于找不到高效的方法,过程低效、进展缓慢。
看到这个的时候,真的眼前一亮,豁然开朗。
昨天,Anthropic正式发布了Fable 5,Claude Code 团队的 Thariq用了一种特别AI Native的方式:
让 Claude Fable 5 自己剪了自己的发布会视频,全程没有打开任何传统视频编辑软件(Premiere、DaVinci、Final Cut 一个都没碰)
最终:17 条素材、25GB 4K 原始镜头,最终输出 3 分钟 4K 24fps 精剪视频(带调色、动画、设计审核)。整个过程主要靠提示词、代码和工具调用完成。
这其中有些步骤,跟我目前尝试和探索的比较类似,很显然,Thariq已经形成了完整、可复用的工作流。
我仔细研究了一下,把这个流程整理成一步步可复现的教程,希望在AI的帮助下,我们都不用再困在繁琐的视频剪辑中。

01
一、准备工作(推荐硬件/工具)
你需要首先准备一个强大的本地环境。不夸张的说,在AI时代,最好用的硬件就是Mac,推荐你的Mac最好在M4 Max 或以上,这样跑 Whisper 转录更快。
其次是一个强大的AI Agent。Thariq这里推荐的自然是Claude Code / Fable 5,但实际上,其他能力比较好的AI Agent也一样,不强求Fable 5。
此外,需要几个核心工具:
- Whisper(本地转录,带词级时间戳)
- FFmpeg(剪辑 + 调色)
- Remotion(React 代码做动画)
Whisper是OpenAI 开源的一个语音转文字(ASR)AI 模型,也是目前行业里做视频自动化剪辑最常用的转录工具,能把视频转成带精确时间戳的文字稿。
FFmpeg视频界的“瑞士军刀”,一个完全免费开源的命令行工具,几乎能处理所有视频相关操作。Remotion则是一个用 React(写代码)来制作视频的工具。
这三款软件都可以直接让Claude Code等AI Agent帮你安装,安装中遇到的问题可以直接问AI解决,这里不做详细展开。
如果你熟练使用Figma,或者有设计团队协作,还需要安装Figma MCP。
除了工具之外,最重要的,是你要准备好素材,把所有拍摄镜头放到一个文件中,并准备好脚本,一般是.md文件。
02
二、核心流程
第一步:一个超级提示词启动一切
直接扔给Claude 一个详细 Prompt,在Thariq这个案例里,他的提示器可以用来参考:

“
我有一堆视频素材在文件夹里,脚本在 xxxscript.md。请用 Eleven Labs / Whisper 转录所有素材,然后挑选最佳镜头拼接成最终视频。注意多 take 挑选原则(最后一条通常最好,减少口癖),剪掉视频开始不自然的部分,直接从说话人状态最好的部分开始剪,输出 final-edit.json,用 FFmpeg 拼接。目标是直到生成最终视频为止不要停。
”
Claude 会自动调用Whisper转录所有视频素材,并加上词级时间戳,然后按照要求挑选其中最好的部分,最后输出结构化文件final-edit.json,包含选择每个片段的理由,以及开始剪/结束剪的位置。
第二步:根据JSON文件第一版粗剪
使用Claude 调用FFmpeg 自动拼接第一版粗剪。剪完之后需要Claude自己重新转录验证,是否所有的口癖都已经被正确的剪掉了。
这一步把传统的时间线剪辑变成了可diff、可版本控制的文本。

第三步:从零开始调色
当原素材在色彩明亮程度和饱和度上不够满意的时候,可以让Claude直接进行调色,提示词:
“
调色有点闷,能不能生成几种不同风格的调色方案让我选?
”
Claude 就会自己生成几种不同的调色文件(比如:自然风格、电影风格、鲜艳风格、蓝橙电影风等),然后用工具自动套到视频上。整个过程完全不需要打开 Premiere 或 DaVinci 的调色面板,一句话就能完成调色。

第四步:把静态设计稿变成Remotion动画
这一步是整个流程里最让人眼前一亮的部分。
Thariq在Figma里设计了片头、字幕条、标题卡这些静态元素,然后让Claude通过Figma MCP直接读取设计文件,把Figma里的图层、颜色、字体参数全部拉出来,自动转成Remotion的React代码。

提示词不需要复杂:
“
读取Figma里的片头设计,帮我用Remotion实现一个5秒的淡入动画,风格保持一致。
”
Claude会先通过Figma MCP抓取设计稿里的具体数值,然后写出对应的React组件,最后用Remotion渲染成视频片段,自动嵌入到时间线里。
这个流程解决的核心问题是:以前你在Figma设计好了,还要手动在AE或者Motion里重新做一遍,两套工具之间的信息是割裂的。现在Claude充当了中间的翻译层,设计稿直接变成可渲染的代码动画。
第五步:最终拼接与输出
粗剪、调色、片头动画都就位之后,最后一步是让Claude把所有片段按照final-edit.json里的时间轴,统一调用FFmpeg做最终合并输出。
可参考提示词:
“
按照final-edit.json的顺序,把所有片段、调色、片头动画拼接成最终4K视频,输出final-output.mp4
”
Claude会自己生成FFmpeg的拼接命令,处理帧率对齐、音频同步、分辨率统一这些细节,全部自动完成。
Thariq在这一步专门提到了一个原则:让Claude跑完整个流程,遇到报错让它自己修,不要人工介入去改命令。
因为一旦你手动改了某一条FFmpeg参数,Claude下次继续的时候就会丢失上下文,反而越改越乱。保持全程Claude自主执行,它的上下文是完整的,排错效率反而更高。
03
这套流程的本质
传统视频软件的逻辑是,人按照时间线可视化的完成视频的剪辑。有了AI之后,视频的每一个决策:剪辑、调色、动画,都被转化成了文本和代码。
你不需要学会任何剪辑软件,只需要非常清晰的描述你想要什么,AI会帮你完成所有执行和操作。
Thariq是一个资深工程师,他的操作带有浓厚的工程师色彩,我们在具体剪辑视频的时候,不用完整复制整个工作流,但可以借鉴其中的思路。
AI让很多专业的事情,变得门槛更低,但“专业”可以让AI的上限更高。
夜雨聆风