6 月 20 号那天,这个项目突然冲上了 GitHub Trending 头名,一周后 star 数破万。你可能见过太多"输入 prompt、AI 生成视频"的东西了,但 OpenMontage 走的是一条完全不同的路:它是把整个视频制作流程——调研、写脚本、找素材、配音、剪辑、渲染——全塞进了你的 AI 编程助手里面。
你在 Claude Code 或者 Cursor 里打开这个项目文件夹,告诉它要做什么视频,就完事了。它跟那种给段 prompt 吐个片段的工具不一样,它能做两件事:第一,用 AI 生成的图像做动画(吉卜力风格、皮克斯风格都行);第二,用真实视频素材剪辑成片。后面这种特别有意思——Agent 自己跑到 Archive.org、NASA、Wikimedia Commons 还有 Pexels、Pixabay 这些地方搜罗免费镜头,用 CLIP 做语义检索把最贴切的片段抓出来,然后排进时间线,最终导出一条正经视频。
它是怎么工作的
OpenMontage 没有那种传统意义上的后台调度引擎。你的 AI 编程助手就是调度引擎本身。整个流程大概是这样:
你说想做个视频 → Agent 读取 pipeline 清单(YAML),搞明白要经过哪些阶段、能调用哪些工具 → Agent 读"导演指令"(Markdown),知道每个阶段具体怎么操作 → 调用 Python 工具干活,每个工具选择都经过 7 维评分自动挑最优的 provider → 干完自查,校验 schema、检查 playbook 合规 → 存检查点,带完整决策日志和成本快照 → 关键节点停下来等你审批 → 最后合成前再做一轮校验,确认交付承诺没被打破 → 出片后再自检一遍:ffprobe 看编码、多位置抽帧检查黑帧和覆盖层、分析音频电平 → 都过了才给你看成品。
整个过程是可恢复的——中间断了不要紧,下次从检查点继续。每个重要决策都有日志:选了哪个 provider、为什么、其他备选项得分多少。
能做什么类型的视频
项目内置了 12 条生产线,每条对应一类视频。举几个典型的:
- ●Animated Explainer:做知识解说类,比如解释黑洞怎么形成的、神经网络怎么学习的
- ●Documentary Montage:用真实素材剪纪录片风的视频。你只需要说"帮我做一段凌晨四点城市街头的短片,不要旁白,配点氛围音乐"就行
- ●Cinematic:预告片、宣传片、品牌片
- ●Clip Factory:把一小时播客拆成十几条短视频
- ●Avatar Spokesperson:虚拟人出镜讲解
- ●Screen Demo:产品演示录屏
- ●Localization & Dub:翻译字幕、多语言配音
还有 Animation、Hybrid、Podcast Repurpose、Talking Head 等等,不逐一列举了。每条生产线都有好几个阶段,每个阶段都配了一份"导演指令",告诉 Agent 这个阶段该怎么做,质量标准是什么。
实际跑出来的效果
仓库里放了 6 个成品 Demo,而且每个都标注了完整成本,这个做法很实在:
- ●THE LAST BANANA:60 秒的皮克斯风格动画短片,一只香蕉和一只猕猴桃的友情故事。用了 6 段 Kling v3 生成的动态镜头(走 fal.ai),Google Chirp3-HD 配音,钢琴配乐,Remotion 合成 TikTok 风格逐词字幕。总成本 $1.33,折合人民币不到 10 块钱。
- ●VOID — Neural Interface:产品广告。全程只用了 OpenAI 一个 Key(gpt-image-1 生图 + TTS 配音),WhisperX 字幕,自动搜免费配乐。$0.69。
- ●Afternoon in Candyland / Mori no Seishin / Into the Abyss:三个吉卜力风格动画短片,各 12 张 FLUX 生成的图片,加上 Ken Burns 运镜、粒子效果、视差动画、暗角打光。每条 $0.15。没用任何视频生成 API,纯靠 Remotion 把静态图片变成动画。
- ●SIGNAL FROM TOMORROW:科幻电影预告片,Veo 生成动态镜头加 Remotion 合成。
$1.33 拍一条 60 秒的动画短片,$0.15 出一条有运镜、有粒子效果、有配乐的吉卜力风视频,这个数字放到任何视频制作场景里都是相当离谱的。
装起来跑一下
前置就三个东西:Python 3.10+、FFmpeg、Node.js 18+。
git clone https://github.com/calesthio/OpenMontage.gitcd OpenMontagemake setupmake 不可用的话手动来:
pip install -r requirements.txtcd remotion-composer && npm install && cd ..pip install piper-ttscp .env.example .env装好之后,在 AI 编程助手里打开这个文件夹,直接说人话就行了。下面几个例子你感受一下:
零密钥就能跑的:
做一个 45 秒的动画,解释天空为什么是蓝色的
做一个 60 秒的视频,讲互联网的历史,带旁白和字幕
做一个数据驱动的解说视频,讲全球咖啡消费
真实素材纪录片路线(免费):
做一个 90 秒的纪录片蒙太奇,主题是凌晨四点的城市。只用真实素材,不要旁白,哀歌基调
做一个 60 秒的 Adam Curtis 风格档案拼贴,讲 1950 年代的消费乐观主义,优先用 Archive.org 和 Wikimedia
配了 API Key 之后更高画质:
做一个 30 秒吉卜力风格的动画,主题是金色黄昏中云端的魔法图书馆
做一个产品发布预告片,产品叫 AquaPulse 智能水壶
做一个 90 秒的量子计算动画解说,给初中生看的
甚至你可以扔一个你喜欢的 YouTube Short 或者 Reel 链接过去,它会分析那个视频的节奏、结构、风格,然后给你 2-3 个变体方案和成本预估,照着做就行。
有 GPU 的话还能解锁本地视频生成:
make install-gpu# .env 里加一行: VIDEO_GEN_LOCAL_ENABLED=true不花一分钱能干啥
这个可能是最让人意外的地方:零付费 API Key 照样能出片。
旁白用 Piper TTS,完全离线,效果还不错。画面素材可以从 Archive.org、NASA、Wikimedia Commons 这些开放资源里找,或者去 Pexels、Pixabay、Unsplash 领个免费的开发者 Key。合成走 Remotion(React 引擎,能搞弹簧动画、文字卡片、图表、逐词字幕)或者 HyperFrames(HTML + GSAP,适合动态排版、产品宣传、SVG 角色动画)。后期靠 FFmpeg 搞定编码、字幕烧录、音频混音、调色。字幕也是内置自动生成的,支持词级时间戳。
你只需要花 API Key 的钱在你真正需要"质变"的环节上,比如想让画面从静态升级到 AI 生成的动态镜头。
各种 provider 怎么选
视频生成接了 14 个 provider(Kling、Runway Gen-4、Google Veo 3、WAN 2.1、Hunyuan 等),图像生成 10 个(FLUX、Imagen、DALL-E 3 等),TTS 4 个(ElevenLabs、Google TTS、OpenAI TTS、Piper),音乐有 Suno AI 和 ElevenLabs Music。
每次选工具,Agent 都会跑一遍 7 维评分:任务适配度占 30%、输出质量 20%、控制力 15%、可靠性 15%、成本效率 10%、延迟 5%、连续性 5%。选完还会记日志,把得分和备选项都列出来。你事后想查"为什么选了 Kling 没选 Runway"是能翻到记录的。
API Key 全在 .env 里配置,不用全配齐,有几个用几个,一个都不配也可以:
FAL_KEY=your-key # FLUX 生图 + Kling/Veo/MiniMax 视频OPENAI_API_KEY=your-key # DALL-E 3 + TTSGOOGLE_API_KEY=your-key # Imagen 生图 + 700+ 语音ELEVENLABS_API_KEY=your-key # 顶级 TTS + 音乐 + 音效PEXELS_API_KEY=your-key # 免费素材视频/图片SUNO_API_KEY=your-key # AI 音乐生成质量把控和预算控制
这个东西把视频生产当成正经工程在搞,有好几层质量关卡:
合成前会检查你的交付承诺有没有被打破。比如你要求做一条"动态驱动"的片子,结果分镜出来 80% 是静态图片——直接拦下来,不浪费渲染时间。还有个"幻灯片风险评分",6 个维度分析,防止产出动画版 PPT。
渲染完也不是直接给你看。会跑 ffprobe 验证编码参数,从 4 个位置抽帧检查有没有黑帧或者叠加层问题,分析音频电平有没有消音或者爆音,再回头对一遍交付承诺。自检不过的视频不会到你手上。
预算方面:干活前先给预估,预留预算,花完核算,三种模式可选(只记录 / 超支报警 / 硬上限),默认总预算封顶 $10,单次付费操作超过 $0.50 会弹确认。不用担心 Agent 发疯把账单刷爆。
热度
- ●10,000+ Stars,2026 年 6 月下旬突破
- ●6 月 20 号登顶 GitHub Trending
- ●1,300+ Forks
- ●Hacker News、Reddit(r/ClaudeCode、r/NewMaxx)、Medium 上不少人在讨论
- ●YouTube 频道 @OpenMontage 持续发 Demo,每个视频都附带完整 prompt、pipeline、工具和成本
- ●Instagram 上的 demo 视频也有几千赞
说到底
如果你平时就在用 Claude Code 或者 Cursor 写代码,装上这个就等于多了个视频工作室。它把一个人加一个编程助手凑成了一整个制作团队,而且是开源的,不会被哪个厂商绑定。当然它现在还算不上"开箱即用的商业剪辑系统",依赖项有点多,AGPLv3 的许可证对商业部署也有限制,但作为一个免费的生产工具,已经相当能打了。
GitHub:github.com/calesthio/OpenMontageYouTube:@OpenMontage作者:calesthioailabs
夜雨聆风