把AI编程助手变成视频工作室:calesthio/OpenMontage
Agentic视频制作 · 12条生产管线 · 零API密钥起步 · calesthio/OpenMontage
从写代码到剪视频,中间隔着多少工具?
内容创作者每天面临一个重复困境:脑子里有清晰的视频构思,但执行路径支离破碎。写脚本要用一个工具,找素材要打开三个网站,配音、配乐、剪辑、加字幕各自对应不同软件,最后还要为格式转换头疼。更麻烦的是,这些工具之间没有连贯的工作流,创意在切换界面时被不断稀释。
专业视频团队有明确的分工和管线,但个人创作者和小团队负担不起这套成本。他们需要的是一种能将创意直接转化为成品的系统——不是又一套需要学习的复杂软件,而是一个能理解意图、自动执行、并在关键节点征求意见的智能助手。这正是OpenMontage试图解决的问题:把AI编程助手变成视频制作工作室。
一条指令跑通完整制片流程
OpenMontage的核心能力是把自然语言描述转化为结构化视频。用户只需告诉AI助手想要什么——”制作一个60秒关于黑洞形成的动画解说”——系统就会自动启动完整流程。
系统内置12条生产管线,覆盖动画解说、纪录片蒙太奇、播客再利用、产品宣传片等场景。每条管线遵循统一阶段:研究主题、提出方案、撰写脚本、规划场景、生成素材、剪辑编辑、最终合成。在方案阶段,系统会基于用户可用工具提供成本估算和质量权衡,获得批准后才进入素材生成。
素材生成环节整合了52个生产工具,涵盖视频生成、图像创作、语音合成、音乐生成、字幕处理等。系统通过7维度评分引擎自动选择最优provider:任务适配度占30%、输出质量20%、控制能力15%、可靠性15%、成本效率10%、延迟5%、连续性5%。所有选择都记录在可审计的决策日志中。
对于已有参考视频的需求,系统支持粘贴YouTube链接或本地文件作为输入。AI会分析参考视频的转录、节奏、场景结构和视觉风格,然后提供2-3个差异化创作方案,明确说明保留什么、改变什么、预计成本多少。
三层架构支撑Agent驱动
OpenMontage采用Agent-first架构,AI助手本身就是编排器,而非被外部代码调用。系统通过三层知识架构实现这一点:第一层tools/存放可执行工具,继承BaseTool抽象并通过ToolRegistry自动发现;第二层skills/包含OpenMontage的使用规范和质量标准;第三层.agents/skills/存放外部技术知识,如FLUX图像生成、Remotion动画、GSAP动效等专业指南。
技术实现上,系统使用Python提供工具和持久化能力,React/Remotion和HTML/GSAP双渲染引擎负责视频合成。Remotion适合数据驱动的解说视频,支持弹簧动画、统计卡片、逐字字幕等;HyperFrames(HTML/GSAP)更适合动态图形密集型内容,如产品发布视频和动态字体设计。
值得关注的是系统的零成本启动能力。即使没有配置任何API密钥,用户也能通过Piper TTS(离线语音合成)、Archive.org/NASA/Wikimedia(开放素材库)、Remotion本地渲染和FFmpeg后期处理完成真实视频制作。文档中展示的案例”糖果乐园的午后”仅花费0.15美元,使用12张FLUX生成图像配合Remotion动画引擎完成。
项目采用AGPLv3协议开源,创建于2026年3月29日,25天内获得近3000星标。其设计哲学明确:生产级质量门禁、预算治理、决策审计追踪——把视频制作当作真正的工程来对待。
夜雨聆风