声明:本文所有数据来源于各项目GitHub官方仓库的README、LICENSE等文件,截止时间为2026年6月28日。开源项目可能随时迭代,具体功能、协议条款和Star数可能已发生变化,建议具体细节以各仓库最新状态为准。另外libtv-skill已实测,参考OpenClaw+LibTV视频生成实测(含安装+配置+分析):ai生成工作流很规范,但画面在"打架",故不在本篇讨论范围
一、为什么需要这份图谱
AI视频赛道在2025-2026年经历了爆发式增长,从"一句话生成短视频"到"专业短剧生产管线",从"长视频智能切片"到"音乐驱动的电影感剪辑",开源社区涌现了大量工具。然而,这些项目的真实能力边界、开源协议限制、模型接入方式往往被营销话术模糊。本文基于GitHub一手原始数据,对11个具有代表性的项目进行系统性梳理,帮助开发者根据实际需求做出选择。
二、项目分类:三大阵营
阵营A:AI内容生成与剪辑工具(9个)
这类项目的核心逻辑是"AI驱动内容生产"——从文案生成、素材搜索到配音、字幕、合成,形成端到端的视频工作流。
阵营B:视频渲染引擎框架(2个)
这类项目不直接生成AI内容,而是提供"将代码/设计转化为视频"的基础设施,需要开发者自行集成AI模型生成内容后再进行渲染。
三、关键维度深度对比
3.1 开源协议:一个容易被忽视的陷阱
开源协议直接决定了项目的商用自由度。11个项目中,协议差异显著:
| 标准MIT/Apache 2.0 | ||
| 自定义非商用声明 | ||
| Source-available双许可 | ||
| 未明确 |
特别提醒:NarratoAI的LICENSE文件标题为"Modified MIT License - Non-Commercial Use Only",其中明确写道"The Software is provided for personal, educational, or research purposes only"和"Commercial use... is strictly prohibited"。这与标准MIT协议存在本质区别,商用前需联系作者获取书面许可。
3.2 视频功能矩阵:拼接、转场、TTS、字幕
| 视频拼接 | ||
| 转场控制 | ||
| TTS 配音 | ai-video-studio | |
| 字幕生成 | ai-video-studio | |
| 嘴形控制 |
3.3 部署复杂度
| 低 | ||
| 中 | ||
| 高 | ||
| 极低 |
四、阵营A详解:AI内容生成与剪辑工具
4.1 批量短视频:MoneyPrinterTurbo
GitHub:harry0703/MoneyPrinterTurbo | Star:~93,700+
这是目前 Star 数较高的开源 AI 视频项目之一。核心流程为:输入文案或主题 → LLM 生成文案 → Pexels 搜索素材 → TTS 配音 → FFmpeg 合成 → 输出 1-5 分钟短视频。支持 OpenAI、DeepSeek、智谱、千问等多种 LLM API,同时明确支持 Ollama 本地模型,TTS 支持 Azure 和 Edge。
适用场景:需要批量生成短视频的自媒体运营、营销团队。 注意点:素材依赖 Pexels 等外部库,需要 API Key;"700+模型"的说法来自赞助商 AIHubMix 的宣传,项目本身直接支持的模型数量相对有限。

4.2 零门槛成片:Pixelle-Video
GitHub:AIDC-AI/Pixelle-Video | Star:~23,100+
阿里AIDC团队维护的项目,基于ComfyUI架构。用户输入一句话描述,系统自动完成文案、配图/视频、语音、BGM的合成。支持ComfyUI本地部署和Ollama免费方案,这意味着在本地运行时可以避免API费用。
适用场景:希望快速验证创意、对ComfyUI生态熟悉的用户。

4.3 影视解说:NarratoAI
GitHub:linyqh/NarratoAI | Star:~10,000+
专为影视解说和二创设计,核心能力是自动剪辑+配音+字幕。提供云端版 NarratoAI.cn,降低了部署门槛。
关键限制:
协议为自定义非商用声明,商用需书面许可
2026 年 3 月起统一使用 OpenAI 兼容请求链路,支持任何兼容该协议的模型服务(包括 Ollama 本地部署)
不再依赖 LiteLLM,简化了模型接入方式

4.4 长视频切片:AutoClip
GitHub:zhouxiaoka/autoclip | Star:~5,800+
定位清晰:从YouTube/B站下载长视频 → AI分析提取精彩片段 → 生成合集。基于通义千问(DashScope API)进行内容理解,使用FFmpeg进行视频处理。
功能边界:
无TTS功能,保持原声
无字幕生成(ASR)能力,可解析外部传入的SRT文件
字幕编辑、B站上传、移动端支持均标注"【开发中】"
无转场效果,为简单拼接
适用场景:需要从长视频中快速提取高光片段的内容创作者。

4.5 对话式创作:FireRed-OpenStoryline
GitHub:FireRedTeam/FireRed-OpenStoryline | Star:~3,000+
2026年2月开源的项目,特色在于"对话式交互"——用户通过自然语言描述需求,Agent完成剪辑、配音、字幕、导出。2026年4月新增了AI转场生成功能,但README明确提示"the cost is relatively high"(成本较高)。
支持config.toml配置LLM/VLM,并有local_asr本地选项,在隐私敏感场景下具有一定优势。

4.6 音乐驱动剪辑:CutClaw
GitHub:GVCLab/CutClaw | Star:~905
来自北京交通大学、大湾区大学GVC Lab、腾讯ARC Lab的学术研究项目,2026年3月发布arXiv论文。核心创新是三Agent协作架构(Playwriter+Editor+Reviewer)和音乐节拍驱动的剪辑逻辑。
特点:
使用madmom库进行音乐节拍检测
通过LiteLLM网关支持多种API(Gemini-3、Qwen3.5、GPT-5.3等)
GPU强烈推荐(CUDA加速)
原始仓库无LICENSE文件
适用场景:需要将视频剪辑与音乐节拍精确同步的专业场景。

4.7 内容变现:AiToEarn
GitHub:yikart/AiToEarn | Star:~21,900+
覆盖"创作-发布-互动-变现"全链路的平台型项目,支持抖音、小红书、快手、B 站、视频号、TikTok、YouTube 等 14 个平台。提供浏览器插件实现自动化互动,支持 CPS(按成交额)、CPE(按互动)、CPM(按播放)三种变现模式。
注意点:平台功能复杂,部署门槛相对较高;开源版免费,但部分高级功能可能依赖平台服务,另外有免部署的网页版

4.8 专业短剧管线:ai-video-studio
GitHub:yfge/ai-video-studio | Star:~42
较新的仓库,工程化程度较高。以Timeline为单一数据源(SSOT),提供Harness测试体系,支持Lite模式(SQLite+单进程,5分钟启动)和Full模式(MySQL+Redis+Celery Worker)。
适用场景:需要规范化生产管线的短剧团队。
4.9 提示词技能:seedance2-skill
GitHub:dexhunter/seedance2-skill | Star:~2,300
需要特别说明:这不是一个可独立运行的软件,而是一个Markdown提示词模板文件(SKILL.md),需要复制到~/.claude/skills或~/.cursor/skills目录,配合Claude Code、Cursor等Agent使用。
核心作用:帮助Agent撰写即梦Seedance 2.0的专业视频生成提示词。本身不生成任何视频,需要配合付费的Seedance 2.0 API使用(字节跳动即梦,按量计费)。
五、阵营B详解:视频渲染引擎框架
5.1 React渲染:Remotion
GitHub:remotion-dev/remotion | Star:~51,500+
成熟的开源框架,允许开发者用React、CSS、Canvas、SVG、WebGL编写视频,通过Headless Chrome逐帧渲染为MP4。核心概念包括Composition(组件+时长+尺寸)、Sequence(时序编排)和interpolate(插值函数)。
协议风险:采用Source-available双许可。个人、≤3人公司、非营利组织可免费商用;更大的营利性组织需要购买Company License。此外,禁止以销售、租赁、再许可为目的复制或修改Remotion代码。
适用场景:已有React技术栈的团队,需要程序化生成数据可视化、动态图表、产品演示等视频。

5.2 HTML渲染:HyperFrames
GitHub:heygen-com/hyperframes | Star:~31,800+
HeyGen团队开源的框架,核心理念是"HTML即视频"。通过data-start、data-duration、data-track-index等HTML属性控制时序,无需构建步骤,浏览器直接打开index.html即可预览。
Agent友好性:内置npx skills add heygen-com/hyperframes,可直接教AI Agent写HTML视频。提供Catalog组件库(转场、字幕、图表、地图等现成组件),以及frame.md设计系统转换能力。
协议优势:Apache 2.0,无商业限制,大公司也可免费使用。

与Remotion的关键差异:
六、选择建议:按场景匹配
七、常见误区澄清
误区1:"开源=完全免费商用"
实际情况:NarratoAI明确限制商业用途,Remotion对大公司收费。建议在使用前仔细阅读LICENSE文件。
误区 2:"支持 API=支持所有模型" / "OpenAI 兼容=只能用 OpenAI"
实际情况:NarratoAI 采用 OpenAI 兼容链路后,可接入 Ollama 等本地服务;MoneyPrinterTurbo 也明确支持 Ollama。AutoClip 以 DashScope 为主,模型灵活性相对较低。判断一个项目是否"仅云端",不能只看它用什么协议,而要看它是否开放了 base_url 配置让开发者指向本地端点
误区3:"有字幕功能=能自动生成字幕"
实际情况:AutoClip可以解析外部SRT文件,但没有ASR(自动语音识别)生成能力。部分项目的"字幕"功能依赖外部工具生成SRT后再导入。
误区4:"Star数高=功能更强"
实际情况:Star数反映社区关注度,与功能适配度无直接关系,且可能与公开时滞后有关。例如CutClaw仅905 Star,但在音乐同步剪辑这一垂直领域具有独特的学术价值。
八、写在最后
AI视频开源生态正处于快速迭代期,本文梳理的11个项目覆盖了从"一键成片"到"专业管线"、从"长视频切片"到"音乐驱动剪辑"、从"React渲染"到"HTML原生渲染"的多种技术路线。选择工具时,建议优先考虑以下因素:
协议合规性:商用前确认LICENSE条款,特别是NarratoAI和Remotion存在商业限制
模型适配性:确认项目支持的模型是否与现有API Key匹配
功能边界:明确项目"能做什么"和"不能做什么",避免预期偏差
部署成本:评估本地硬件要求(如CutClaw推荐GPU)和API调用成本
社区活跃度:Star数、最近提交时间、Issue响应速度等指标反映项目的维护状态
再次提醒:开源项目更新频繁,本文数据截至2026年6月28日。建议访问各项目GitHub仓库获取最新信息,以实际仓库状态为准。
创作不易,禁止抄袭,转载请附上原文链接及标题
夜雨聆风