阿里开源 AI 自动短视频流水线:输一句话,3 分钟从文案到成片全自动

如果你做过短视频，一定经历过这样的循环：写脚本 1 小时，找素材 1 小时，配音剪辑再 2 小时。一条 60 秒的片子，从灵感到发布至少要搭进去半天。

现在有这么一个开源项目：你输入一个主题，AI 自动写文案、AI 自动配图、AI 自动配音加 BGM，最后合成一条完整的短视频。整个过程 3 分钟，成本最低为 0。

它就是阿里巴巴 AIDC-AI 团队开源的 Pixelle-Video。截至目前 GitHub 15,000+ Star，5 月单月暴增 10,000 多颗星，是 2026 年增长最快的开源 AI 工具之一。

它不是又一个 AI 视频工具

市面上 AI 视频工具不少，但大部分只负责「生成画面」这一个环节——你还需要自己写脚本、拼素材、对时间线。Sora 2 生成一段 10 秒的片段很惊艳，但离一条完整的作品还很远。

Pixelle-Video 的定位完全不同：它不是视频生成器，是视频流水线。

从文案到画面到声音到剪辑，全流程自动化。你不需要 Premiere，不需要剪映，不需要任何剪辑经验。

它的工作流程只要四步：文案生成 → 配图规划 → 逐帧处理 → 视频合成。每一步都可以换成你喜欢的模型——GPT 写文案太贵就换 DeepSeek，FLUX 生图不合适就换 SDXL，TTS 音色不喜欢就换 ChatTTS。一切可插拔。

它跟我有什么关系

如果你是内容创作者，这东西直接解决了你最头疼的问题：产能。

日更 3-5 条短视频，对传统团队来说是 10 人以上的工作量。用 Pixelle-Video，一个人就够了。输出 15K Star 的项目到一条完整的短视频，传统方式 6-9 小时，Pixelle-Video 7-12 分钟。

如果你是企业主，这里有笔直接的账。委托专业团队做一条 60 秒短视频，报价 3000-8000 元。用 Pixelle-Video 本地部署，单条成本 0.05-0.5 元。台湾有一家公司算过这笔账：年视频支出从 72 万台币降到 9.8 万台币，省下 62 万。

它能干什么

Pixelle-Video 已经走到了 v0.1.15，功能覆盖了短视频制作的全环节。

AI 智能文案。输入「为什么要养成阅读习惯」，系统自动调用 LLM 生成完整的视频解说词。支持 GPT、通义千问、DeepSeek、Ollama 等几乎所有主流模型。你可以选择让 AI 自由创作，也可以用自己写好的固定文案。

AI 生成配图和视频。基于 ComfyUI 工作流引擎，每句话生成对应的 AI 插图。不止是静态图——v0.1.12 开始支持 WAN 2.1 视频模型，可以生成动态视频内容当背景。还新增了数字人口播：上传一张人物照片，输入文本，AI 自动生成口播视频，嘴型、表情同步。

多引擎语音合成。支持 Edge-TTS、Index-TTS 等主流引擎，最重要的是支持声音克隆：上传一段 30 秒的参考音频，AI 能克隆你的声音来做旁白。还新增了韩语、法语、葡萄牙语等 7 种多语言 TTS，跨境电商做多语言口播直接省掉翻译和配音环节。

定价上它走了最激进的路——完全免费。项目采用 Apache 2.0 开源协议，没有任何平台抽成。你的成本只有两样：底层 LLM 的 API 调用费（如果不用本地模型），和 ComfyUI 的显卡电费。完全免费方案：用 Ollama 本地跑 LLM + ComfyUI 本地部署 = 0 元。推荐方案：用通义千问 API（0.01-0.05 元/视频）+ ComfyUI。云端方案：用 OpenAI + RunningHub（0.5-2 元/视频，不需要本地显卡）。

Pixelle-Video 还提供了完善的 API，Python SDK 和 HTTP REST API 两种方式，开发者可以直接把视频生成能力集成到自己的产品里。

跟同类工具比，它哪里不一样

Pixelle-Video 的核心差异是：它不是单点能力，是一条完整的生产流水线，且开源免费。

市场上大部分产品要么只做视频生成（Sora、Kling），要么是商业 SaaS 平台（HeyGen、Synthesia），价格不低、有平台锁定的风险。

而 Pixelle-Video 的策略很清晰：放弃单点能力的极致（画质不如 Sora 2），用全流程自动化 + 零订阅费来打。对比 OpenAI Sora 2，成本只要它的 1/80 到 1/300；对比 HeyGen，不用每月交 200 美元订阅费；对比 Kling 3.0，本地部署的数据主权是闭源产品给不了的。

还有一个被中文内容创作者忽略的对比对象：同赛道的 MoneyPrinterTurbo。两者都是开源 AI 全自动视频生成工具，但 Pixelle-Video 在功能上更完整——支持数字人、支持声音克隆、支持视频生成（不只有静态配图）。MoneyPrinterTurbo 更成熟稳定，但功能相对单一。

落地门槛

Pixelle-Video 不是给所有人准备的。看清楚这几点再决定要不要试。

最低门槛是有一张 6GB+ 显存的 NVIDIA 显卡。没有显卡？用 RunningHub 云端，但是体验会打折扣。macOS 用户需要注意：虽然支持 MPS，但生态不如 Windows/Linux 成熟，目前没有一键整合包。

首次配置有学习成本。虽然 Windows 有一键整合包，但配置 LLM 的 API Key 和 ComfyUI 地址还是需要一些技术基础。有评测说文档没说清楚哪些 Key 必填、哪些可选，试了三次才跑通。

视频质量上限不取决于 Pixelle-Video 本身。它只是个编排系统，画面质量完全由底层模型决定。如果用本地 FLUX+SDXL，效果中上；如果用免费的社区模型，预期可能就是「PPT 加了点特效」。长视频（超过 3 分钟）的 LLM 文案连贯性也会下降。

我的建议

Pixelle-Video 适合三类人：

每天需要量产短视频的自媒体人（科普号、资讯号、影视解说）、

想做内容但没有视频团队的品牌和企业、

对 AI 视频好奇的开发者。

不适合两类人：

对画质有极致要求的品牌广告（AI 生成在审美细节上还比不上专业拍摄）、

一个月只发一条视频的创作者（不值得为这一条去折腾配置）。

这个项目最打动我的不是它能生成多好看的视频，而是它把「视频制作」这件事从资本密集型变成了技术组装型。过去，短视频是品牌大厂的游乐场，只有他们负担得起持续的内容预算。现在，一张显卡、一台电脑、一个关键词，任何人都能参与这场游戏。

当然，工具只是工具。如果你内容策略本身是空洞的，Pixelle-Video 只是让你「更便宜地产出无效内容」。真正值钱的东西，从来不是那个 3 分钟自动合成的视频，而是你想说什么、为什么说、对谁说。

帧序实验室

参考资料

Pixelle-Video GitHub 仓库
Pixelle-Video 官方文档
Pixelle-Video API 概览
Pixelle-Video releases