
如果你做过短视频,一定经历过这样的循环:写脚本 1 小时,找素材 1 小时,配音剪辑再 2 小时。一条 60 秒的片子,从灵感到发布至少要搭进去半天。
现在有这么一个开源项目:你输入一个主题,AI 自动写文案、AI 自动配图、AI 自动配音加 BGM,最后合成一条完整的短视频。整个过程 3 分钟,成本最低为 0。
它就是阿里巴巴 AIDC-AI 团队开源的 Pixelle-Video。截至目前 GitHub 15,000+ Star,5 月单月暴增 10,000 多颗星,是 2026 年增长最快的开源 AI 工具之一。

它不是又一个 AI 视频工具
市面上 AI 视频工具不少,但大部分只负责「生成画面」这一个环节——你还需要自己写脚本、拼素材、对时间线。Sora 2 生成一段 10 秒的片段很惊艳,但离一条完整的作品还很远。
Pixelle-Video 的定位完全不同:它不是视频生成器,是视频流水线。
从文案到画面到声音到剪辑,全流程自动化。你不需要 Premiere,不需要剪映,不需要任何剪辑经验。

它的工作流程只要四步:文案生成 → 配图规划 → 逐帧处理 → 视频合成。每一步都可以换成你喜欢的模型——GPT 写文案太贵就换 DeepSeek,FLUX 生图不合适就换 SDXL,TTS 音色不喜欢就换 ChatTTS。一切可插拔。

它跟我有什么关系
如果你是内容创作者,这东西直接解决了你最头疼的问题:产能。
日更 3-5 条短视频,对传统团队来说是 10 人以上的工作量。用 Pixelle-Video,一个人就够了。输出 15K Star 的项目到一条完整的短视频,传统方式 6-9 小时,Pixelle-Video 7-12 分钟。
如果你是企业主,这里有笔直接的账。委托专业团队做一条 60 秒短视频,报价 3000-8000 元。用 Pixelle-Video 本地部署,单条成本 0.05-0.5 元。台湾有一家公司算过这笔账:年视频支出从 72 万台币降到 9.8 万台币,省下 62 万。
它能干什么
Pixelle-Video 已经走到了 v0.1.15,功能覆盖了短视频制作的全环节。
AI 智能文案。输入「为什么要养成阅读习惯」,系统自动调用 LLM 生成完整的视频解说词。支持 GPT、通义千问、DeepSeek、Ollama 等几乎所有主流模型。你可以选择让 AI 自由创作,也可以用自己写好的固定文案。
AI 生成配图和视频。基于 ComfyUI 工作流引擎,每句话生成对应的 AI 插图。不止是静态图——v0.1.12 开始支持 WAN 2.1 视频模型,可以生成动态视频内容当背景。还新增了数字人口播:上传一张人物照片,输入文本,AI 自动生成口播视频,嘴型、表情同步。
多引擎语音合成。支持 Edge-TTS、Index-TTS 等主流引擎,最重要的是支持声音克隆:上传一段 30 秒的参考音频,AI 能克隆你的声音来做旁白。还新增了韩语、法语、葡萄牙语等 7 种多语言 TTS,跨境电商做多语言口播直接省掉翻译和配音环节。

定价上它走了最激进的路——完全免费。项目采用 Apache 2.0 开源协议,没有任何平台抽成。你的成本只有两样:底层 LLM 的 API 调用费(如果不用本地模型),和 ComfyUI 的显卡电费。完全免费方案:用 Ollama 本地跑 LLM + ComfyUI 本地部署 = 0 元。推荐方案:用通义千问 API(0.01-0.05 元/视频)+ ComfyUI。云端方案:用 OpenAI + RunningHub(0.5-2 元/视频,不需要本地显卡)。
Pixelle-Video 还提供了完善的 API,Python SDK 和 HTTP REST API 两种方式,开发者可以直接把视频生成能力集成到自己的产品里。
跟同类工具比,它哪里不一样
Pixelle-Video 的核心差异是:它不是单点能力,是一条完整的生产流水线,且开源免费。
市场上大部分产品要么只做视频生成(Sora、Kling),要么是商业 SaaS 平台(HeyGen、Synthesia),价格不低、有平台锁定的风险。

而 Pixelle-Video 的策略很清晰:放弃单点能力的极致(画质不如 Sora 2),用全流程自动化 + 零订阅费来打。对比 OpenAI Sora 2,成本只要它的 1/80 到 1/300;对比 HeyGen,不用每月交 200 美元订阅费;对比 Kling 3.0,本地部署的数据主权是闭源产品给不了的。
还有一个被中文内容创作者忽略的对比对象:同赛道的 MoneyPrinterTurbo。两者都是开源 AI 全自动视频生成工具,但 Pixelle-Video 在功能上更完整——支持数字人、支持声音克隆、支持视频生成(不只有静态配图)。MoneyPrinterTurbo 更成熟稳定,但功能相对单一。
落地门槛
Pixelle-Video 不是给所有人准备的。看清楚这几点再决定要不要试。
最低门槛是有一张 6GB+ 显存的 NVIDIA 显卡。没有显卡?用 RunningHub 云端,但是体验会打折扣。macOS 用户需要注意:虽然支持 MPS,但生态不如 Windows/Linux 成熟,目前没有一键整合包。
首次配置有学习成本。虽然 Windows 有一键整合包,但配置 LLM 的 API Key 和 ComfyUI 地址还是需要一些技术基础。有评测说文档没说清楚哪些 Key 必填、哪些可选,试了三次才跑通。
视频质量上限不取决于 Pixelle-Video 本身。它只是个编排系统,画面质量完全由底层模型决定。如果用本地 FLUX+SDXL,效果中上;如果用免费的社区模型,预期可能就是「PPT 加了点特效」。长视频(超过 3 分钟)的 LLM 文案连贯性也会下降。

我的建议
Pixelle-Video 适合三类人:
每天需要量产短视频的自媒体人(科普号、资讯号、影视解说)、
想做内容但没有视频团队的品牌和企业、
对 AI 视频好奇的开发者。
不适合两类人:
对画质有极致要求的品牌广告(AI 生成在审美细节上还比不上专业拍摄)、
一个月只发一条视频的创作者(不值得为这一条去折腾配置)。
这个项目最打动我的不是它能生成多好看的视频,而是它把「视频制作」这件事从资本密集型变成了技术组装型。过去,短视频是品牌大厂的游乐场,只有他们负担得起持续的内容预算。现在,一张显卡、一台电脑、一个关键词,任何人都能参与这场游戏。
当然,工具只是工具。如果你内容策略本身是空洞的,Pixelle-Video 只是让你「更便宜地产出无效内容」。真正值钱的东西,从来不是那个 3 分钟自动合成的视频,而是你想说什么、为什么说、对谁说。
帧序实验室
参考资料
Pixelle-Video GitHub 仓库 Pixelle-Video 官方文档 Pixelle-Video API 概览 Pixelle-Video releases

夜雨聆风