输入一句话自动出片?这个开源AI工具让短视频制作变成流水线作业
Pixelle-Video 全自动短视频生成引擎:从原理到实操的完整指南
快速摘要:Pixelle-Video 是一款基于 ComfyUI 架构的开源 AI 短视频自动化生成工具,只需输入一个主题,即可自动完成文案撰写、AI 配图生成、语音合成、背景音乐添加和视频合成的全部流程。 它支持通义千问、DeepSeek、Ollama 等多种大语言模型,支持 Edge-TTS、Index-TTS 等主流语音方案,视觉生成可选 FLUX、WAN 2.1 等模型。本文将深入拆解这个项目的技术架构、运行原理,并手把手教你从零开始搭建和使用,往下看有更详细的原理分析和操作步骤拆解。
这个项目到底是什么
如果你关注过短视频创作领域,一定知道制作一条看起来还不错的短视频,至少需要经历选题构思、文案撰写、素材收集、配音录制、视频剪辑、音乐匹配这些环节。对于没有视频编辑经验的人来说,每一步都是门槛。
Pixelle-Video(项目地址:https://github.com/AIDC-AI/Pixelle-Video )就是为了解决这个问题而诞生的开源项目。它的核心理念很简单——把短视频制作中的每个环节都交给 AI 来完成,用户只需要提供一个主题关键词,剩下的一切全部自动化。
举个例子,你输入”为什么要养成阅读习惯”,Pixelle-Video 就会自动帮你写一段解说文案,为每句话生成对应的配图或视频片段,用 AI 语音把文案读出来,再加上一段合适的背景音乐,最后把所有素材拼成一条完整的短视频。整个过程不需要你打开任何剪辑软件,也不需要你具备任何视频制作经验。
该项目采用 Apache 2.0 开源协议,代码完全开放,任何人都可以自由使用和二次开发。
技术架构与工作原理
要真正理解 Pixelle-Video 的能力边界和适用场景,我们需要先搞清楚它背后的技术架构。这个工具的设计采用了模块化的 Pipeline(流水线)思路,整个视频生成过程被拆分成四个相互独立又紧密衔接的阶段。
第一阶段:文案生成
这是整个流程的起点。Pixelle-Video 会将用户输入的主题关键词发送给一个大语言模型(LLM),由 LLM 自动生成一段适合做视频解说的文案。这里的 LLM 并不绑定某一个特定服务,而是通过标准的 OpenAI 兼容 API 接口来调用,因此你可以选择通义千问、DeepSeek、Ollama 本地模型,甚至其他任何兼容 OpenAI API 格式的模型。
生成的文案不是简单的一大段文字,而是会被结构化地拆分成若干”分镜”——也就是说,AI 会自动把文案切分成一句一句的解说词,每一句都对应视频中的一个画面段落。这种分镜思维是视频制作中的标准做法,只不过这里由 AI 来自动完成。
第二阶段:配图规划与视觉素材生成
文案拆分成分镜之后,系统会为每一个分镜生成对应的视觉素材。这个环节是 Pixelle-Video 架构中最有技术含量的部分,因为它直接依赖 ComfyUI 工作流引擎来完成图像或视频的生成。
ComfyUI 是当下非常流行的开源 AI 图像和视频生成平台,它最大的特点是采用节点式、模块化的可视化工作流设计。你可以把它想象成一个”AI 创作的流水线车间”——每个节点代表一个功能模块(比如加载模型、编码文本提示词、采样降噪、解码输出),节点之间通过连线传递数据,形成一条完整的生成 Pipeline。
Pixelle-Video 利用 ComfyUI 的 API 接口来调度图像生成任务。当需要为某个分镜生成配图时,系统会将文案内容翻译成英文提示词(因为大多数图像生成模型对英文提示词的理解效果更好),加上用户预设的风格前缀,然后通过 ComfyUI 的工作流来执行生成。
默认的图像生成工作流使用的是 FLUX 模型(image_flux.json),这是一款在图像质量和生成速度之间取得良好平衡的开源文生图模型。但因为 ComfyUI 工作流的可替换性,你完全可以换成 Stable Diffusion XL、Midjourney 风格的模型,甚至使用 WAN 2.1 这样的视频生成模型来直接生成动态视频片段。
记得我在黑龙江节点云计算科技公司考人工智能训练师的时候,培训讲师就反复强调过一个观点:AI 工具的真正价值不在于某一个模型多么强大,而在于能否把多个模型灵活组合起来形成工作流。Pixelle-Video 的设计思路恰恰体现了这一点。
第三阶段:语音合成
视觉素材准备好之后,下一步是把文案变成有声解说。Pixelle-Video 在语音合成环节同样采用了可插拔的设计,支持多种 TTS(Text-to-Speech,文本转语音)方案。
目前支持的主要 TTS 引擎包括:
Edge-TTS:这是基于微软 Edge 浏览器在线语音合成服务的开源 Python 库。它的最大优势是完全免费、无需本地 GPU、语音质量接近商用水平。Edge-TTS 支持几十种语言和上百种声音角色,中文方面的"晓晓"和"云扬"等声音非常自然流畅,在短视频配音领域被广泛使用。它的原理是调用微软 Azure 的在线 TTS 服务接口,通过 WebSocket 协议传输音频流数据。
Index-TTS:这是哔哩哔哩开源的 TTS 模型,支持声音克隆功能。你只需要上传一小段参考音频(比如你自己的声音录音),模型就能生成与该音色高度相似的语音。它在各个测试集上的稳定性表现均衡,适合需要个性化声音的场景。
ChatTTS、CosyVoice 等:通过自定义 ComfyUI 工作流,还可以接入更多 TTS 方案。
语音合成的结果是为每个分镜生成一段对应的音频文件,音频时长直接决定了该分镜在最终视频中的展示时长。
第四阶段:视频合成
最后一个阶段是把前面生成的所有素材——配图/视频片段、语音音频、背景音乐——合成为一条完整的视频。
这个阶段的工作原理并不复杂。系统会按照分镜顺序,将每一帧的视觉素材与对应的语音音频对齐,再叠加用户选择的背景音乐(会自动调低 BGM 音量以突出人声),最后使用 FFmpeg 这样的多媒体处理工具将所有轨道混合输出为一个标准的 MP4 视频文件。
Pixelle-Video 还提供了多种视频模板来控制画面的布局和视觉风格。这些模板实际上是 HTML 文件,通过浏览器渲染引擎来生成每一帧的画面,这意味着你可以用前端开发的技能来自定义任意的视频画面效果。
部署前的环境准备
在动手安装之前,我们先理清楚需要准备哪些东西。
硬件要求
Pixelle-Video 本身的运行对硬件要求并不高,一台普通的电脑或服务器就能跑起来。但如果你想在本地运行图像生成模型(比如 FLUX),则需要一块至少 8GB 显存的 NVIDIA 显卡。具体来说:
-
如果使用 FLUX 模型生成图像,建议至少 RTX 3060(12GB 显存) -
如果使用 WAN 2.1 的 1.3B 小模型生成视频,RTX 4060(8GB 显存)即可运行,大约 4 分钟可以生成一段 5 秒 480P 的视频 -
如果使用 WAN 2.1 的 14B 大模型,则需要 A100(80GB 显存)级别的专业显卡 -
如果不想在本地跑图像生成,可以使用云端方案(RunningHub),这样本机不需要显卡
软件依赖
运行 Pixelle-Video 有两种方式,对软件依赖的要求不同:
方式一:源码运行(推荐有 Python 基础的用户)
需要安装 Python 3.10 及以上版本,推荐使用 uv 包管理器(它会自动处理所有 Python 依赖)。如果需要本地生成图像,还需要安装并运行 ComfyUI。
方式二:Windows 一键整合包
官方提供了 Windows 平台的一键整合包,无需安装 Python、uv 或 FFmpeg,下载解压后直接运行。这是对新手最友好的方式。
API 密钥准备
无论选择哪种部署方式,你至少需要准备一个大语言模型的 API Key 来驱动文案生成环节。目前可选的方案包括:
- 通义千问
(推荐):阿里云提供的大模型服务,每天有一定量的免费额度,注册后在百炼平台获取 API Key - DeepSeek
:国产大模型,调用费用较低,注册后在 DeepSeek 开放平台获取 API Key - Ollama 本地模型
:如果你的电脑配置不错,可以用 Ollama 在本地运行开源模型(如 Qwen、Llama 等),完全不产生 API 调用费用
从零开始的安装部署教程
源码安装方式
打开终端,依次执行以下命令:
# 克隆项目代码到本地
git clone https://github.com/AIDC-AI/Pixelle-Video.git
# 进入项目目录
cd Pixelle-Video
# 使用 uv 运行(推荐,会自动安装所有依赖)
uv run streamlit run web/app.py
执行最后一条命令后,系统会自动安装所有 Python 依赖包,然后启动 Web 服务。浏览器会自动打开 http://localhost:8501,你就能看到 Pixelle-Video 的操作界面了。
如果你的系统没有安装 uv,可以先通过以下命令安装:
# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh
# Windows (PowerShell)
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
Docker 部署方式
对于有 Docker 经验的用户,项目也提供了 docker-compose.yml,可以通过容器化方式一键部署:
docker compose up --build
ComfyUI 的安装与配置
如果你选择在本地运行图像生成(而非使用云端服务),就需要额外安装 ComfyUI。ComfyUI 的安装方式有多种,这里介绍最简单的方式:
对于 Windows 用户,可以下载 ComfyUI 的桌面客户端版本,它提供了图形化安装界面,开箱即用。安装完成后默认运行在 http://127.0.0.1:8188 端口。
对于 Linux/macOS 用户,可以通过 Git 克隆 ComfyUI 仓库后手动安装依赖运行。
安装好 ComfyUI 之后,还需要下载对应的 AI 模型文件。如果使用默认的 FLUX 图像生成工作流,需要将 FLUX 模型权重文件放到 ComfyUI 的 models/checkpoints 或 models/unet 目录下。具体的模型文件可以从 HuggingFace 或国内的魔搭社区(ModelScope)下载。
首次使用配置详解
安装完成后打开 Web 界面,你会看到一个三栏布局的操作面板。在正式生成视频之前,需要先完成一次系统配置。
配置大语言模型(LLM)
点击页面上方的「⚙️ 系统配置」展开配置面板。在 LLM 配置区域,你需要填写三个关键信息:
- API Key
:你从大模型服务商处获取的密钥 - Base URL
:API 的请求地址,不同的服务商地址不同 - Model
:要使用的具体模型名称
为了简化配置过程,系统提供了预设下拉菜单。选择一个预设(比如”通义千问”),系统会自动帮你填好 Base URL 和 Model 名称,你只需要填入 API Key 即可。以通义千问为例,API Key 的获取路径为:注册阿里云账号 → 进入百炼平台 → 创建 API Key。
如果使用 Ollama 本地模型,Base URL 填写 http://localhost:11434/v1,API Key 随意填写一个字符串即可(Ollama 不校验 Key),Model 填写你已经下载的模型名称(比如 qwen2.5:7b)。
配置图像生成服务
图像生成有两种配置方案:
本地 ComfyUI 方案:在「ComfyUI URL」输入框中填写你本地 ComfyUI 的服务地址(默认为 http://127.0.0.1:8188),然后点击「测试连接」按钮验证服务是否正常。如果连接成功,说明 Pixelle-Video 可以调用本地 ComfyUI 来生成图像了。
云端 RunningHub 方案:RunningHub 是一个基于云端 ComfyUI 的 AI 应用平台,它提供了在线的算力支持,不需要你本地有 GPU。在配置面板中填写 RunningHub 的 API Key 即可。这种方案适合没有独立显卡的用户。
配置完成后务必点击「保存配置」按钮,否则配置不会生效。
视频生成实操流程
完成系统配置后,就可以开始正式生成视频了。下面按照操作界面从左到右的顺序来讲解。
左侧栏:内容输入
这里是视频的”原料入口”。首先要选择生成模式:
AI 生成内容模式:你只需要在输入框中填写一个主题关键词或一句话描述,AI 会自动为你撰写完整的视频文案。比如输入”人类为什么需要睡眠”,AI 会自动生成一段 3-5 个分镜的科普解说词。
固定文案模式:如果你已经有现成的文案(比如自己写好的产品介绍、知识分享稿),可以直接粘贴进来,跳过 AI 文案生成环节。
接下来是背景音乐(BGM)设置。系统提供了三种选择:不加 BGM 的纯人声模式、使用内置预设音乐、或者自定义音乐文件。如果选择自定义,需要将你的 MP3 或 WAV 格式音乐文件放到项目的 bgm/ 目录下,系统会自动扫描并列出可选的音乐文件。
中间栏:语音与视觉设置
语音设置部分是控制视频”怎么说”的。在 TTS 工作流下拉菜单中选择语音方案,系统会自动扫描 workflows/ 目录下的 TTS 工作流文件。如果选择了支持声音克隆的方案(如 Index-TTS),还可以上传一段参考音频来让生成的语音模仿特定的声音。设置好之后可以点击「预览语音」来试听效果,确认声音满意后再进入下一步。
视觉设置部分是控制视频”怎么看”的。这里有几个关键参数需要关注:
ComfyUI 工作流选择:决定使用哪种模型来生成配图。默认的 image_flux.json 使用 FLUX 模型生成静态图片。如果你在 ComfyUI 中配置了 WAN 2.1 等视频生成模型,也可以选择对应的视频生成工作流,这样每个分镜就不是静态图片而是一小段动态视频了。
图像尺寸:设定生成图像的宽度和高度,默认是 1024×1024 像素。需要注意的是,不同的生成模型对尺寸有不同的限制。比如 FLUX 模型建议使用 1024×1024 或 768×1024 这样的尺寸,而 WAN 2.1 的 1.3B 模型生成视频的分辨率上限是 480P。
提示词前缀(Prompt Prefix):这是一个很实用的参数,用于控制所有配图的整体视觉风格。你在这里填写的内容会被拼接到每个分镜的图像提示词前面。例如,如果你想让所有配图都是简约线条风格,可以设置前缀为:
Minimalist black-and-white matchstick figure style illustration,
clean lines, simple sketch style
需要注意的是,由于大多数图像生成模型对英文的理解效果更好,提示词前缀建议使用英文编写。
视频模板选择:这决定了最终视频画面的排版方式。项目内置了多种模板,按命名规则分为三类:static_*.html 是纯文字动效模板,不需要 AI 生成图像;image_*.html 是图片背景模板,AI 生成的图片会作为画面背景;video_*.html 是视频背景模板,使用 AI 生成的动态视频作为背景。模板还按照画面比例分为竖屏(适合抖音、快手等平台)、横屏(适合 B 站、YouTube 等平台)和方形(适合社交媒体信息流)三种尺寸。
右侧栏:生成与预览
所有参数配置完成后,点击「🎬 生成视频」按钮就可以开始了。系统会按照”生成文案 → 生成配图 → 合成语音 → 合成视频”的顺序依次执行。界面上会实时显示当前进度,比如”分镜 3/5 – 生成插图”这样的提示。
一条 3-5 个分镜的短视频,生成时间通常在几分钟到十几分钟之间,具体取决于你使用的模型和网络状况。生成完成后视频会自动在页面上播放预览,同时显示视频时长、文件大小、分镜数等基本信息。最终的视频文件保存在项目的 output/ 目录下,你可以直接下载使用。
进阶玩法:自定义工作流
Pixelle-Video 真正的强大之处在于它基于 ComfyUI 的可扩展架构。如果你对 ComfyUI 有一定了解,可以通过自定义工作流来解锁更多玩法。
自定义图像生成工作流
默认的 image_flux.json 工作流使用 FLUX 模型,但你可以创建自己的工作流来替换底层的生成模型。比如,你可以:
-
使用 Stable Diffusion XL 来获得不同风格的图像效果 -
加入 ControlNet 控制节点来精确控制画面构图 -
使用 LoRA 微调模型来固定特定的人物形象或风格
自定义工作流的步骤是:先在 ComfyUI 的图形界面中搭建和测试好你的工作流,确认能正常运行后,将工作流导出为 JSON 文件,放到 Pixelle-Video 的 workflows/ 目录下。系统会自动识别并加载新的工作流。
自定义 TTS 工作流
同样的扩展思路也适用于语音合成环节。如果你在 ComfyUI 中安装了 ChatTTS、CosyVoice 等 TTS 模型的节点插件,就可以创建对应的 TTS 工作流来替代默认的 Edge-TTS。
自定义视频模板
视频模板本质上是 HTML+CSS 文件,通过浏览器引擎渲染成视频画面帧。如果你有前端开发基础,可以在 templates/ 目录下创建自己的模板。模板中可以使用 CSS 动画、SVG 图形、自定义字体等各种前端技术,来实现独特的视觉效果。命名时遵循 static_、image_、video_ 的前缀约定即可。
理解底层:WAN 2.1 视频生成模型
如果你选择在 Pixelle-Video 中使用 AI 视频生成功能,那么 WAN 2.1(通义万相 2.1)是目前最值得关注的开源选择。
WAN 2.1 是阿里通义实验室推出的视频生成模型,在 VBench 评测榜单上表现十分突出。它采用 DiT(Diffusion in Transformer)架构,将扩散模型的生成能力与 Transformer 的序列处理能力相结合。
从技术层面来看,WAN 2.1 有几个核心设计值得理解。首先是它的 3D 因果 VAE(变分自编码器),这个组件负责将视频压缩到潜在空间进行处理,再解码回视频。它通过特征缓存机制实现了对任意长度 1080P 视频的高效编解码,显存消耗只与每次处理的分块大小有关,而不是与整个视频长度挂钩。其次是 Flow Matching 训练范式,相比传统的扩散训练方式,它让模型的训练和推理过程更加高效。
WAN 2.1 提供了两个规格的模型:1.3B 参数的轻量版和 14B 参数的专业版。轻量版只需要约 8.2GB 显存就能运行,一张入门级显卡(如 RTX 4060)就能在 4 分钟内生成 5 秒的 480P 视频。而 14B 版本则需要更强的算力支持,但生成质量也会显著提升。
在 Pixelle-Video 中使用 WAN 2.1 的前提是:你需要在本地 ComfyUI 中安装 WAN 2.1 相关的节点插件(如 ComfyUI-WanVideoWrapper),下载对应的模型权重文件,并配置好对应的 ComfyUI 工作流。
理解底层:TTS 语音合成方案对比
语音合成的质量直接决定了视频的”听感”。这里对 Pixelle-Video 支持的几种主要 TTS 方案做一个横向对比分析。
Edge-TTS 的技术原理是通过 Python 异步调用微软 Azure 的在线 TTS 服务。它的优势非常明显:免费、稳定、声音自然度高、支持上百种语言和声音角色。使用方法也极其简单,以下是一个基本的 Python 调用示例:
-
import asyncio -
import edge_tts -
TEXT = “你好,我是 AI 语音助手” -
VOICE = “zh-CN-XiaoxiaoNeural” -
OUTPUT_FILE = “output.mp3” -
async def main(): -
communicate = edge_tts.Communicate(TEXT, VOICE) -
await communicate.save(OUTPUT_FILE) -
asyncio.run(main())
Edge-TTS 还支持调节语速(–rate 参数)和音量(–volume 参数),但不支持 SSML 标记语言的高级语音调优功能(如情绪、语调调整)。
Index-TTS 是由哔哩哔哩开源的 TTS 模型,最大的卖点是声音克隆能力。它在模型架构上引入了拼音建模单元,这在中文语音合成中具有很强的实用价值,能更准确地处理多音字和语音连读等问题。不过 Index-TTS 需要 GPU 来运行推理。
CosyVoice 2 是另一个值得关注的方案。根据业界评测数据,它在综合表现上十分出色,不过首帧延时相对较高。
总的来说,对于大多数短视频创作场景,Edge-TTS 是性价比最高的选择。如果你对声音个性化有特殊要求(比如需要模仿特定人物的声音),可以考虑 Index-TTS。
常见问题与排错思路
在实际使用中,你可能会遇到一些问题,这里梳理几个高频问题和对应的解决思路。
问题一:视频生成过程中某个分镜的图像生成失败。 这通常是 ComfyUI 工作流的问题。建议先打开 ComfyUI 的 Web 界面(http://127.0.0.1:8188),手动加载对应的工作流 JSON 文件,尝试独立运行一次,看看是否能正常生成图像。如果独立运行也失败,说明工作流本身有问题,可能是模型文件未正确放置或节点插件未安装。
问题二:Edge-TTS 语音生成失败或服务不稳定。 这个问题在项目的早期版本中出现过。Pixelle-Video 官方已经在后续版本中锁定了 edge-tts 库的版本来解决兼容性问题。如果你仍然遇到此问题,可以尝试手动指定 edge-tts 的版本:
pip install edge-tts==7.2.7
问题三:生成的视频效果不满意。 可以从以下几个方向进行调优:更换 LLM 模型来获得不同风格的文案(不同模型的写作风格差异很大);调整图像尺寸和提示词前缀来改变配图的视觉风格;更换 TTS 工作流或上传不同的参考音频来调整声音效果;尝试不同的视频模板来改变画面排版。
问题四:本地没有显卡,能用吗? 完全可以。文案生成通过云端 API 完成不需要本地 GPU;语音合成使用 Edge-TTS 也不需要 GPU;图像生成可以使用 RunningHub 的云端服务。唯一的限制是生成速度可能会稍慢一些(取决于网络延迟)。
项目的适用场景与局限性
从实际应用角度看,Pixelle-Video 最适合以下几类场景:知识科普类短视频(配图+解说的叙事结构)、产品介绍类短视频(固定文案+风格统一的配图)、以及批量生产同类型视频的需求(同一套模板和风格,只需更换主题关键词)。
它的局限性也需要客观认识。首先,AI 生成的文案质量取决于 LLM 模型的能力,有时候可能需要人工审核和微调。其次,AI 生成的配图虽然视觉效果不错,但在连贯性和准确性上还无法达到手动选图的精度。最后,项目目前主要面向”图文解说”类型的短视频,不太适合 Vlog、剧情类等需要实拍素材的视频类型。
写在最后
Pixelle-Video 代表了当下 AI 视频创作工具的一个重要趋势——将原本需要多个专业软件和大量人工操作才能完成的视频生产流程,通过 AI 技术和模块化架构压缩为一条全自动流水线。虽然它还不能完全替代专业的视频创作工作流,但对于个人创作者和小团队来说,它确实大幅降低了短视频生产的技术门槛和时间成本。
如果你对 AI 视频生成感兴趣,不妨从这个项目开始动手实践。在实际使用中遇到的每一个问题和每一次调优,都会加深你对 AI 工具链的理解。
项目开源地址:https://github.com/AIDC-AI/Pixelle-Video
夜雨聆风