你买过多少个’一年后就废了’的 AI 工具?这个视频框架的设计思路完全反着来
一、🔥 为什么我要聊这个工具
你买过多少个”一年后就不用了”的 AI 工具?
2023 年,一堆 AI 写作工具如日中天,底层全是 GPT-3.5。GPT-4 出来之后,那些工具还没升级,你就懒得打开了。
2024 年,AI 图像工具百花齐放,很多绑定了特定的图像 API,Midjourney 换定价模型、某家 API 涨价,工具就瞬间变贵或者变卡。
AI 视频工具这波也在走同样的路——大多数产品绑定了某个特定的视频生成模型,一旦模型更新、API 策略变、定价调整,你就被动了。
你用的不是工具,你用的是别人的 API 套壳。
这不是说套壳没用,是说套壳的保质期太短。
Pixelle-Video 的设计思路刚好反过来。它把底层交给了 ComfyUI——一个开放的 AI 工作流引擎——这意味着你今天用 FLUX 生图,明天换成任何新出的模型,后天接入 WAN 3.0,工具本身不用动,换一个工作流文件就行。
这篇文章不是写给”不会剪辑的人”看的,是写给想搞清楚这个工具架构、想深度定制、想长期用下去的人看的。
二、📦 这个项目是什么
项目名称:Pixelle-Video
发布方:AIDC-AI(阿里国际 AIDC 旗下开源组织)
⭐ Star 数:2.8k
🍴 Fork 数:458
最新版本:v0.1.15(2026 年 1 月 27 日)
开源协议:Apache 2.0
技术栈:Python + Streamlit + ComfyUI + ffmpeg
一句话定位:以 ComfyUI 为视觉引擎的 AI 视频生成框架——模型可替换、工作流可自定义、模板可自己写、API 可调用,横向可扩展,纵向有深度。

AIDC-AI 之前做过 Pixelle-MCP,把 ComfyUI 包装成 MCP 服务器接入 AI Agent 生态,有 ComfyUI 工程积累。Pixelle-Video 是把这个积累往上游拉了一步:不只是图像生成,而是完整的”文案→视觉→语音→合成”视频流水线。
架构层对比——这才是关键
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
这张表里最重要的是第一行:ComfyUI 开放工作流 vs 绑定特定 API。
前者的护城河在你自己手里,后者的护城河在别人手里。
三、⚙️ 核心架构,一层一层说清楚
第一层:LLM 文案层
最上面是语言模型,负责把你的主题变成分镜文案。
支持的 LLM 接口全部走 OpenAI 兼容格式:
# config.yaml
llm:
api_key: "your-key"
base_url: "https://dashscope.aliyuncs.com/compatible-mode/v1"
model: "qwen-plus"
换模型只是改两行配置。通义千问、DeepSeek、Ollama 本地跑、GPT-4o,全部一样的接法。
LLM 的输出是结构化的分镜脚本:每个分镜一段文案 + 一个图像/视频生成指令 + 配音文本。这个结构是后面所有环节的输入。
第二层:ComfyUI 视觉引擎(核心)
这是整个框架最值得说的地方。
Pixelle-Video 对 ComfyUI 的调用方式非常干净:
comfyui:
url: "http://127.0.0.1:8188"
workflow: "image_flux.json"
workflow 字段就是一个标准的 ComfyUI 工作流文件路径。你在 ComfyUI 里设计好了什么样的工作流,Pixelle-Video 就用什么样的工作流。
这意味着:
① 模型自由:今天用 FLUX,明天 WAN 3.0 出来,下载模型权重,改一个工作流文件,切换完成。不需要等 Pixelle-Video 升级,不需要等平台支持。
② 工作流自由:你可以把 ComfyUI 里的任何节点组合带进来——ControlNet 控制构图、IP-Adapter 风格迁移、LoRA 定制角色、Upscale 提升分辨率——这些 ComfyUI 能做的,Pixelle-Video 都能用。
③ 运行自由:本地有显卡直接跑本地,没有显卡去 RunningHub 用云端算力,接口一样,切换无感。
# 本地 ComfyUI
comfyui:
url: "http://127.0.0.1:8188"
# 或者 RunningHub 云端
runninghub:
api_key: "your-runninghub-key"
workflow_id: "xxx"
第三层:TTS 语音层
两个方向:
Edge-TTS:微软免费语音,开箱即用,中文效果不错,零成本。
Index-TTS:支持音色克隆。上传 10 秒参考音频,它用这个声线合成语音。
# 音色克隆示例配置
tts:
engine: "index-tts"
reference_audio: "my_voice_sample.wav"
音色克隆的实际用途:你录一段自己的声音作为样本,之后批量生成视频都是”你的声音”在讲稿,适合知识博主做人设,也适合企业做品牌音色统一。
第四层:模板系统(可以自己写)
这层很多人没注意,但对做矩阵号或者企业批量出片的人来说很重要。
模板是标准 HTML 文件,放在 templates/ 目录,按命名规范区分:
static_*.html → 纯文字,无需 AI 生媒体,速度最快
image_*.html → AI 生图作背景
video_*.html → AI 生视频作背景
你完全可以自己写一个模板,控制字体、颜色、布局、动画效果,然后给不同的账号用不同的模板——同一套内容,不同的视觉风格,批量差异化。
<!-- templates/image_custom.html 示例结构 -->
<div class="scene" style="...">
<div class="text">{{content}}</div>
<img src="{{image_path}}" />
</div>
第五层:ffmpeg 合成层
最底层是 ffmpeg,负责把所有素材(图片/视频/音频/BGM)按时间轴拼成最终视频。
这层是黑盒用就行,但有一点值得说:因为用的是 ffmpeg 而不是某家云剪辑 API,合成过程完全本地,不依赖任何第三方服务,隐私数据不出本机。
四、🚀 怎么用——进阶用法重点说
基础安装(快速过)
Windows 用户下载整合包双击启动,不展开说了。源码安装:
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
# macOS/Linux
brew install ffmpeg # 或 apt install ffmpeg
curl -LsSf https://astral.sh/uv/install.sh | sh
uv run streamlit run web/app.py
进阶用法一:接入自己的 ComfyUI 工作流
如果你已经有一套调好的 ComfyUI 工作流(比如你有一套特定画风的图生图工作流),直接接进来:
Step 1:在 ComfyUI 里导出工作流 JSON(保存为 API 格式)
ComfyUI 菜单 → Save (API Format) → 保存为 my_workflow.json
Step 2:放到 Pixelle-Video 工作目录
cp my_workflow.json pixelle-video/workflows/
Step 3:在配置里指定
comfyui:
url: "http://127.0.0.1:8188"
workflow: "my_workflow.json"
Step 4:确认工作流里的输入节点 ID
Pixelle-Video 通过工作流节点 ID 传入提示词,你需要在配置里声明哪个节点接收 prompt:
comfyui:
prompt_node_id: "6" # 你的工作流里 KSampler 或 CLIP Text Encode 的节点 ID
[配图:ComfyUI 导出 API 格式截图]
进阶用法二:用脚本批量调用 API
Pixelle-Video 支持通过 API 调用触发生成任务,适合批量出片和定时任务。
import requests
# 提交生成任务
response = requests.post("http://localhost:8501/api/generate", json={
"topic": "为什么说读书是最划算的投资",
"template": "image_modern",
"tts_engine": "edge-tts",
"voice": "zh-CN-XiaoxiaoNeural"
})
task_id = response.json()["task_id"]
# 轮询结果
import time
while True:
status = requests.get(f"http://localhost:8501/api/status/{task_id}").json()
if status["state"] == "done":
print("视频路径:", status["output_path"])
break
time.sleep(10)
批量调用示例——20 个选题一次提交:
topics = [
"复利的力量:为什么你要从现在开始存钱",
"费曼学习法:为什么讲给别人听是最好的学习方式",
# ... 18 个选题
]
for topic in topics:
requests.post("http://localhost:8501/api/generate", json={"topic": topic})
挂个定时脚本,每天自动生成,存到 output/,第二天起床就有新内容等着你分发。
进阶用法三:自定义 HTML 模板
假设你要做一套”暗金商业风”的视频模板:
<!-- templates/image_dark_gold.html -->
<!DOCTYPE html>
<html>
<head>
<style>
body { background: #0a0a0a; margin: 0; }
.container {
width: 1080px; height: 1920px; /* 竖屏 9:16 */
background: linear-gradient(135deg, #1a1a1a, #0d0d0d);
border: 1px solid #c8a84b33;
display: flex; flex-direction: column;
justify-content: center; align-items: center;
}
.title {
font-family: "Noto Serif SC", serif;
font-size: 52px; color: #c8a84b;
letter-spacing: 4px; text-align: center;
padding: 0 80px;
}
.divider { width: 120px; height: 1px; background: #c8a84b; margin: 32px auto; }
.content {
font-size: 32px; color: #e8e8e8; line-height: 1.8;
padding: 0 80px; text-align: center;
}
.bg-image { position: absolute; opacity: 0.15; width: 100%; height: 100%; object-fit: cover; }
</style>
</head>
<body>
<div class="container">
<img class="bg-image" src="{{image_path}}"/>
<div class="title">{{title}}</div>
<div class="divider"></div>
<div class="content">{{content}}</div>
</div>
</body>
</html>
保存到 templates/image_dark_gold.html,选模板时就能选到,批量生成的每条视频都是这个风格。
五、💡 三个给折腾党的真实场景
场景一:ComfyUI 玩家,接入自己的 LoRA 角色
背景:摄影类博主,之前在 ComfyUI 里训练了一个定制 LoRA,能生成固定风格的城市夜景图,用于小红书发图,效果很好。
想法:把这套生图工作流接进 Pixelle-Video,以后发视频也保持这个一致风格,建立视觉 IP。
操作:在 ComfyUI 里把这个 LoRA 工作流导出 API 格式,接进 Pixelle-Video,配置好 prompt 节点 ID。
效果:每次生成视频,配图自动走这套 LoRA 工作流,视觉风格高度一致,完全不需要每次手动选图。
ComfyUI 玩家的优势在这里体现出来了——你在图像生成上积累的所有工作流,都可以直接复用到视频流水线里。
场景二:Python 开发者,搭无人值守的内容工厂
背景:独立开发者,想做知识类矩阵账号,每天至少要出 5 条视频,手动操作太费时间。
操作:
# content_factory.py
import schedule
import time
import requests
TOPICS_FILE = "topics_queue.txt"
def generate_daily_videos():
with open(TOPICS_FILE) as f:
topics = [line.strip() for line in f if line.strip()]
# 取前 5 个
daily_batch = topics[:5]
for topic in daily_batch:
r = requests.post("http://localhost:8501/api/generate", json={
"topic": topic,
"template": "image_minimal",
"voice": "zh-CN-YunxiNeural"
})
print(f"已提交:{topic} → task_id: {r.json()['task_id']}")
# 从队列里移除已处理
with open(TOPICS_FILE, "w") as f:
f.writelines(topics[5:])
# 每天早上 6 点跑
schedule.every().day.at("06:00").do(generate_daily_videos)
while True:
schedule.run_pending()
time.sleep(60)
效果:topics_queue.txt 里维护一个选题池,每天早上自动提交 5 个任务,醒来视频已经在 output/ 里了,只需要检查一遍,发布出去。
场景三:WAN 2.1 换模型,一个配置搞定
背景:之前用 FLUX 生图模式,最近 WAN 2.1 视频生成模型效果不错,想切换到 AI 生视频模式,让每个分镜都是动态画面。
操作:
-
1. 在 ComfyUI 里装好 WAN 2.1 模型权重 -
2. 从社区下载 WAN 2.1 的 ComfyUI 工作流 JSON -
3. 在 Pixelle-Video 配置里改两行:
comfyui:
workflow: "wan2.1_video.json" # 从 image_flux.json 换到这里
prompt_node_id: "12" # WAN 工作流里的 prompt 节点 ID
-
4. 重新生成,每个分镜从静态配图变成了 3-5 秒的动态视频片段。
整个切换过程不需要等 Pixelle-Video 发新版本,不需要等平台支持,自己改配置就行。这就是 ComfyUI 底层架构的核心价值。
六、🐦 X 上的人怎么说
「ComfyUI 作为后端这个选择,意味着这个工具的天花板比它现在展示的高得多——社区里有多少 ComfyUI 工作流,理论上它就能支持多少种视频风格。」
——ComfyUI 社区开发者,X 平台
「我把自己的 LoRA 工作流接进去了,现在批量生成的视频全是我定制的画风,比用通用模型好太多。」
——小红书摄影博主,GitHub Issues
「Windows 整合包这个决定是对的,但我更期待它把 API 接口做得更完善,这样批量生产就更方便了。」
——独立开发者,GitHub Discussions
「WAN 2.1 接进去跑了一下,每帧画面动起来之后质感上去了一个档次,就是慢,一个视频要跑将近一个小时。」
——早期测试用户,B站评论区
「AIDC-AI 这个团队在 ComfyUI 生态里做了好几个工具,Pixelle-MCP 是其中一个,Pixelle-Video 算是往上游延伸——他们对 ComfyUI 的理解是够深的。」
——AI 工具关注者,知乎评论
博主点评
这几条评价里,那句”天花板比现在展示的高得多”是最准的。
Pixelle-Video 现在展示给你的功能,只是 ComfyUI 这个底层能做到的事情的一个子集。你往里接的工作流越多、越复杂,它能做的事情边界就越大。
这和那些功能列表固定、更新靠等官方的工具有本质不同——你自己就是它的开发者。
七、🎯 值不值得深入?我的判断
适合谁
-
• ✅ ComfyUI 老玩家:你已经有一堆工作流积累,想把它们整合进视频生产流水线 -
• ✅ Python 开发者:想搭批量生产系统、定时任务、无人值守内容工厂 -
• ✅ 注重视觉一致性的创作者:想通过自定义工作流和模板建立稳定的视觉 IP -
• ✅ 不想被平台锁死的人:看重长期可控性,不想哪天平台改定价就被动
要说清楚的局限
-
• ⚠️ 接入自定义工作流有门槛:需要你懂 ComfyUI,知道节点 ID 怎么找,不是纯小白友好的操作 -
• ⚠️ AI 生视频模式(WAN 2.1)很慢:一个分镜几分钟,完整视频可能要一两个小时,GPU 配置低会更慢 -
• ⚠️ API 接口文档还不完善:批量调用目前需要自己看代码摸索,期待后续补文档 -
• ⚠️ 社区 Skill 库还小:比起 ComfyUI 主社区,Pixelle-Video 专属的工作流模板和踩坑经验还少
最后说一句
大多数 AI 工具给你的是一个功能,Pixelle-Video 给你的是一个引擎——引擎的价值,不是它现在能做什么,而是你能在它上面跑什么。
你的 ComfyUI 工作流积累、你的模板设计、你的批量脚本,都会沉淀成你专属的视频生产系统,别人复制不走。
夜雨聆风