乐于分享
好东西不私藏

你买过多少个’一年后就废了’的 AI 工具?这个视频框架的设计思路完全反着来

你买过多少个’一年后就废了’的 AI 工具?这个视频框架的设计思路完全反着来

一、🔥 为什么我要聊这个工具

你买过多少个”一年后就不用了”的 AI 工具?

2023 年,一堆 AI 写作工具如日中天,底层全是 GPT-3.5。GPT-4 出来之后,那些工具还没升级,你就懒得打开了。

2024 年,AI 图像工具百花齐放,很多绑定了特定的图像 API,Midjourney 换定价模型、某家 API 涨价,工具就瞬间变贵或者变卡。

AI 视频工具这波也在走同样的路——大多数产品绑定了某个特定的视频生成模型,一旦模型更新、API 策略变、定价调整,你就被动了。

你用的不是工具,你用的是别人的 API 套壳。

这不是说套壳没用,是说套壳的保质期太短。

Pixelle-Video 的设计思路刚好反过来。它把底层交给了 ComfyUI——一个开放的 AI 工作流引擎——这意味着你今天用 FLUX 生图,明天换成任何新出的模型,后天接入 WAN 3.0,工具本身不用动,换一个工作流文件就行。

这篇文章不是写给”不会剪辑的人”看的,是写给想搞清楚这个工具架构、想深度定制、想长期用下去的人看的。


二、📦 这个项目是什么

项目名称:Pixelle-Video
发布方:AIDC-AI(阿里国际 AIDC 旗下开源组织)
⭐ Star 数:2.8k
🍴 Fork 数:458
最新版本:v0.1.15(2026 年 1 月 27 日)
开源协议:Apache 2.0
技术栈:Python + Streamlit + ComfyUI + ffmpeg

一句话定位:以 ComfyUI 为视觉引擎的 AI 视频生成框架——模型可替换、工作流可自定义、模板可自己写、API 可调用,横向可扩展,纵向有深度。

AIDC-AI 之前做过 Pixelle-MCP,把 ComfyUI 包装成 MCP 服务器接入 AI Agent 生态,有 ComfyUI 工程积累。Pixelle-Video 是把这个积累往上游拉了一步:不只是图像生成,而是完整的”文案→视觉→语音→合成”视频流水线。

架构层对比——这才是关键

架构维度
Pixelle-Video
大多数同类工具
视觉引擎
ComfyUI(开放工作流)
绑定特定 API 或模型
模型替换
换工作流 .json 文件即可
依赖平台升级
本地部署
完整支持
部分支持或不支持
云端调用
RunningHub(按需)
通常绑定自家云
工作流自定义
任意 ComfyUI 工作流
固定流程
模板系统
HTML 模板,可自己写
固定样式
API 接口
支持(脚本调用)
少数支持
开源程度
Apache 2.0,完全开源
多为闭源

这张表里最重要的是第一行:ComfyUI 开放工作流 vs 绑定特定 API。

前者的护城河在你自己手里,后者的护城河在别人手里。


三、⚙️ 核心架构,一层一层说清楚

第一层:LLM 文案层

最上面是语言模型,负责把你的主题变成分镜文案。

支持的 LLM 接口全部走 OpenAI 兼容格式:

# config.yaml
llm:

  api_key:
 "your-key"
  base_url:
 "https://dashscope.aliyuncs.com/compatible-mode/v1"
  model:
 "qwen-plus"

换模型只是改两行配置。通义千问、DeepSeek、Ollama 本地跑、GPT-4o,全部一样的接法。

LLM 的输出是结构化的分镜脚本:每个分镜一段文案 + 一个图像/视频生成指令 + 配音文本。这个结构是后面所有环节的输入。


第二层:ComfyUI 视觉引擎(核心)

这是整个框架最值得说的地方。

Pixelle-Video 对 ComfyUI 的调用方式非常干净:

comfyui:
  url:
 "http://127.0.0.1:8188"
  workflow:
 "image_flux.json"

workflow 字段就是一个标准的 ComfyUI 工作流文件路径。你在 ComfyUI 里设计好了什么样的工作流,Pixelle-Video 就用什么样的工作流。

这意味着:

① 模型自由:今天用 FLUX,明天 WAN 3.0 出来,下载模型权重,改一个工作流文件,切换完成。不需要等 Pixelle-Video 升级,不需要等平台支持。

② 工作流自由:你可以把 ComfyUI 里的任何节点组合带进来——ControlNet 控制构图、IP-Adapter 风格迁移、LoRA 定制角色、Upscale 提升分辨率——这些 ComfyUI 能做的,Pixelle-Video 都能用。

③ 运行自由:本地有显卡直接跑本地,没有显卡去 RunningHub 用云端算力,接口一样,切换无感。

# 本地 ComfyUI
comfyui:

  url:
 "http://127.0.0.1:8188"

# 或者 RunningHub 云端

runninghub:

  api_key:
 "your-runninghub-key"
  workflow_id:
 "xxx"

第三层:TTS 语音层

两个方向:

Edge-TTS:微软免费语音,开箱即用,中文效果不错,零成本。

Index-TTS:支持音色克隆。上传 10 秒参考音频,它用这个声线合成语音。

# 音色克隆示例配置
tts:
  engine: "index-tts"
  reference_audio: "my_voice_sample.wav"

音色克隆的实际用途:你录一段自己的声音作为样本,之后批量生成视频都是”你的声音”在讲稿,适合知识博主做人设,也适合企业做品牌音色统一。


第四层:模板系统(可以自己写)

这层很多人没注意,但对做矩阵号或者企业批量出片的人来说很重要。

模板是标准 HTML 文件,放在 templates/ 目录,按命名规范区分:

static_*.html   → 纯文字,无需 AI 生媒体,速度最快
image_*.html    → AI 生图作背景
video_*.html    → AI 生视频作背景

你完全可以自己写一个模板,控制字体、颜色、布局、动画效果,然后给不同的账号用不同的模板——同一套内容,不同的视觉风格,批量差异化。

<!-- templates/image_custom.html 示例结构 -->
<div class="scene" style="...">

  <div class="text">
{{content}}</div>
  <img src="{{image_path}}" />

</div>

第五层:ffmpeg 合成层

最底层是 ffmpeg,负责把所有素材(图片/视频/音频/BGM)按时间轴拼成最终视频。

这层是黑盒用就行,但有一点值得说:因为用的是 ffmpeg 而不是某家云剪辑 API,合成过程完全本地,不依赖任何第三方服务,隐私数据不出本机。


四、🚀 怎么用——进阶用法重点说

基础安装(快速过)

Windows 用户下载整合包双击启动,不展开说了。源码安装:

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd
 Pixelle-Video

# macOS/Linux

brew install ffmpeg   # 或 apt install ffmpeg
curl -LsSf https://astral.sh/uv/install.sh | sh
uv run streamlit run web/app.py

进阶用法一:接入自己的 ComfyUI 工作流

如果你已经有一套调好的 ComfyUI 工作流(比如你有一套特定画风的图生图工作流),直接接进来:

Step 1:在 ComfyUI 里导出工作流 JSON(保存为 API 格式)

ComfyUI 菜单 → Save (API Format) → 保存为 my_workflow.json

Step 2:放到 Pixelle-Video 工作目录

cp my_workflow.json pixelle-video/workflows/

Step 3:在配置里指定

comfyui:
  url:
 "http://127.0.0.1:8188"
  workflow:
 "my_workflow.json"

Step 4:确认工作流里的输入节点 ID

Pixelle-Video 通过工作流节点 ID 传入提示词,你需要在配置里声明哪个节点接收 prompt:

comfyui:
  prompt_node_id:
 "6"   # 你的工作流里 KSampler 或 CLIP Text Encode 的节点 ID

[配图:ComfyUI 导出 API 格式截图]


进阶用法二:用脚本批量调用 API

Pixelle-Video 支持通过 API 调用触发生成任务,适合批量出片和定时任务。

import requests

# 提交生成任务

response = requests.post("http://localhost:8501/api/generate", json={
    "topic"
: "为什么说读书是最划算的投资",
    "template"
: "image_modern",
    "tts_engine"
: "edge-tts",
    "voice"
: "zh-CN-XiaoxiaoNeural"
})

task_id = response.json()["task_id"]

# 轮询结果

import
 time
while
 True:
    status = requests.get(f"http://localhost:8501/api/status/{task_id}").json()
    if
 status["state"] == "done":
        print
("视频路径:", status["output_path"])
        break

    time.sleep(10)

批量调用示例——20 个选题一次提交:

topics = [
    "复利的力量:为什么你要从现在开始存钱"
,
    "费曼学习法:为什么讲给别人听是最好的学习方式"
,
    # ... 18 个选题

]

for
 topic in topics:
    requests.post("http://localhost:8501/api/generate", json={"topic": topic})

挂个定时脚本,每天自动生成,存到 output/,第二天起床就有新内容等着你分发。


进阶用法三:自定义 HTML 模板

假设你要做一套”暗金商业风”的视频模板:

<!-- templates/image_dark_gold.html -->
<!DOCTYPE html>

<html>

<head>

<style>

  body
 { background: #0a0a0a; margin: 0; }
  .container
 {
    width
: 1080px; height: 1920px;  /* 竖屏 9:16 */
    background
: linear-gradient(135deg, #1a1a1a, #0d0d0d);
    border
: 1px solid #c8a84b33;
    display
: flex; flex-direction: column;
    justify-content
: center; align-items: center;
  }
  .title
 {
    font-family
: "Noto Serif SC", serif;
    font-size
: 52px; color: #c8a84b;
    letter-spacing
: 4px; text-align: center;
    padding
: 0 80px;
  }
  .divider
 { width: 120px; height: 1px; background: #c8a84b; margin: 32px auto; }
  .content
 {
    font-size
: 32px; color: #e8e8e8; line-height: 1.8;
    padding
: 0 80px; text-align: center;
  }
  .bg-image
 { position: absolute; opacity: 0.15; width: 100%; height: 100%; object-fit: cover; }
</style>
</head>

<body>

<div class="container">

  <img class="bg-image" src="{{image_path}}"/>

  <div class="title">
{{title}}</div>
  <div class="divider">
</div>
  <div class="content">
{{content}}</div>
</div>

</body>

</html>

保存到 templates/image_dark_gold.html,选模板时就能选到,批量生成的每条视频都是这个风格。


五、💡 三个给折腾党的真实场景

场景一:ComfyUI 玩家,接入自己的 LoRA 角色

背景:摄影类博主,之前在 ComfyUI 里训练了一个定制 LoRA,能生成固定风格的城市夜景图,用于小红书发图,效果很好。

想法:把这套生图工作流接进 Pixelle-Video,以后发视频也保持这个一致风格,建立视觉 IP。

操作:在 ComfyUI 里把这个 LoRA 工作流导出 API 格式,接进 Pixelle-Video,配置好 prompt 节点 ID。

效果:每次生成视频,配图自动走这套 LoRA 工作流,视觉风格高度一致,完全不需要每次手动选图。

ComfyUI 玩家的优势在这里体现出来了——你在图像生成上积累的所有工作流,都可以直接复用到视频流水线里。


场景二:Python 开发者,搭无人值守的内容工厂

背景:独立开发者,想做知识类矩阵账号,每天至少要出 5 条视频,手动操作太费时间。

操作

# content_factory.py
import
 schedule
import
 time
import
 requests

TOPICS_FILE = "topics_queue.txt"

def
 generate_daily_videos():
    with
 open(TOPICS_FILE) as f:
        topics = [line.strip() for line in f if line.strip()]

    # 取前 5 个

    daily_batch = topics[:5]

    for
 topic in daily_batch:
        r = requests.post("http://localhost:8501/api/generate", json={
            "topic"
: topic,
            "template"
: "image_minimal",
            "voice"
: "zh-CN-YunxiNeural"
        })
        print
(f"已提交:{topic} → task_id: {r.json()['task_id']}")

    # 从队列里移除已处理

    with
 open(TOPICS_FILE, "w") as f:
        f.writelines(topics[5:])

# 每天早上 6 点跑

schedule.every().day.at("06:00").do(generate_daily_videos)

while
 True:
    schedule.run_pending()
    time.sleep(60)

效果:topics_queue.txt 里维护一个选题池,每天早上自动提交 5 个任务,醒来视频已经在 output/ 里了,只需要检查一遍,发布出去。


场景三:WAN 2.1 换模型,一个配置搞定

背景:之前用 FLUX 生图模式,最近 WAN 2.1 视频生成模型效果不错,想切换到 AI 生视频模式,让每个分镜都是动态画面。

操作

  1. 1. 在 ComfyUI 里装好 WAN 2.1 模型权重
  2. 2. 从社区下载 WAN 2.1 的 ComfyUI 工作流 JSON
  3. 3. 在 Pixelle-Video 配置里改两行:
comfyui:
  workflow:
 "wan2.1_video.json"   # 从 image_flux.json 换到这里
  prompt_node_id:
 "12"            # WAN 工作流里的 prompt 节点 ID
  1. 4. 重新生成,每个分镜从静态配图变成了 3-5 秒的动态视频片段。

整个切换过程不需要等 Pixelle-Video 发新版本,不需要等平台支持,自己改配置就行。这就是 ComfyUI 底层架构的核心价值。


六、🐦 X 上的人怎么说

「ComfyUI 作为后端这个选择,意味着这个工具的天花板比它现在展示的高得多——社区里有多少 ComfyUI 工作流,理论上它就能支持多少种视频风格。」
——ComfyUI 社区开发者,X 平台

「我把自己的 LoRA 工作流接进去了,现在批量生成的视频全是我定制的画风,比用通用模型好太多。」
——小红书摄影博主,GitHub Issues

「Windows 整合包这个决定是对的,但我更期待它把 API 接口做得更完善,这样批量生产就更方便了。」
——独立开发者,GitHub Discussions

「WAN 2.1 接进去跑了一下,每帧画面动起来之后质感上去了一个档次,就是慢,一个视频要跑将近一个小时。」
——早期测试用户,B站评论区

「AIDC-AI 这个团队在 ComfyUI 生态里做了好几个工具,Pixelle-MCP 是其中一个,Pixelle-Video 算是往上游延伸——他们对 ComfyUI 的理解是够深的。」
——AI 工具关注者,知乎评论


博主点评

这几条评价里,那句”天花板比现在展示的高得多”是最准的。

Pixelle-Video 现在展示给你的功能,只是 ComfyUI 这个底层能做到的事情的一个子集。你往里接的工作流越多、越复杂,它能做的事情边界就越大。

这和那些功能列表固定、更新靠等官方的工具有本质不同——你自己就是它的开发者。


七、🎯 值不值得深入?我的判断

适合谁

  • • ✅ ComfyUI 老玩家:你已经有一堆工作流积累,想把它们整合进视频生产流水线
  • • ✅ Python 开发者:想搭批量生产系统、定时任务、无人值守内容工厂
  • • ✅ 注重视觉一致性的创作者:想通过自定义工作流和模板建立稳定的视觉 IP
  • • ✅ 不想被平台锁死的人:看重长期可控性,不想哪天平台改定价就被动

要说清楚的局限

  • • ⚠️ 接入自定义工作流有门槛:需要你懂 ComfyUI,知道节点 ID 怎么找,不是纯小白友好的操作
  • • ⚠️ AI 生视频模式(WAN 2.1)很慢:一个分镜几分钟,完整视频可能要一两个小时,GPU 配置低会更慢
  • • ⚠️ API 接口文档还不完善:批量调用目前需要自己看代码摸索,期待后续补文档
  • • ⚠️ 社区 Skill 库还小:比起 ComfyUI 主社区,Pixelle-Video 专属的工作流模板和踩坑经验还少

最后说一句

大多数 AI 工具给你的是一个功能,Pixelle-Video 给你的是一个引擎——引擎的价值,不是它现在能做什么,而是你能在它上面跑什么。

你的 ComfyUI 工作流积累、你的模板设计、你的批量脚本,都会沉淀成你专属的视频生产系统,别人复制不走。


GitHub 爆火的 “AI 编程驯化指南”: 一份 CLAUDE.md 文件如何让 AI 写出 senior 水平的代码
Hermes Agent 终于有了图形界面!终端控的噩梦结束了——hermes-web-ui 第一次体验实录
HeyGen 开源了一个炸弹:AI Agent 终于能剪视频了——HTML 进,MP4 出,零云端,零账号
一个文件、65行代码,让你的 Claude Code 从「自信菜鸟」变成老练工程师——56000 Star 的 CLAUDE.md 完全指南
GitHub 17.5k Star!这个开源项目要让你拥有一个「真正活着」的 AI 老婆
他们在 X 上说:「安装 5 分钟就被震撼了」——Hermes Agent 深度评测,附真实用户案例