阿里开源 AI 全自动短视频引擎 · 一句话生成完整视频 |Github Daily

GitHub Daily

阿里开源 AI 全自动短视频引擎

一句话生成完整视频

2026年5月9日 · 星期六

做一条短视频要多久？写文案、找配图、录配音、剪视频、加字幕、配音乐……一套流程下来，半天时间就没了。今天介绍的这个项目，让「输入一个主题，3分钟出片」成为现实——Pixelle-Video，阿里巴巴 AIDC-AI 团队出品的 AI 全自动短视频引擎，Apache 2.0 协议完全开源。

📦 项目速览

项目名称

AIDC-AI/Pixelle-Video

GitHub Stars

11,400+ ⭐

编程语言

Python 3.8+

开源协议

Apache 2.0（可商用）

技术栈

ComfyUI + FastAPI + Wan 2.1

💡它能解决什么问题？

⏱ 短视频创作者的真实困境

写文案要憋半天，不知道怎么开头才能抓人
配图要去各大图库搜，还怕版权问题
配音要自己录，普通话不标准、声音不好听直接劝退
剪辑软件学习成本高，PR/AE 不是谁都能上手
日更账号压力大，一天生产5条视频根本不可能
多语言版本制作成本高，聘请配音演员费用昂贵

✨ Pixelle-Video 的解决方案

文案自动生成：接入通义千问/GPT-4o/DeepSeek，输入主题即出解说词
AI 配图自动生成：每句旁白自动生成匹配插图，FLUX/Wan/SDXL 随意切换
多语种语音合成：Edge-TTS 免费多语言配音，支持声音克隆
一键合成成片：素材自动拼接、字幕叠加、BGM 匹配，全程无人值守
批量生产模式：一次性提交多个主题，系统顺序自动处理
数字人口播：上传照片即可生成真人出镜播报视频

🚀核心亮点

🏗️ 四层架构设计（核心技术解析）

🖥️ Streamlit Web UI · http://localhost:8501

↓

⚡ FastAPI 后端 · http://localhost:8000

↓

🎛️ PixelleVideoCore 协调中枢

LLM Service

TTSService

MediaService

VideoService

↓

🔌 ComfyKit 统一抽象层（架构精髓）

↓

🖥️ 本地 ComfyUI · 完全免费

☁️ RunningHub 云端 · 按量付费

8步自动化生命周期

从环境初始化到成片输出，系统分为8个明确阶段：[1/8]初始化 → [2/8]生成文案 → [3/8]确定标题 → [4/8]规划视觉 → [5/8]初始化分镜 → [6/8]素材生产 → [7/8]后期合成 → [8/8]持久化。音频时长自动决定视频片段长度，架构级音画同步保证。

ComfyKit 统一抽象层

所有媒体生成能力（TTS/图像/视频）统一封装在 ComfyKit 接口后。每个能力对应一个 ComfyUI 工作流 JSON 文件。管线与具体模型真正解耦——切换模型只需更换工作流文件，无需改动一行代码。

丰富模板体系

11种场景模板 × 3种尺寸规格：竖屏9:16（抖音/小红书）、横屏16:9（B站/YouTube）、方形1:1（Instagram）。视觉风格涵盖现代感、优雅书卷、赛博朋克、治愈系等7种。

数字人 + 动作迁移

2026年重磅更新：上传一张照片即可生成多语言数字人口播视频，口型同步自然；上传参考视频+静态图片，AI 将视频动作精准迁移到图片人物，支持跳舞、手势、表情迁移。

多模型灵活切换

LLM 支持通义千问/GPT-4o/DeepSeek/Ollama 本地；图像支持 FLUX/SDXL/Qwen；视频支持 Wan 2.1/Wan 2.2/Nano Banana；TTS 支持 Edge-TTS/Index-TTS/ChatTTS。按需选择，成本可控。

本地 + 云端双模式

有显卡？本地 ComfyUI 部署，数据不出本机，完全免费。无显卡？RunningHub 云端调用，按量付费，48G 高配机器也支持。同一套代码，两种运行方式随意切换。

📊 与主流工具对比

对比维度	Pixelle-Video	可灵 AI 2.0	Runway Gen-4	HeyGen
开发商	阿里巴巴 AIDC-AI	快手	Runway	HeyGen
费用	完全免费开源	¥66/月	$15/月	$29/月
全流程自动化	✅ 文案→成片	❌ 仅视频生成	❌ 仅视频生成	❌ 仅数字人
本地部署	✅ 数据完全私有	❌ 仅云端	❌ 仅云端	❌ 仅云端
多语言支持	✅ 中/英/韩等	主要中文	多语言	130+语言

🎯实战场景展示

📚 场景一：知识博主日更5条短视频

某心理学公众号博主需要每天发布5条心理学科普短视频，用于引流到公众号。

1准备好5个主题：为什么越努力越焦虑、3个瞬间判断一个人是否可信...

2在 Pixelle-Video Web 界面选择「批量生成」模式，粘贴所有主题

3选择 image_psychology_card 模板（小红书爆款结构）

4TTS 选择 [zh-CN-Yunjian] 音色，语速 1.2x

5点击生成，30分钟后收到5条成片。传统方式需要一整天。

💰 成本对比

传统方式：剪辑师成本约 500元/条 × 5 = 2500元/天。使用 Pixelle-Video：电费 + API 费用 ≈ 5元/天，成本降低 99.8%。

🌍 场景二：跨境电商多语言产品介绍

跨境电商卖家需要为同一款产品制作中、英、韩三语介绍视频，用于不同市场的商品页面。

1输入主题：XX蓝牙耳机：降噪深度-48dB，续航30小时，IP55防水

2中文版：TTS 选中文音色，生成后下载

3英文版：切换 LLM 为英文提示词，TTS 选 [en-US-Jenny]

4韩语版：LLM 切换为韩语提示词，TTS 选韩语音色

5三条视频总耗时约15分钟。过去聘请三语配音演员需要3-5天，成本超2000元。

🎓 场景三：教育机构课程视频批量制作

某在线教育平台需要将100节课程大纲转化为短视频，用于社群运营和课程售卖转化。

1将课程大纲整理为文本文件，每行一个知识点

2使用「固定文案内容」模式，粘贴知识点文本

3选择 image_elegant 模板（书卷风，适合教育内容）

4Python API 批量调用：pixelle.generate_video(text=line)

5100节短视频自动生成，单节成本接近0，总耗时约2小时（传统方式需要2周）。

📖上手指南

Pixelle-Video 提供三种部署方式，任选其一即可。推荐新手使用 Windows 一键整合包。

# 方式一：Windows 一键整合包（新手推荐）Bash

# 步骤1：访问 GitHub Releases 下载整合包

# https://github.com/AIDC-AI/Pixelle-Video/releases

# 步骤2：解压到非中文路径（重要！）

# 步骤3：双击运行 start.bat

# 步骤4：浏览器自动打开 http://localhost:8501

# 步骤5：在「系统配置」面板配置 LLM API Key，点击保存# 常见问题：启动失败？

# 1. 确认解压路径不含中文或特殊字符

# 2. 以管理员身份运行 start.bat

# 3. 关闭杀毒软件后重试

# 4. 删除文件夹重新解压

# 方式二：从源码安装（macOS / Linux / 高级用户）Bash

# 步骤1：安装 uv（现代 Python 包管理器）

if [ "$(uname)" = "Darwin" ] || [ "$(uname)" = "Linux" ];

then     curl -LsSf https://astral.sh/uv/install.sh | sh

fi

# 步骤2：安装 FFmpeg（视频处理依赖）

# macOS:

brew install ffmpeg

# Ubuntu:

sudo apt update && sudo apt install ffmpeg

# 步骤3：克隆项目

git clone https://github.com/AIDC-AI/Pixelle-Video.git

cd Pixelle-Video

# 步骤4：启动 Web 界面（uv 会自动创建虚拟环境并安装依赖）

uv run streamlit run web/app.py

# 访问 http://localhost:8501

# 方式三：Docker 部署（服务器部署推荐）Bash

# 克隆项目

git clone https://github.com/AIDC-AI/Pixelle-Video.git

cd Pixelle-Video

# 构建镜像（国内网络开启镜像加速）

exportUSE_CN_MIRROR="true"

docker compose build --no-cache

# 启动容器

exportUSE_CN_MIRROR="true"

docker compose up -d

# 访问地址：

# Web 界面：http://localhost:8501

# API 接口：http://localhost:8000

⚙️ 关键配置说明

LLM 配置（config.yaml）：

• 通义千问（推荐）：base_url=https://dashscope.aliyuncs.com/compatible-mode/v1，model=qwen-plus，费用极低• DeepSeek（高性价比）：base_url=https://api.deepseek.com/v1，model=deepseek-chat• 本地免费：base_url=http://localhost:11434/v1，model=qwen2.5:7b，需先安装 Ollama

ComfyUI 本地配置（有显卡用户）：

• 访问 https://comfy.org/download 安装 ComfyUI• 启动后确认可访问 http://127.0.0.1:8188• 重要：在 ComfyUI 中加载 workflows/selfhost/analyse_image.json（必须先做！）• 在 Pixelle-Video 配置页面填写 ComfyUI 地址，保存

# Python API 调用示例（批量集成用）Python

from pixelle_video.service

import PixelleVideoCore

# 初始化核心引擎

pixelle = PixelleVideoCore()

await pixelle.initialize()

# 生成单个视频

result = await pixelle.generate_video(

    text="为什么要养成阅读习惯",

    mode="generate",

    n_scenes=5,

    frame_template="1080x1920/image_default.html",

    tts_workflow="tts_edge.json",

    media_workflow="image_flux.json")

    print(f"视频已生成：{result['video_path']}")

# 批量生成（读取主题列表文件）

with open("topics.txt") as f:

  topics = [line.strip() for line in f if line.strip()]

for topic in topics:

    result = await pixelle.generate_video(text=topic)

print(f"✅ {topic} → {result['video_path']}")

🛠️常见问题 FAQ

Q：ComfyUI 报错"缺失节点"怎么办？

A：这是最常见的坑！必须在 ComfyUI 界面中加载 workflows/selfhost/ 目录下的所有 JSON 工作流文件（尤其是 analyse_image.json），让 ComfyUI 自动安装缺失的自定义节点，每个文件加载后需点击运行等待完成。

Q：TTS 生成失败？

A：检查 config.yaml 中 tts.default_workflow 路径是否正确；确认网络可访问微软 Edge-TTS 服务；检查防火墙是否放行 443 端口；项目在 2025-12-10 更新中已锁定 edge-tts 版本，建议更新到最新版。

Q：生成视频的画质和帧率如何？

A：当前版本主打短视频场景，输出最高 1080P、30帧。画质取决于所选的生图/生视频模型——用 FLUX.1-dev 生成的图像质量极高，用 Wan 2.1 生成的视频流畅度较好。专业影视级需求建议使用 Runway 等工具。

Q：可以用于商业用途吗？

A：可以！项目采用 Apache 2.0 协议，允许商业使用。但需注意：使用的 AI 模型（如 FLUX、Wan 2.1）可能有独立的许可协议，商用前请确认各模型的商业使用条款。

📝 今日总结

🎯 定位

阿里巴巴开源的 AI 全自动短视频引擎，Apache 2.0 协议，完全免费

✨ 核心价值

输入主题 → 自动生成文案/配图/配音/字幕/成片，全流程无人值守

🏗️ 技术亮点

ComfyKit 统一抽象层，8步生命周期，本地/云端双模式，数字人+动作迁移

📈 适用人群

知识博主、跨境电商、教育机构、自媒体运营、有任何批量视频制作需求的人

🌟 立即体验 Pixelle-Video

完全开源免费 · 本地部署数据私有 · 3分钟出片

⭐ GitHub 仓库📚 官方文档