阿里开源 AI 全自动短视频引擎
一句话生成完整视频
2026年5月9日 · 星期六
做一条短视频要多久?写文案、找配图、录配音、剪视频、加字幕、配音乐……一套流程下来,半天时间就没了。今天介绍的这个项目,让「输入一个主题,3分钟出片」成为现实——Pixelle-Video,阿里巴巴 AIDC-AI 团队出品的 AI 全自动短视频引擎,Apache 2.0 协议完全开源。
📦 项目速览
💡它能解决什么问题?
⏱ 短视频创作者的真实困境
写文案要憋半天,不知道怎么开头才能抓人
配图要去各大图库搜,还怕版权问题
配音要自己录,普通话不标准、声音不好听直接劝退
剪辑软件学习成本高,PR/AE 不是谁都能上手
日更账号压力大,一天生产5条视频根本不可能
多语言版本制作成本高,聘请配音演员费用昂贵
✨ Pixelle-Video 的解决方案
文案自动生成:接入通义千问/GPT-4o/DeepSeek,输入主题即出解说词
AI 配图自动生成:每句旁白自动生成匹配插图,FLUX/Wan/SDXL 随意切换
多语种语音合成:Edge-TTS 免费多语言配音,支持声音克隆
一键合成成片:素材自动拼接、字幕叠加、BGM 匹配,全程无人值守
批量生产模式:一次性提交多个主题,系统顺序自动处理
数字人口播:上传照片即可生成真人出镜播报视频
🚀核心亮点
🏗️ 四层架构设计(核心技术解析)
8步自动化生命周期
从环境初始化到成片输出,系统分为8个明确阶段:[1/8]初始化 → [2/8]生成文案 → [3/8]确定标题 → [4/8]规划视觉 → [5/8]初始化分镜 → [6/8]素材生产 → [7/8]后期合成 → [8/8]持久化。音频时长自动决定视频片段长度,架构级音画同步保证。
ComfyKit 统一抽象层
所有媒体生成能力(TTS/图像/视频)统一封装在 ComfyKit 接口后。每个能力对应一个 ComfyUI 工作流 JSON 文件。管线与具体模型真正解耦——切换模型只需更换工作流文件,无需改动一行代码。
丰富模板体系
11种场景模板 × 3种尺寸规格:竖屏9:16(抖音/小红书)、横屏16:9(B站/YouTube)、方形1:1(Instagram)。视觉风格涵盖现代感、优雅书卷、赛博朋克、治愈系等7种。
数字人 + 动作迁移
2026年重磅更新:上传一张照片即可生成多语言数字人口播视频,口型同步自然;上传参考视频+静态图片,AI 将视频动作精准迁移到图片人物,支持跳舞、手势、表情迁移。
多模型灵活切换
LLM 支持通义千问/GPT-4o/DeepSeek/Ollama 本地;图像支持 FLUX/SDXL/Qwen;视频支持 Wan 2.1/Wan 2.2/Nano Banana;TTS 支持 Edge-TTS/Index-TTS/ChatTTS。按需选择,成本可控。
本地 + 云端双模式
有显卡?本地 ComfyUI 部署,数据不出本机,完全免费。无显卡?RunningHub 云端调用,按量付费,48G 高配机器也支持。同一套代码,两种运行方式随意切换。
| Pixelle-Video | ||||
|---|---|---|---|---|
| 开发商 | 阿里巴巴 AIDC-AI | |||
| 费用 | 完全免费开源 | |||
| 全流程自动化 | ✅ 文案→成片 | |||
| 本地部署 | ✅ 数据完全私有 | |||
| 多语言支持 | ✅ 中/英/韩等 |
🎯实战场景展示
📚 场景一:知识博主日更5条短视频
某心理学公众号博主需要每天发布5条心理学科普短视频,用于引流到公众号。
为什么越努力越焦虑、3个瞬间判断一个人是否可信...image_psychology_card 模板(小红书爆款结构)[zh-CN-Yunjian] 音色,语速 1.2x传统方式:剪辑师成本约 500元/条 × 5 = 2500元/天。使用 Pixelle-Video:电费 + API 费用 ≈ 5元/天,成本降低 99.8%。
🌍 场景二:跨境电商多语言产品介绍
跨境电商卖家需要为同一款产品制作中、英、韩三语介绍视频,用于不同市场的商品页面。
XX蓝牙耳机:降噪深度-48dB,续航30小时,IP55防水[en-US-Jenny]🎓 场景三:教育机构课程视频批量制作
某在线教育平台需要将100节课程大纲转化为短视频,用于社群运营和课程售卖转化。
image_elegant 模板(书卷风,适合教育内容)pixelle.generate_video(text=line)📖上手指南
Pixelle-Video 提供三种部署方式,任选其一即可。推荐新手使用 Windows 一键整合包。
# 步骤1:访问 GitHub Releases 下载整合包# https://github.com/AIDC-AI/Pixelle-Video/releases# 步骤2:解压到非中文路径(重要!)# 步骤3:双击运行 start.bat# 步骤4:浏览器自动打开 http://localhost:8501# 步骤5:在「系统配置」面板配置 LLM API Key,点击保存# 常见问题:启动失败?
# 1. 确认解压路径不含中文或特殊字符# 2. 以管理员身份运行 start.bat# 3. 关闭杀毒软件后重试# 4. 删除文件夹重新解压# 步骤1:安装 uv(现代 Python 包管理器)if [ "$(uname)" = "Darwin" ] || [ "$(uname)" = "Linux" ];
then curl -LsSf https://astral.sh/uv/install.sh | sh
fi# 步骤2:安装 FFmpeg(视频处理依赖)# macOS:brew install ffmpeg# Ubuntu:sudo apt update && sudo apt install ffmpeg
# 步骤3:克隆项目git clone https://github.com/AIDC-AI/Pixelle-Video.git cd Pixelle-Video# 步骤4:启动 Web 界面(uv 会自动创建虚拟环境并安装依赖)uv run streamlit run web/app.py# 访问 http://localhost:8501# 克隆项目git clone https://github.com/AIDC-AI/Pixelle-Video.git cd Pixelle-Video# 构建镜像(国内网络开启镜像加速)exportUSE_CN_MIRROR="true"
docker compose build --no-cache# 启动容器exportUSE_CN_MIRROR="true"
docker compose up -d# 访问地址:# Web 界面:http://localhost:8501# API 接口:http://localhost:8000LLM 配置(config.yaml):
• 通义千问(推荐):base_url=https://dashscope.aliyuncs.com/compatible-mode/v1,model=qwen-plus,费用极低• DeepSeek(高性价比):base_url=https://api.deepseek.com/v1,model=deepseek-chat• 本地免费:base_url=http://localhost:11434/v1,model=qwen2.5:7b,需先安装 Ollama
ComfyUI 本地配置(有显卡用户):
• 访问 https://comfy.org/download 安装 ComfyUI• 启动后确认可访问 http://127.0.0.1:8188• 重要:在 ComfyUI 中加载 workflows/selfhost/analyse_image.json(必须先做!)• 在 Pixelle-Video 配置页面填写 ComfyUI 地址,保存
from pixelle_video.service
import PixelleVideoCore
# 初始化核心引擎pixelle = PixelleVideoCore()await pixelle.initialize()
# 生成单个视频result = await pixelle.generate_video(
text="为什么要养成阅读习惯",
mode="generate",
n_scenes=5,
frame_template="1080x1920/image_default.html",
tts_workflow="tts_edge.json",
media_workflow="image_flux.json")
print(f"视频已生成:{result['video_path']}")
# 批量生成(读取主题列表文件)with open("topics.txt") as f:
topics = [line.strip() for line in f if line.strip()]
for topic in topics:
result = await pixelle.generate_video(text=topic)
print(f"✅ {topic} → {result['video_path']}")
🛠️常见问题 FAQ
Q:ComfyUI 报错"缺失节点"怎么办?
A:这是最常见的坑!必须在 ComfyUI 界面中加载 workflows/selfhost/ 目录下的所有 JSON 工作流文件(尤其是 analyse_image.json),让 ComfyUI 自动安装缺失的自定义节点,每个文件加载后需点击运行等待完成。
Q:TTS 生成失败?
A:检查 config.yaml 中 tts.default_workflow 路径是否正确;确认网络可访问微软 Edge-TTS 服务;检查防火墙是否放行 443 端口;项目在 2025-12-10 更新中已锁定 edge-tts 版本,建议更新到最新版。
Q:生成视频的画质和帧率如何?
A:当前版本主打短视频场景,输出最高 1080P、30帧。画质取决于所选的生图/生视频模型——用 FLUX.1-dev 生成的图像质量极高,用 Wan 2.1 生成的视频流畅度较好。专业影视级需求建议使用 Runway 等工具。
Q:可以用于商业用途吗?
A:可以!项目采用 Apache 2.0 协议,允许商业使用。但需注意:使用的 AI 模型(如 FLUX、Wan 2.1)可能有独立的许可协议,商用前请确认各模型的商业使用条款。
📝 今日总结
🌟 立即体验 Pixelle-Video
完全开源免费 · 本地部署数据私有 · 3分钟出片
夜雨聆风