阿里开源 AI 视频神器 Pixelle-Video!小白零剪辑,一键日更 5 条爆款短视频
项目背景:由AIDC-AI开源基于ComfyUI架构的一站式全自动 AI 短视频生成工具(非阿里达摩院直接开发,网传关联达摩院技术,实测核心功能稳定可用),GitHub目前3.7k+ Star,持续更新迭代,最新版本修复多项bug,优化部署体验。
核心功能
核心逻辑:输入主题/文案 → AI处理(文案/配图/配音) → 自动合成视频,全程无需打开任何剪辑软件,小白可直接操作,稳定出片。
文案生成
操作步骤:打开Web界面左侧“内容输入”,选择“AI生成内容”,输入主题(无需复杂描述),点击“生成文案”,等待10-20秒即可生成。
细节:
-
输入主题“为什么年轻人开始拒绝加班”,生成150字左右文案(分5个段落,适配5个分镜,刚好对应1分30秒视频)。
-
文案无废话,逻辑连贯
-
支持手动修改:生成后可直接在输入框编辑,比如调整语气、补充案例,修改后实时同步到后续环节。
-
模型选择:实测通义千问(免费额度)生成文案最贴合中文语境,Ollama本地部署(需提前安装)无网络也可生成,GPT-4o需配置API Key,效果略优于通义千问但有成本。
配图生成
操作步骤:中间栏“视觉设置”,选择图像生成工作流(新手默认选“image_flux.json”),设置尺寸(竖屏1080×1920,适配抖音),输入提示词前缀,点击“预览风格”确认后,生成视频时自动匹配文案每一段生成配图。
细节:
-
提示词无需复杂:输入“Minimalist black-and-white, simple sketch, work overtime theme”,生成的配图风格统一,无杂乱元素,贴合文案内容(如“拒绝加班”主题生成“办公桌前关灯离开”的简笔画)。
-
生成速度:单张配图约15-20秒,5个分镜配图共耗时1分40秒,RTX 3060显卡可稳定运行,无卡顿。
-
避坑点:若配图模糊/跑偏,可修改提示词(增加“high definition, clear lines”),或切换工作流为“Z-image”,实测效果更清晰;本地ComfyUI未部署成功时,无法生成配图,需先完成ComfyUI配置。
配音生成
操作步骤:中间栏“语音设置”,选择TTS工作流(新手选“edge-tts”,无需额外配置),选择音色(推荐“女声-温柔”,最自然),语速1.2x,输入测试文本点击“预览语音”,确认后生成视频时自动合成配音。
细节:
-
声音克隆实测:上传30秒本人清晰录音(无杂音、正常语速),选择“index-tts”工作流,生成配音相似度约75-80%,语调略平淡,需手动调整语速(1.1x更自然),适合打造个人IP。 -
稳定性:edge-tts无需配置API Key,联网即可使用,实测连续生成10条配音无失败,无卡顿。 -
问题解决:若配音无声音,检查电脑音量,或重启Web界面(双击start.bat即可重启),一般是edge-tts服务未加载成功。
视频合成
操作步骤:右侧栏点击“生成视频”,实时查看进度(生成文案→生成配图→合成语音→合成视频),生成完成后自动预览,文件保存至“output”文件夹。
细节:
-
耗时:5个分镜、1分30秒视频,全程耗时4分20秒(文案15秒+配图1分40秒+配音30秒+合成1分55秒)。 -
输出效果:1080×1920竖屏,画面清晰,配音与字幕同步(自动生成字幕,无需手动添加),BGM音量适中(默认内置default.mp3,可替换为自己的音乐)。 -
多平台适配:切换模板为“video_horizontal.html”,即可生成1920×1080横屏(适配B站),无需手动调整尺寸,实测切换后生成正常,无画面拉伸。
部署步骤
Windows用户(一键部署,实测10分钟搞)
-
下载整合包:打开链接(https://github.com/AIDC-AI/Pixelle-Video/releases),找到“Pixelle-Video v0.1.15 – Windows一键整合包”,下载Assets中的压缩包(约2.8G,建议用迅雷下载,避免网络中断) -
解压文件:右键压缩包,选择“解压到当前文件夹”,无需新建文件夹,解压后约6.5G,确保磁盘有10G以上空闲空间。 -
启动程序:打开解压后的文件夹,找到“start.bat”,双击运行(首次运行会弹出命令行窗口,加载依赖,约2-3分钟,不要关闭窗口)。 -
自动打开Web界面:依赖加载完成后,浏览器会自动打开http://localhost:8501,无需手动输入网址。 -
首次配置:
-
开始生成视频:配置完成后,返回左侧“内容输入”,输入主题,依次确认配音、视觉设置,点击“生成视频”即可。
-
实测坑点:首次双击start.bat可能无反应,重启电脑后再试;若浏览器未自动打开,手动输入http://localhost:8501即可;网络不稳定会导致依赖加载失败,建议连接有线网络。
Mac/Linux用户
-
安装依赖:先安装uv(参考官方指南:https://docs.astral.sh/uv/),再安装ffmpeg(Mac:brew install ffmpeg;Ubuntu:sudo apt update && sudo apt install ffmpeg)。 -
克隆项目:终端输入“git clone https://github.com/AIDC-AI/Pixelle-Video.git”,进入项目目录“cd Pixelle-Video”。 -
启动Web界面:终端输入“uv run streamlit run web/app.py”,浏览器打开http://localhost:8501,后续配置与Windows一致。
成本实测
1. 纯免费本地方案(需独立显卡)
配置:Ollama本地部署(免费)+ ComfyUI本地部署(免费)+ Edge-TTS(免费)。
成本:0元/条,无任何费用。
实测要求:显卡需6G以上(RTX 3060及以上),否则配图生成卡顿、耗时过长。
适合人群:有独立显卡、愿意部署Ollama和ComfyUI的用户。
2. 性价比方案
配置:通义千问(免费额度+超出后0.001元/千tokens)+ ComfyUI本地(免费)+ Edge-TTS(免费)。
3. 云端懒人方案
适合&不适合人群
适合
-
知识解说类博主(读书、科普、职场技巧):输入主题即可生成完整解说视频,无需找素材。
-
文章转视频博主:将现成文章粘贴到“固定文案内容”,一键生成视频,适配多平台。
-
电商运营:生成商品介绍短视频(输入“XX产品的3个优势”),快速批量出片。
-
教育机构:生成课程讲解片段,无需专业剪辑,降低制作成本。
不适合
-
精细影视剪辑:需手动剪辑片段、调色、加转场,工具无法实现精细操作。
-
真人剧情类视频:工具无真人出镜生成功能,仅能生成AI配图/视频,无法替代真人剧情。
-
专业影视制作:画质、帧率无法达到专业级别(实测最高1080P,帧率30帧),不适合高端宣传片。
夜雨聆风