乐于分享
好东西不私藏

阿里开源 AI 视频神器 Pixelle-Video!小白零剪辑,一键日更 5 条爆款短视频

阿里开源 AI 视频神器 Pixelle-Video!小白零剪辑,一键日更 5 条爆款短视频

项目背景:由AIDC-AI开源基于ComfyUI架构的一站式全自动 AI 短视频生成工具(非阿里达摩院直接开发,网传关联达摩院技术,实测核心功能稳定可用),GitHub目前3.7k+ Star,持续更新迭代,最新版本修复多项bug,优化部署体验。

核心功能

核心逻辑:输入主题/文案 → AI处理(文案/配图/配音) → 自动合成视频,全程无需打开任何剪辑软件,小白可直接操作,稳定出片。

文案生成

操作步骤:打开Web界面左侧“内容输入”,选择“AI生成内容”,输入主题(无需复杂描述),点击“生成文案”,等待10-20秒即可生成。

细节:

  • 输入主题“为什么年轻人开始拒绝加班”,生成150字左右文案(分5个段落,适配5个分镜,刚好对应1分30秒视频)。

  • 文案无废话,逻辑连贯

(例:“当代年轻人拒绝加班,不是懒,而是早已看清‘无效加班’的内耗——熬到深夜的疲惫,换不来对等的回报,反而透支健康与生活……”)。
  • 支持手动修改:生成后可直接在输入框编辑,比如调整语气、补充案例,修改后实时同步到后续环节。

  • 模型选择:实测通义千问(免费额度)生成文案最贴合中文语境,Ollama本地部署(需提前安装)无网络也可生成,GPT-4o需配置API Key,效果略优于通义千问但有成本。

配图生成

操作步骤:中间栏“视觉设置”,选择图像生成工作流(新手默认选“image_flux.json”),设置尺寸(竖屏1080×1920,适配抖音),输入提示词前缀,点击“预览风格”确认后,生成视频时自动匹配文案每一段生成配图。

细节:

  • 提示词无需复杂:输入“Minimalist black-and-white, simple sketch, work overtime theme”,生成的配图风格统一,无杂乱元素,贴合文案内容(如“拒绝加班”主题生成“办公桌前关灯离开”的简笔画)。

  • 生成速度:单张配图约15-20秒,5个分镜配图共耗时1分40秒,RTX 3060显卡可稳定运行,无卡顿。

  • 避坑点:若配图模糊/跑偏,可修改提示词(增加“high definition, clear lines”),或切换工作流为“Z-image”,实测效果更清晰;本地ComfyUI未部署成功时,无法生成配图,需先完成ComfyUI配置。

配音生成

操作步骤:中间栏“语音设置”,选择TTS工作流(新手选“edge-tts”,无需额外配置),选择音色(推荐“女声-温柔”,最自然),语速1.2x,输入测试文本点击“预览语音”,确认后生成视频时自动合成配音。

细节:

  • 声音克隆实测:上传30秒本人清晰录音(无杂音、正常语速),选择“index-tts”工作流,生成配音相似度约75-80%,语调略平淡,需手动调整语速(1.1x更自然),适合打造个人IP。
  • 稳定性:edge-tts无需配置API Key,联网即可使用,实测连续生成10条配音无失败,无卡顿。
  • 问题解决:若配音无声音,检查电脑音量,或重启Web界面(双击start.bat即可重启),一般是edge-tts服务未加载成功。

视频合成

操作步骤:右侧栏点击“生成视频”,实时查看进度(生成文案→生成配图→合成语音→合成视频),生成完成后自动预览,文件保存至“output”文件夹。

细节:

  • 耗时:5个分镜、1分30秒视频,全程耗时4分20秒(文案15秒+配图1分40秒+配音30秒+合成1分55秒)。
  • 输出效果:1080×1920竖屏,画面清晰,配音与字幕同步(自动生成字幕,无需手动添加),BGM音量适中(默认内置default.mp3,可替换为自己的音乐)。
  • 多平台适配:切换模板为“video_horizontal.html”,即可生成1920×1080横屏(适配B站),无需手动调整尺寸,实测切换后生成正常,无画面拉伸。

部署步骤

Windows用户(一键部署,实测10分钟搞)

  • 下载整合包:打开链接(https://github.com/AIDC-AI/Pixelle-Video/releases),找到“Pixelle-Video v0.1.15 – Windows一键整合包”,下载Assets中的压缩包(约2.8G,建议用迅雷下载,避免网络中断)
  • 解压文件:右键压缩包,选择“解压到当前文件夹”,无需新建文件夹,解压后约6.5G,确保磁盘有10G以上空闲空间。
  • 启动程序:打开解压后的文件夹,找到“start.bat”,双击运行(首次运行会弹出命令行窗口,加载依赖,约2-3分钟,不要关闭窗口)。
  • 自动打开Web界面:依赖加载完成后,浏览器会自动打开http://localhost:8501,无需手动输入网址。
  • 首次配置:
点击界面左侧“⚙️ 系统配置”,展开后:
LLM配置:选择“通义千问”,点击“获取API Key”,注册通义千问账号,复制API Key粘贴,Base URL和Model自动填充,点击“保存配置”;图像配置:新手无需额外配置(默认使用本地ComfyUI,若未部署,会自动提示,点击“跳过”,不影响基础使用,只是配图生成会慢一点)。
  • 开始生成视频:配置完成后,返回左侧“内容输入”,输入主题,依次确认配音、视觉设置,点击“生成视频”即可。

  • 实测坑点:首次双击start.bat可能无反应,重启电脑后再试;若浏览器未自动打开,手动输入http://localhost:8501即可;网络不稳定会导致依赖加载失败,建议连接有线网络。

Mac/Linux用户

  • 安装依赖:先安装uv(参考官方指南:https://docs.astral.sh/uv/),再安装ffmpeg(Mac:brew install ffmpeg;Ubuntu:sudo apt update && sudo apt install ffmpeg)。
  • 克隆项目:终端输入“git clone https://github.com/AIDC-AI/Pixelle-Video.git”,进入项目目录“cd Pixelle-Video”。
  • 启动Web界面:终端输入“uv run streamlit run web/app.py”,浏览器打开http://localhost:8501,后续配置与Windows一致。

成本实测

1. 纯免费本地方案(需独立显卡)

配置:Ollama本地部署(免费)+ ComfyUI本地部署(免费)+ Edge-TTS(免费)。

成本:0元/条,无任何费用。

实测要求:显卡需6G以上(RTX 3060及以上),否则配图生成卡顿、耗时过长。

适合人群:有独立显卡、愿意部署Ollama和ComfyUI的用户。

2. 性价比方案

配置:通义千问(免费额度+超出后0.001元/千tokens)+ ComfyUI本地(免费)+ Edge-TTS(免费)。

成本测算:单条视频文案约150字(约0.45千tokens),免费额度内0元;超出后,单条成本≈0.00045元,几乎可忽略,日更30条也仅0.0135元。
实测体验:无需部署Ollama,文案生成速度快,稳定性高,适合无高端显卡、不想折腾的小白。

3. 云端懒人方案

配置:GPT-4o(0.01美元/千tokens)+ RunningHub(图像生成0.5元/张)+ Edge-TTS(免费)。
成本测算:单条视频5张配图(2.5元)+ 文案0.01美元(约0.07元),合计≈2.57元/条,接近3元/条。
适合人群:无独立显卡、不想部署任何软件,追求快速出片的用户。

适合&不适合人群

适合

  • 知识解说类博主(读书、科普、职场技巧):输入主题即可生成完整解说视频,无需找素材。
  • 文章转视频博主:将现成文章粘贴到“固定文案内容”,一键生成视频,适配多平台。
  • 电商运营:生成商品介绍短视频(输入“XX产品的3个优势”),快速批量出片。
  • 教育机构:生成课程讲解片段,无需专业剪辑,降低制作成本。

不适合

  • 精细影视剪辑:需手动剪辑片段、调色、加转场,工具无法实现精细操作。
  • 真人剧情类视频:工具无真人出镜生成功能,仅能生成AI配图/视频,无法替代真人剧情。
  • 专业影视制作:画质、帧率无法达到专业级别(实测最高1080P,帧率30帧),不适合高端宣传片。

避坑指南

部署坑:Windows整合包解压后,千万不要移动文件夹位置,否则start.bat无法正常启动;若启动失败,删除文件夹,重新下载解压,大概率能解决。
配图坑:若生成配图与文案无关,检查提示词是否包含主题关键词,或切换工作流,实测“image_flux.json”最稳定,新手不建议随意更换。
文案坑:AI生成的文案开头较平淡,必须手动修改(例:原开头“年轻人拒绝加班是有原因的”,改为“每天加班到10点,月薪3000,年轻人终于忍不了了!”),完播率能提升30%以上。
硬件坑:无独立显卡的电脑,不建议用本地ComfyUI,配图生成耗时过长(核显生成1张配图,把电脑砸了吧),建议用RunningHub云端生成。
版本坑:不要下载旧版本(v0.1.10及以下),实测旧版本存在TTS不稳定、批量生成失败等问题,优先下载v0.1.15最新版本。

资源

项目地址:https://github.com/AIDC-AI/Pixelle-Video(可查看详细文档、提交问题)。
最新整合包下载:https://github.com/AIDC-AI/Pixelle-Video/releases(认准v0.1.15版本,Windows用户直接下载整合包)。
实操教程(B站,简单易懂):https://www.bilibili.com/video/BV1WzyGBnEVp/
交流群:GitHub README末尾有微信群二维码,可提问、获取部署帮助,群内活跃度高,问题能快速得到回复。

总结

Pixelle-Video不是“神器”,但确实是一款能提效的工具,适合小白、自媒体新人降低视频制作门槛。它能帮你省去剪辑、字幕、配音等重复劳动,但无法替代选题、文案优化、运营等核心工作,也有一些更简单的视频神器,不过花费也是,你懂的。
你可以将它当成辅助工具,而非全自动躺平工具,而对于不想学剪辑、想快速批量出片的人来说,已经足够实用。能节省大量时间,把精力放在更有价值的选题和运营上,这才是它的核心价值,即使质量可能有点低。