
你有没有想过,完全不联网、不花一分钱 API 费用,输入一个主题就能自动生成一条完整的短视频?
今天要分享的是一套完全离线运行的 AI 短视频生成方案:MoneyPrinterTurbo + llama.cpp 本地大模型。
不需要 GPU 云服务,不需要 OpenAI/DeepSeek API Key,不需要折腾环境变量。一台普通电脑就能跑,而且我们把它做成了一键部署包。
一、这套方案能做什么?
先看全流程:
输入主题 → 本地 AI 写脚本 → 自动匹配视频素材 → AI 配音 → 自动字幕 → 合成短视频↑ ↑ ↑ ↑ ↑ ↓你的一句话 完全离线! 需要网络下载素材 内置 自动生成 可发布
核心能力:
本地 AI 写脚本 — 用 llama.cpp 在本地运行大模型,不依赖任何云端 API 自动找素材 — 从 Pexels/Pixabay 免费图库匹配视频画面 AI 配音 — Edge TTS,支持中文男女声、英文、日文 自动字幕 — 字体、大小、颜色均可自定义 Web 界面操作 — 浏览器打开直接用,无需命令行
和纯云端方案的区别:
| 完全免费 | ||
| 一键部署,零配置 |
二、一键部署包
我们打包了一个一体化便携版,包含:
MoneyPrinterTurbo-LocalLLM-Portable.zip├── deploy.bat ← 部署向导(首次运行)├── deploy.ps1 ← 部署脚本├── start.bat ← 一键启动(日常使用)├── config.toml ← 已预配置为本地模型├── README.txt├── mpt/ ← MoneyPrinterTurbo 程序│ ├── main.py / webui.py / app/ / resource/│ └── requirements.txt├── llama/ ← llama.cpp 引擎 (b9544)│ ├── llama-server.exe│ ├── ggml-vulkan.dll ← Vulkan 后端(通用)│ ├── ggml-cpu-*.dll ← CPU 后端│ ├── cuda/│ │ ├── ggml-cuda.dll ← CUDA 后端(NVIDIA)│ │ └── llama-server.exe ← CUDA 优化版│ └── models/ ← 模型下载到此目录└── README.txt
系统要求
Windows 10/11 64位 Python 3.10+(从 python.org 下载,安装时勾选 "Add Python to PATH") 8GB+ 内存(推荐 16GB+) 网络连接(部署时需要下载模型,日常使用中只有视频素材需要网络) 独立显卡(可选,有 GPU 效果更好,CPU 也能跑)
三、部署教程
整个部署过程只需要双击两个文件。
第一步:运行 deploy.bat(部署向导)
部署向导会按顺序做 6 件事:
① 检测硬件 → 自动推荐 llama.cpp 版本
这是最重要的一步。llama.cpp 有多个版本(后端),不同显卡需要用不同的版本才能发挥最佳性能:
你的显卡决定了你应该用哪个版本:
| NVIDIA GeForce | [2] CUDA | ||
| NVIDIA / AMD Radeon / Intel Arc | [1] Vulkan | ||
| [3] CPU-only |
部署向导启动后,会自动检测你的 GPU 型号,并默认选中推荐的后端——你只需要确认按回车就行:
GPU: NVIDIA GeForce RTX 4070 (12GB VRAM) ← 自动检测╔══ Your GPU: NVIDIA ═══════════════════════╗║ [1] VULKAN (已包含) ║║ 通用方案,所有显卡都能用 ✓ ║║ [2] CUDA (推荐 ⭐) ║║ NVIDIA 专用,速度最快(快 20~40%) ║╚═══════════════════════════════════════════╝Select backend (default: 2): _
看到上面的 default: 2 了吗?因为检测到你的显卡是 NVIDIA,向导自动预选了 CUDA。你只需要直接按回车,或者输入 1 选 Vulkan。
三种情况:
NVIDIA 用户 → 默认选中 [2] CUDA(包内已包含 CUDA 后端,部署时自动激活) AMD / Intel Arc 用户 → 默认选中 [1] Vulkan(包内已包含,直接使用) 无独显用户 → 默认选中 [1] Vulkan(自动回退 CPU),或手动选 [3] CPU-only 更省空间 💡 选错了也没关系,随时可以重新运行
deploy.bat切换后端,所有文件都在包内,无需重新下载。
② 选择 AI 模型(自动扫描本地模型)
部署向导会先扫描 llama\models\ 目录,如果你已经放入了 .gguf 文件,会直接显示出来让你选:
Local models found in llama\models\:[1] my-custom-model.gguf (4280 MB)[2] qwen2.5-7b-instruct-q3_k_m.gguf (3372 MB)Or download a new model:[3] Qwen2.5-7B-Instruct (Q3_K_M) -- 3.3 GB[4] Qwen3.6-35B-A3B (IQ4_NL) -- 18.8 GB[5] Custom GGUF model URL (advanced)
直接输入编号就能用本地模型,不需要下载。如果没有本地模型,则显示下载选项。
根据你的硬件配置,推荐适合的模型:
部署向导会自动根据你的硬件推荐一个默认选项,你也可以自由选择。
③ 自动创建 Python 环境
自动创建虚拟环境(venv) 自动 pip install 所有依赖 不需要手动安装任何包
④ 下载 AI 模型
从 hf-mirror.com 国内镜像下载 支持断点续传(BITS 传输) 进度实时显示
⑤ 自动配置所有参数
根据你的显卡显存自动设置 GPU 层数(-ngl) 根据内存大小自动设置上下文长度 生成 llama.cpp 启动配置 配置 MoneyPrinterTurbo 指向本地模型
整个部署过程大约需要 10~30 分钟(取决于模型大小和网速),之后就不需要再跑了。
第二步:双击 start.bat(一键启动)
部署完成后,日常使用只需要双击 start.bat,它会依次启动:
llama.cpp 本地模型服务器(端口 8081) MoneyPrinterTurbo API 后端(端口 8080) Web UI 前端(端口 8501)
等待约 15~30 秒(取决于模型加载速度),然后打开浏览器访问:
http://127.0.0.1:8501
💡 关闭窗口即停止所有服务,下次再双击 start.bat 即可继续使用。
四、使用教程:生成第一条视频
4.1 生成脚本
打开 Web UI 后,进入 「生成脚本」 标签页:
在「视频主题」输入主题,比如 "SSD 为什么比机械硬盘快" 选择语言:中文 点击 「生成脚本」
本地大模型会在 5~15 秒内生成一段完整的视频文案。
4.2 生成视频
切换到 「生成视频」 标签页,配置参数:
点击 「开始生成视频」,系统会自动完成:生成脚本 → 搜索素材 → 配音 → 字幕 → 合成。
4.3 查看和下载
切换到 「任务管理」 标签页,可以查看生成进度、在线预览和下载成品视频。
五、进阶技巧
更换更好的模型
如果你后来升级了显卡或想试试别的模型,只需重新运行 deploy.bat,选择新的模型即可。已下载的模型不会重复下载。
手动调整 GPU 参数
编辑 llama\run_server.bat,可以手动调整:
-ngl 99 ← 把所有层都 offload 到 GPU(速度最快,要求显存够大)-ngl 20 ← 只 offload 20 层到 GPU(平衡模式)-c 8192 ← 上下文长度(越大越吃显存和内存)
自定义脚本
AI 生成的脚本有时比较模板化。可以在 Web UI 中手动编辑脚本,让文案更贴合你的风格。
六、常见问题
Q:部署时需要 Python 吗?
A: 需要 Python 3.10+。这是唯一的系统依赖。从 python.org 下载安装,安装时勾选 "Add Python to PATH" 即可。
Q:没有独立显卡能跑吗?
A: 能。部署向导会自动检测到你的电脑没有独显,默认选中 Vulkan 后端(自动使用 CPU 运行),也可以手动选 CPU-only。选择轻量版模型(Qwen2.5-7B)效果更好。生成脚本会慢一些(15~30 秒),但完全可用。
Q:模型下载太慢怎么办?
A: 我们默认使用 hf-mirror.com 国内镜像,速度应该不错。如果还是慢,可以手动用下载工具下载后放到 llama\models\ 目录下。
Q:视频生成速度如何?
A: 脚本生成(本地 LLM)约 5~15 秒;视频合成(素材下载+配音+字幕)约 1~3 分钟,取决于素材网络下载速度。
Q:生成的视频可以商用吗?
A: MoneyPrinterTurbo 使用 MIT 开源协议。视频素材来自 Pexels/Pixabay(免费可商用),配音来自 Edge TTS。建议发布前确认素材的具体授权条款。
Q:关闭窗口后所有服务都会停吗?
A: 是的。start.bat 窗口关闭时会自动 taskkill python 和 llama-server 进程。不用担心后台残留。
七、写在最后
这套方案最大的价值是完全离线、完全免费。
不需要每个月交 API 订阅费,不需要担心数据隐私,不需要依赖网络状况。一台普通的 Windows 电脑,解压、部署、启动,三步走完就能开始生成 AI 短视频。
如果你正在做短视频运营、知识科普或内容创作,不妨试试这套完全离线的方案——可能比你想象的要简单得多。
工具获取:私信 "1181"
关键词: AI视频生成、本地大模型、llama.cpp、MoneyPrinterTurbo、离线AI、短视频工具、一键部署
夜雨聆风