完全离线的 AI 短视频工具:MoneyPrinterTurbo + LLAMA.CPP本地大模型,一键部署

你有没有想过，完全不联网、不花一分钱 API 费用，输入一个主题就能自动生成一条完整的短视频？

今天要分享的是一套完全离线运行的 AI 短视频生成方案：MoneyPrinterTurbo + llama.cpp 本地大模型。

不需要 GPU 云服务，不需要 OpenAI/DeepSeek API Key，不需要折腾环境变量。一台普通电脑就能跑，而且我们把它做成了一键部署包。

一、这套方案能做什么？

先看全流程：

输入主题 → 本地 AI 写脚本 → 自动匹配视频素材 → AI 配音 → 自动字幕 → 合成短视频     ↑            ↑                    ↑             ↑          ↑          ↓  你的一句话   完全离线！         需要网络下载素材    内置    自动生成      可发布

核心能力：

本地 AI 写脚本 — 用 llama.cpp 在本地运行大模型，不依赖任何云端 API
自动找素材 — 从 Pexels/Pixabay 免费图库匹配视频画面
AI 配音 — Edge TTS，支持中文男女声、英文、日文
自动字幕 — 字体、大小、颜色均可自定义
Web 界面操作 — 浏览器打开直接用，无需命令行

和纯云端方案的区别：

对比项	云端 API 方案	本地方案（本文）
网络依赖	必须联网	脚本生成完全离线，仅素材需要网络
费用	按 token 计费	完全免费
隐私	数据上传云端	数据不出本地
脚本质量	GPT-4o 级别	取决于本地模型大小
部署难度	注册账号拿 Key	一键部署，零配置

二、一键部署包

我们打包了一个一体化便携版，包含：

MoneyPrinterTurbo-LocalLLM-Portable.zip├── deploy.bat       ← 部署向导（首次运行）├── deploy.ps1       ← 部署脚本├── start.bat        ← 一键启动（日常使用）├── config.toml      ← 已预配置为本地模型├── README.txt├── mpt/             ← MoneyPrinterTurbo 程序│   ├── main.py / webui.py / app/ / resource/│   └── requirements.txt├── llama/           ← llama.cpp 引擎 (b9544)│   ├── llama-server.exe│   ├── ggml-vulkan.dll    ← Vulkan 后端（通用）│   ├── ggml-cpu-*.dll     ← CPU 后端│   ├── cuda/│   │   ├── ggml-cuda.dll  ← CUDA 后端（NVIDIA）│   │   └── llama-server.exe ← CUDA 优化版│   └── models/      ← 模型下载到此目录└── README.txt

系统要求

Windows 10/11 64位
Python 3.10+（从 python.org 下载，安装时勾选 "Add Python to PATH"）
8GB+ 内存（推荐 16GB+）
网络连接（部署时需要下载模型，日常使用中只有视频素材需要网络）
独立显卡（可选，有 GPU 效果更好，CPU 也能跑）

三、部署教程

整个部署过程只需要双击两个文件。

第一步：运行 deploy.bat（部署向导）

部署向导会按顺序做 6 件事：

① 检测硬件 → 自动推荐 llama.cpp 版本

这是最重要的一步。llama.cpp 有多个版本（后端），不同显卡需要用不同的版本才能发挥最佳性能：

你的显卡决定了你应该用哪个版本：

你的显卡	推荐后端	说明	包内已包含？
NVIDIA GeForce （RTX 30/40/50 系列等）	[2] CUDA ⭐	NVIDIA 专用，速度最快（比 Vulkan 快 20~40%）	✅ 已包含，部署时自动配置
NVIDIA / AMD Radeon / Intel Arc	[1] Vulkan ✅	通用方案，所有显卡都能用	✅ 已包含
无独显 / 只有核显	[3] CPU-only	纯 CPU 运行，兼容性最好	✅ 已包含

部署向导启动后，会自动检测你的 GPU 型号，并默认选中推荐的后端——你只需要确认按回车就行：

  GPU: NVIDIA GeForce RTX 4070 (12GB VRAM)   ← 自动检测  ╔══ Your GPU: NVIDIA ═══════════════════════╗  ║  [1] VULKAN (已包含)                      ║  ║     通用方案，所有显卡都能用 ✓            ║  ║  [2] CUDA (推荐 ⭐)                       ║  ║     NVIDIA 专用，速度最快（快 20~40%）    ║  ╚═══════════════════════════════════════════╝  Select backend (default: 2): _

看到上面的 default: 2 了吗？因为检测到你的显卡是 NVIDIA，向导自动预选了 CUDA。你只需要直接按回车，或者输入 1 选 Vulkan。

三种情况：
NVIDIA 用户 → 默认选中 [2] CUDA（包内已包含 CUDA 后端，部署时自动激活）
AMD / Intel Arc 用户 → 默认选中 [1] Vulkan（包内已包含，直接使用）
无独显用户 → 默认选中 [1] Vulkan（自动回退 CPU），或手动选 [3] CPU-only 更省空间
💡 选错了也没关系，随时可以重新运行 deploy.bat 切换后端，所有文件都在包内，无需重新下载。

② 选择 AI 模型（自动扫描本地模型）

部署向导会先扫描 llama\models\ 目录，如果你已经放入了 .gguf 文件，会直接显示出来让你选：

  Local models found in llama\models\:    [1] my-custom-model.gguf  (4280 MB)    [2] qwen2.5-7b-instruct-q3_k_m.gguf  (3372 MB)  Or download a new model:    [3] Qwen2.5-7B-Instruct (Q3_K_M) -- 3.3 GB    [4] Qwen3.6-35B-A3B (IQ4_NL) -- 18.8 GB    [5] Custom GGUF model URL (advanced)

直接输入编号就能用本地模型，不需要下载。如果没有本地模型，则显示下载选项。

根据你的硬件配置，推荐适合的模型：

选项	模型	下载大小	显存需求	适合人群
[1] 轻量版	Qwen2.5-7B (q3_k_m)	~3.3 GB	~8GB	所有电脑、笔记本、入门显卡
[2] 标准版	Qwen3.6-35B-A3B	~18.8 GB	~16GB	独显台式机，效果更好
[3] 自定义	你自己指定的 GGUF 模型	任意	任意	高级用户

部署向导会自动根据你的硬件推荐一个默认选项，你也可以自由选择。

③ 自动创建 Python 环境

自动创建虚拟环境（venv）
自动 pip install 所有依赖
不需要手动安装任何包

④ 下载 AI 模型

从 hf-mirror.com 国内镜像下载
支持断点续传（BITS 传输）
进度实时显示

⑤ 自动配置所有参数

根据你的显卡显存自动设置 GPU 层数（-ngl）
根据内存大小自动设置上下文长度
生成 llama.cpp 启动配置
配置 MoneyPrinterTurbo 指向本地模型

整个部署过程大约需要 10~30 分钟（取决于模型大小和网速），之后就不需要再跑了。

第二步：双击 start.bat（一键启动）

部署完成后，日常使用只需要双击 start.bat，它会依次启动：

llama.cpp 本地模型服务器（端口 8081）
MoneyPrinterTurbo API 后端（端口 8080）
Web UI 前端（端口 8501）

等待约 15~30 秒（取决于模型加载速度），然后打开浏览器访问：

http://127.0.0.1:8501

💡 关闭窗口即停止所有服务，下次再双击 start.bat 即可继续使用。

四、使用教程：生成第一条视频

4.1 生成脚本

打开 Web UI 后，进入 「生成脚本」 标签页：

在「视频主题」输入主题，比如 "SSD 为什么比机械硬盘快"
选择语言：中文
点击 「生成脚本」

本地大模型会在 5~15 秒内生成一段完整的视频文案。

4.2 生成视频

切换到 「生成视频」 标签页，配置参数：

参数	推荐值	说明
视频比例	9:16	竖屏，适合抖音/快手
配音	zh-CN-XiaoxiaoNeural	中文女声
背景音乐	random	自动配乐
素材来源	pexels	自动匹配视频画面
片段时长	5 秒	每个画面停留时间

点击 「开始生成视频」，系统会自动完成：生成脚本 → 搜索素材 → 配音 → 字幕 → 合成。

4.3 查看和下载

切换到 「任务管理」 标签页，可以查看生成进度、在线预览和下载成品视频。

五、进阶技巧

更换更好的模型

如果你后来升级了显卡或想试试别的模型，只需重新运行 deploy.bat，选择新的模型即可。已下载的模型不会重复下载。

手动调整 GPU 参数

编辑 llama\run_server.bat，可以手动调整：

-ngl 99    ← 把所有层都 offload 到 GPU（速度最快，要求显存够大）-ngl 20    ← 只 offload 20 层到 GPU（平衡模式）-c 8192    ← 上下文长度（越大越吃显存和内存）

自定义脚本

AI 生成的脚本有时比较模板化。可以在 Web UI 中手动编辑脚本，让文案更贴合你的风格。

六、常见问题

Q：部署时需要 Python 吗？

A：需要 Python 3.10+。这是唯一的系统依赖。从 python.org 下载安装，安装时勾选 "Add Python to PATH" 即可。

Q：没有独立显卡能跑吗？

A：能。部署向导会自动检测到你的电脑没有独显，默认选中 Vulkan 后端（自动使用 CPU 运行），也可以手动选 CPU-only。选择轻量版模型（Qwen2.5-7B）效果更好。生成脚本会慢一些（15~30 秒），但完全可用。

Q：模型下载太慢怎么办？

A：我们默认使用 hf-mirror.com 国内镜像，速度应该不错。如果还是慢，可以手动用下载工具下载后放到 llama\models\ 目录下。

Q：视频生成速度如何？

A：脚本生成（本地 LLM）约 5~15 秒；视频合成（素材下载+配音+字幕）约 1~3 分钟，取决于素材网络下载速度。

Q：生成的视频可以商用吗？

A： MoneyPrinterTurbo 使用 MIT 开源协议。视频素材来自 Pexels/Pixabay（免费可商用），配音来自 Edge TTS。建议发布前确认素材的具体授权条款。

Q：关闭窗口后所有服务都会停吗？

A：是的。start.bat 窗口关闭时会自动 taskkill python 和 llama-server 进程。不用担心后台残留。

七、写在最后

这套方案最大的价值是完全离线、完全免费。

不需要每个月交 API 订阅费，不需要担心数据隐私，不需要依赖网络状况。一台普通的 Windows 电脑，解压、部署、启动，三步走完就能开始生成 AI 短视频。

如果你正在做短视频运营、知识科普或内容创作，不妨试试这套完全离线的方案——可能比你想象的要简单得多。

工具获取：私信 "1181"

关键词： AI视频生成、本地大模型、llama.cpp、MoneyPrinterTurbo、离线AI、短视频工具、一键部署