手把手教你部署本地AI,免费!私密!

不需要编程基础，跟着步骤走就能搞定。

为什么要用本地AI？

为什么要用本地AI！

在学术科研场景里，我们经常需要处理一些不能上传到云端的文件——未发表的论文草稿、实验数据、商业合同、保密报告……

这些内容用 ChatGPT 或 Claude 处理，数据会经过境外服务器，存在隐私泄露风险，很多单位和学校也明确禁止。

本地AI完美解决这个问题：模型完全运行在你自己的电脑上，文件从不离开本机，断网也能用，天然符合数据安全要求。除此之外还有几个好处：

不需要翻墙，网速再差也不影响不限次数，用多少都不花钱一次部署，长期使用

本教程结束后，你能得到这样一个效果：双击一个脚本，自动弹出菜单选择模型，打开浏览器就能聊天，体验和 ChatGPT 几乎一样。

准备工作

硬件要求

配置最低要求

显卡显存 6GB 以上（越大越好）

内存 16GB 以上

硬盘至少 20GB 空余空间

系统 Windows 10/11

没有独立显卡也能跑，但速度会很慢。有 N 卡（NVIDIA）体验最好。

第一步：安装 Python 3.11

打开 https://www.python.org/downloads/，下载 Python 3.11

（注意不要下 3.12 或 3.13，Open WebUI 目前只支持 3.11）。

安装时一定要勾选 "Add Python to PATH"，否则后面的命令都跑不起来。

第二步：安装 llama.cpp

llama.cpp 是跑本地模型的"引擎"，负责把模型加载到显卡上运行。

打开 https://github.com/ggml-org/llama.cpp/releases 找到最新版本，下载 llama-*-bin-win-cuda-cu12.x.x-x64.zip（N 卡选这个）

解压到 E:\AI\llamacpp\ 文件夹

如果你没有 N 卡，下载 llama-*-bin-win-noavx-x64.zip 用 CPU 跑。

第三步：安装 Open WebUI Open WebUI 是我们和模型对话的界面，长得很像 ChatGPT。

按 Win + S 搜索「PowerShell」打开，输入：

pip install open-webui

等它安装完成（可能需要几分钟）。

如果提示找不到 pip，说明第一步的 Python 没有正确安装，回去重装一遍。

第四步：下载本地模型模型是 AI 的"大脑"，我们用魔搭社区（国内访问速度快）下载。首先安装下载工具：

pip install modelscope

然后创建一个模型存放文件夹 E:\AI\models\，再运行下载命令：推荐新手先下这个（中文效果好，14B 参数）：

modelscope download Qwen/Qwen3-14B-GGUF --include "*Q4_K_M*" --local_dir E:\AI\models

文件大小约 9GB，下载时间取决于网速，耐心等待。

Q4_K_M 是什么？ 这是量化格式，把模型压缩到原来的 1/4 大小，质量损失极小，是性价比最高的选择。

第五步：使用一键启动脚本每次手动输命令太麻烦，我做了一个菜单式启动脚本，双击就能用。

下载地址： https://github.com/Monay69/local-ai-launcher 下载 启动AI.bat，放到 E:\AI\ 文件夹里。最终你的文件夹结构应该是这样：

E:\AI\├── llamacpp\          ← 第二步解压的文件│   └── llama-server.exe├── models\            ← 第四步下载的模型│   └── Qwen3-14B-Q4_K_M.gguf└── 启动AI.bat         ← 刚下载的脚本

开始使用双击 启动AI.bat，会弹出这样的菜单：

============================================          AI 本地模型启动菜单============================================ 检测到以下模型： [1] Qwen3-14B-Q4_K_M.gguf [0] 退出请输入数字后按回车：

输入 1 回车，等待约 1 分钟加载完成，然后打开浏览器访问：

http://localhost:8080

就能看到和 ChatGPT 一样的对话界面了！

常见问题

Q：显示"无法连接到 Anthropic 服务"怎么办？

A：这是下载 Open WebUI 时触发的，不影响本地模型使用，忽略即可。

-----------

Q：加载很慢怎么办？

A：检查启动命令里有没有 --n-gpu-layers 99，这个参数让模型跑在显卡上，少了它就会用 CPU，速度会慢很多。

-----------

Q：需要安装 Git、Node.js 或 npm 吗？

A：完全不需要。本教程所有工具都直接下载或用 pip 安装，不依赖 Git 或 Node 环境。

-----------

Q:pip install open-webui 提示找不到安装包？

A：Python 版本不对，Open WebUI 要求 3.11 以上。用 python --version 确认版本，再用 py -3.11 -m pip install open-webui 指定版本安装。

-----------

Q：我电脑上装了两个 Python 版本怎么办？

A：Open WebUI 只支持 Python 3.11，如果你同时装了 3.10 或其他版本，安装时要指定用

3.11：--py -3.11 -m pip install open-webui

启动时也用：--py -3.11 -m open_webui serve

-----------

Q：下载模型时提示"Repo not exists"？

A：模型名写错了。注意是 Qwen3-14B-GGUF 不是 Qwen3.5-14B-GGUF，Qwen3.5 目前没有 14B 版本。

-----------

Q：模型跑起来了但速度很慢？

A：大概率是 --ctx-size 设太大导致显存溢出，模型一部分跑在内存上。把它调小到 8192 或 16384 再试，速度会明显提升。

-----------

Q：启动时报错 unknown value for --flash-attn？

A：这个版本的 llama.cpp 需要给参数加上值，写成 --flash-attn on 而不是单独的 --flash-attn。

-----------

Q：Open WebUI 打开后模型列表是空的？

A：llama-server 没有启动，或者端口配置不对。确认 llama-server 已经在运行，并且 Open WebUI 里填的地址是 http://localhost:8081/v1

写在最后，整个过程我自己也踩了不少坑，比如 --flash-attn 参数格式、Python 版本问题、显存溢出导致速度慢等等，都在上面的教程里帮你避开了。

如果遇到问题，欢迎在评论区留言，我看到会回复～觉得有帮助的话点个赞和在看，让更多人能用上本地 AI 🙌