零基础教程!把AI大模型部署到自家电脑,免费用还不限次数

说实话，我被API调用费用坑过太多次了。上个月，光是让AI帮我改代码、调文案，就烧掉了两百多块。后来我寻思，与其每个月给这些平台打工，不如把模型搬到自己电脑上——一次部署，永久免费，不香吗？

今天这篇文章，就是给普通用户写的**手把手教程**。我拿HuggingFace上的Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF模型当案例，这款模型经过DeepSeek优化，专门针对中文对话场景调校过，回答质量相当能打。整篇教程不需要你懂代码，跟着我的步骤操作，30分钟就能跑起来。

一、你为什么要把AI模型部署到本地？

在说怎么部署之前，先聊聊为什么我要折腾这件事。毕竟云端API用得好好的，何必自找麻烦？

1. 数据隐私，这是最核心的理由

你跟AI聊的那些内容——商业计划、代码逻辑、个人隐私——都在云端服务器上。你以为很安全？但谁知道呢，去年某大厂的AI助手就被曝出"意外泄露用户对话记录"的事。

本地部署就不一样了，数据压根不出你的电脑。公司内部资料、个人敏感信息，想怎么聊就怎么聊，完全不用担心被第三方平台拿去训练模型。

2. 零成本，这才是真香

我给你们算一笔账：ChatGPT Plus每个月20美元，Claude Pro也是20美元，DeepSeek API调用按token计费——稍微用得多一点，一个月几百块就没了。

本地部署呢？一次性投入，后续零费用。模型跑在你自己的硬件上，想问多少问题就问多少，不存在"额度用完"的焦虑。

3. 离线可用，关键时刻能救命

有时候出门在外，信号不好或者干脆没网，云端AI就用不了。但本地部署不一样——只要你的电脑能开机，AI就能跑。

我上次出差，在高铁上写了4个小时代码，全靠本地部署的模型帮我查资料、解释错误。这种"离线自由"的感觉，用过才知道有多爽。

4. 响应速度快，体验更丝滑

云端API受限于服务器负载和网络延迟，有时候高峰期等个十几秒才出结果。本地部署呢？模型就在你电脑上，省去了网络往返的延迟——虽然硬件会影响速度，但那种"秒回"的流畅感，真的很不一样。

二、部署前的准备：你的电脑能不能跑？

先别急着动手，我们得确认一下你的电脑配置能不能跑得动这个模型。我见过太多人下载了几十GB的模型文件，结果压根跑不动，那才叫尴尬。

硬件配置速查表

以我们今天要部署的Qwen3.5-9B为例（9B = 90亿参数），这是不同量化版本对硬件的要求：

量化版本	模型大小	最低显存要求	推荐显卡
Q2_K（最低精度）	~3.5GB	4GB	GTX 1060 6G / RTX 3050
Q4_K_M（推荐）	~5.5GB	6GB	RTX 3060 12G / RTX 4060
Q5_K_M（较高精度）	~6.5GB	8GB	RTX 3060 12G / RTX 4060 Ti
Q8_0（接近原版）	~9GB	10GB	RTX 3080 10G / RTX 4070

说人话版：
如果你有RTX 3060 12G以上的显卡，闭眼选Q4_K_M版本，显存够用，回答质量也相当不错。预算有限的话，GTX 1060 6G也不是不能用，就是只能跑最低量化版本，智能程度会打点折扣。

内存和硬盘要求

除了显卡显存，这些也得注意：

系统内存
：至少16GB，32GB更稳。模型加载时会占用内存，显存不够的情况下还会借用内存，速度会慢很多
硬盘空间
：模型文件5-10GB，建议准备至少50GB的可用空间。强烈推荐用NVMe固态硬盘，机械硬盘加载模型能慢到让你怀疑人生
CPU
：要求不高，i5/R5级别就够用。主要是负责数据调度，显卡才是主力运算

小贴士：没有独立显卡怎么办？别急，后面会介绍纯CPU运行方案，只不过速度会慢一些，但2B、4B这种小模型还是能跑的。

软件准备

硬件确认没问题了，接下来准备软件。你需要：

操作系统
：Windows 10/11、macOS（Intel或Apple Silicon）、Linux都行
显卡驱动
：NVIDIA显卡需要安装最新驱动（AMD显卡也能用，但配置稍复杂）
部署工具
：我们今天用LM Studio和Ollama这两个工具，一个适合新手可视化操作，一个适合命令行老手

三、方法一：LM Studio可视化部署（推荐新手）

先介绍最简单的方案。LM Studio这款工具做得相当良心，界面跟聊天软件似的，完全不需要命令行操作，对新手极其友好。

第一步：下载安装LM Studio

打开浏览器，访问 lmstudio.ai，点击下载按钮。

官网会自动识别你的操作系统（Windows/Mac/Linux），下载对应的安装包。Windows用户下载.exe或.zip都行，安装版一路点下一步，便携版解压就能用。

安装完成后打开软件，首次启动可能会有个欢迎界面，点"跳过"就行。右下角可以设置语言，换成简体中文。

第二步：下载GGUF模型

LM Studio内置了HuggingFace模型市场，可以直接搜索下载。

点击左侧导航栏的"发现"(Discover)，在搜索框里输入：

Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash

如果没有搜到这个特定版本，也可以搜Qwen3.5-9B或DeepSeek-V4，会有一堆相关模型出来。

注意：
模型名称后面带GGUF字样的才是能用LM Studio跑的格式。其他格式（如Safetensors）需要转换，这里先不展开。

选模型的时候注意量化版本，前面表格说过了——显存6GB左右选Q4_K_M，8GB以上选Q5_K_M或更高。

找到合适的版本后，点下载按钮，等进度条跑完就行。模型文件几个GB，下载速度取决于你的网络。

网络问题：如果下载速度太慢或者搜不到模型，可以去HuggingFace官网（huggingface.co）手动下载。搜索框输入模型名，找到.gguf格式文件下载，下载完成后放到LM Studio的模型目录：Windows默认是C:\Users\你的用户名\.lmstudio\models，Mac是~/Library/Application Support/LM Studio/models/。

第三步：加载模型并开始对话

下载完成后，点击左侧"我的模型"(My Models)，就能看到刚才下载的模型了。

点击模型名称旁边的"加载"(Load)按钮，LM Studio会开始加载模型到显存。

加载完成后，右侧会自动切换到聊天界面。在输入框里打字，按回车发送，AI就会开始回复你。

你可以设置系统提示词，告诉AI要扮演什么角色。比如输入"你是一个专业程序员，用简洁的方式回答编程问题"，AI的回答风格就会相应调整。

第四步（可选）：开启本地API服务

这是LM Studio的隐藏功能——它可以变身成一个本地API服务器，让其他应用调用你本地的模型。

点击左侧"开发者"(Developer)选项卡，点"Start Server"按钮。

服务启动后，你就能看到一个API地址：

http://localhost:1234/v1

把这个地址配置到支持OpenAI格式的应用（比如Cherry Studio、Cursor等），就能用这些工具调用你的本地模型了。

四、方法二：Ollama命令行部署（适合进阶玩家）

如果你更喜欢命令行操作，或者想要更灵活的配置，Ollama是个不错的选择。它类似Docker的感觉——一个命令就能拉起模型，服务默认在11434端口运行。

第一步：安装Ollama

访问 ollama.com/download，下载对应系统的安装包。

Windows
：下载安装包，一路下一步就行
Mac
：下载.dmg，拖到Applications文件夹

Linux

：运行官方一键脚本：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，打开终端（Windows按Win+R，输入cmd），输入：

ollama -v

如果看到版本号（比如ollama version 0.5.6），说明安装成功了。

第二步：设置模型存放路径（可选但推荐）

Ollama默认会把模型存到C盘，如果C盘空间不够，建议改一下路径。

Windows用户，在终端里执行：

setx OLLAMA_MODELS "D:\Ollama\models"

Mac/Linux用户，在终端里执行：

export OLLAMA_MODELS=/Volumes/external/ollama/models

记得提前创建好这个文件夹。

第三步：下载并运行模型

Ollama官方模型库里有不少模型，可以直接用命令拉取。

如果官方库有Qwen3.5-9B，执行：

ollama run qwen3.5:9b

但如果我们想用Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF这个自定义模型，就需要手动导入。

第四步：导入自定义GGUF模型

有些模型不在Ollama官方库里，需要我们自己动手导入。

步骤1：下载GGUF模型文件

去HuggingFace下载.gguf格式的模型文件。假设我们把文件下载到：

D:\models\qwen3.5-9b-deepseek-v4-q4_k_m.gguf

步骤2：创建Modelfile

在模型文件同目录下，创建一个叫Modelfile的文件（没有后缀名），内容只有一行：

FROM ./qwen3.5-9b-deepseek-v4-q4_k_m.gguf

步骤3：导入模型

在终端里，进入Modelfile所在目录，执行：

ollama create qwen3.5-local -f Modelfile

qwen3.5-local是你给这个模型起的名字，可以随便改。

步骤4：运行模型

ollama run qwen3.5-local

模型加载完成后，你就能直接在终端里跟AI对话了。

进阶技巧：
Ollama支持修改很多参数，比如上下文长度、GPU卸载比例等。创建Modelfile时可以加上：
TEMPLATE "{{.Prompt}}"
PARAMETER num_ctx 4096
PARAMETER temperature 0.7

第五步：API服务（可选）

Ollama也支持API调用。启动服务后：

ollama serve

然后就可以用代码调用了：

import openai  client = OpenAI(     base_url="http://localhost:11434/v1",     api_key="not-needed" )  response = client.chat.completions.create(     model="qwen3.5-local",     messages=[         {"role": "user", "content": "你好，介绍一下你自己"}     ] ) print(response.choices[0].message.content)

五、模型选择和优化建议

部署只是第一步，用得舒服才是关键。这里分享几个我踩坑后总结的经验。

量化版本怎么选？

简单说：显存够就选高量化版本，显存紧就选低量化版本。

Q4_K_M是我最推荐的——在模型大小和回答质量之间取得了最佳平衡。Q2_K虽然最小，但有些复杂问题会答不上来；Q5_K_M及以上质量确实更好，但显存要求也更高。

如果你不确定，先从Q4_K_M开始试，效果不满意再换更高版本。

上下文长度设置

上下文长度决定了一次对话能处理多少内容。默认情况下，Ollama会根据显存自动设置：

显存<24GB：默认4K上下文
显存24-48GB：默认32K上下文
显存≥48GB：默认256K上下文

如果你的显卡是RTX 3060 12G，建议把上下文设到8K-16K，再高的话显存就吃紧了。

GPU卸载优化

如果你发现模型加载后显存几乎满了，但速度还是慢，可以调整GPU卸载比例。

在LM Studio里，加载模型前可以调整GPU卸载(GPU Offload)滑块。数字越高，用显卡算的部分越多，速度越快，但显存占用也越高。

Ollama可以通过环境变量调整：

OLLAMA_NUM_GPU=1

六、常见问题排查

部署过程中难免遇到各种问题，这里整理了常见坑和解决方案。

Q1：模型加载失败，提示显存不足？

这是最常见的问题。解决方案：

降低量化版本（Q5_K_M换成Q4_K_M）
减少上下文长度
关闭其他占用显存的应用（比如游戏、3D渲染软件）
降低GPU卸载比例

Q2：模型加载成功，但回答速度很慢？

可能原因：

显卡显存不够，溢出到内存了——参考上面的优化方案
用的是CPU推理——确保LM Studio或Ollama正确识别了你的显卡
硬盘速度太慢——换NVMe固态

Q3：下载模型速度太慢？

国内访问HuggingFace经常抽风。可以：

使用国内镜像：huggingface.co 换成 hf-mirror.com
设置代理
去魔搭社区（modelscope.cn）下载，部分模型有镜像

Q4：Ollama启动后连不上？

检查一下：

Ollama服务是否在运行（终端输入ollama serve）
端口是否被占用（默认11434）
防火墙是否拦截

Q5：模型回答质量很差？

可能是：

量化版本太低，换更高量化版本试试
提示词写得不够清楚，试试更详细的指令
这个模型本身就不擅长这类问题，换个模型试试

七、本地部署的进阶玩法

基础部署玩转之后，这些进阶操作可以让你的本地AI更强大：

1. 搭建本地知识库

配合AnythingLLM或MaxKB这类工具，可以让你的AI"读懂"你自己的文档。公司资料、个人笔记、产品手册——一股脑扔进去，AI就能基于这些内容回答问题，而且数据完全不离开你的电脑。

2. 多模型切换

不同的模型擅长不同的事情：

写代码：用CodeLlama或DeepSeek Coder
写文章：用Qwen或GLM的中文优化版
角色扮演：用专门微调过的对话模型

LM Studio支持一键切换模型，Ollama也可以同时安装多个模型按需调用。

3. API集成到工作流

把本地AI接入到各种工具里：

VS Code插件：代码补全、解释、审查
Obsidian插件：笔记智能标签、摘要生成
浏览器插件：网页内容智能处理

4. 多人共享

如果你有台性能不错的台式机做"服务器"，可以让局域网内的其他设备也能访问你的本地AI。

Ollama设置：

OLLAMA_HOST=0.0.0.0

同一局域网内的其他电脑，访问你的IP:11434就能用上你的本地AI了。

好啦，教程到这里就结束了。我知道你可能觉得步骤有点多，但相信我，动手操作一遍就知道了——真的没那么难。

本地部署AI这事儿，一旦跑起来就会上瘾。你会开始琢磨：还有哪个模型更强？能不能微调一下让它更懂我的领域？能不能搭个知识库？——恭喜，你跟我一样，掉进"本地AI深坑"了。

最后说一句：别被技术术语吓到。什么量化、上下文、GPU卸载——这些都是纸老虎，看一遍就懂了。重要的是先跑起来，遇到问题再查，边用边学，比什么都强。

有什么问题欢迎评论区聊聊，我尽量解答。觉得有用的话，转发给你身边想折腾本地AI的朋友～

互动时间

你在部署过程中遇到什么坑了？或者有什么独家技巧？评论区聊聊～

如果觉得这篇教程有用，点个「在看」呗

关注 yesno讲AI

不讲难懂技术，只聊普通人能用的AI❤️