
说实话,我被API调用费用坑过太多次了。上个月,光是让AI帮我改代码、调文案,就烧掉了两百多块。后来我寻思,与其每个月给这些平台打工,不如把模型搬到自己电脑上——一次部署,永久免费,不香吗?
今天这篇文章,就是给普通用户写的**手把手教程**。我拿HuggingFace上的Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF模型当案例,这款模型经过DeepSeek优化,专门针对中文对话场景调校过,回答质量相当能打。整篇教程不需要你懂代码,跟着我的步骤操作,30分钟就能跑起来。
一、你为什么要把AI模型部署到本地?
在说怎么部署之前,先聊聊为什么我要折腾这件事。毕竟云端API用得好好的,何必自找麻烦?
1. 数据隐私,这是最核心的理由
你跟AI聊的那些内容——商业计划、代码逻辑、个人隐私——都在云端服务器上。你以为很安全?但谁知道呢,去年某大厂的AI助手就被曝出"意外泄露用户对话记录"的事。
本地部署就不一样了,数据压根不出你的电脑。公司内部资料、个人敏感信息,想怎么聊就怎么聊,完全不用担心被第三方平台拿去训练模型。
2. 零成本,这才是真香
我给你们算一笔账:ChatGPT Plus每个月20美元,Claude Pro也是20美元,DeepSeek API调用按token计费——稍微用得多一点,一个月几百块就没了。
本地部署呢?一次性投入,后续零费用。模型跑在你自己的硬件上,想问多少问题就问多少,不存在"额度用完"的焦虑。
3. 离线可用,关键时刻能救命
有时候出门在外,信号不好或者干脆没网,云端AI就用不了。但本地部署不一样——只要你的电脑能开机,AI就能跑。
我上次出差,在高铁上写了4个小时代码,全靠本地部署的模型帮我查资料、解释错误。这种"离线自由"的感觉,用过才知道有多爽。
4. 响应速度快,体验更丝滑
云端API受限于服务器负载和网络延迟,有时候高峰期等个十几秒才出结果。本地部署呢?模型就在你电脑上,省去了网络往返的延迟——虽然硬件会影响速度,但那种"秒回"的流畅感,真的很不一样。

二、部署前的准备:你的电脑能不能跑?
先别急着动手,我们得确认一下你的电脑配置能不能跑得动这个模型。我见过太多人下载了几十GB的模型文件,结果压根跑不动,那才叫尴尬。
硬件配置速查表
以我们今天要部署的Qwen3.5-9B为例(9B = 90亿参数),这是不同量化版本对硬件的要求:
说人话版:如果你有RTX 3060 12G以上的显卡,闭眼选Q4_K_M版本,显存够用,回答质量也相当不错。预算有限的话,GTX 1060 6G也不是不能用,就是只能跑最低量化版本,智能程度会打点折扣。
内存和硬盘要求
除了显卡显存,这些也得注意:
- 系统内存
:至少16GB,32GB更稳。模型加载时会占用内存,显存不够的情况下还会借用内存,速度会慢很多 - 硬盘空间
:模型文件5-10GB,建议准备至少50GB的可用空间。强烈推荐用NVMe固态硬盘,机械硬盘加载模型能慢到让你怀疑人生 - CPU
:要求不高,i5/R5级别就够用。主要是负责数据调度,显卡才是主力运算
小贴士:没有独立显卡怎么办?别急,后面会介绍纯CPU运行方案,只不过速度会慢一些,但2B、4B这种小模型还是能跑的。
软件准备
硬件确认没问题了,接下来准备软件。你需要:
- 操作系统
:Windows 10/11、macOS(Intel或Apple Silicon)、Linux都行 - 显卡驱动
:NVIDIA显卡需要安装最新驱动(AMD显卡也能用,但配置稍复杂) - 部署工具
:我们今天用LM Studio和Ollama这两个工具,一个适合新手可视化操作,一个适合命令行老手
三、方法一:LM Studio可视化部署(推荐新手)
先介绍最简单的方案。LM Studio这款工具做得相当良心,界面跟聊天软件似的,完全不需要命令行操作,对新手极其友好。
第一步:下载安装LM Studio
打开浏览器,访问 lmstudio.ai,点击下载按钮。
官网会自动识别你的操作系统(Windows/Mac/Linux),下载对应的安装包。Windows用户下载.exe或.zip都行,安装版一路点下一步,便携版解压就能用。
安装完成后打开软件,首次启动可能会有个欢迎界面,点"跳过"就行。右下角可以设置语言,换成简体中文。
第二步:下载GGUF模型
LM Studio内置了HuggingFace模型市场,可以直接搜索下载。
点击左侧导航栏的"发现"(Discover),在搜索框里输入:
Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash如果没有搜到这个特定版本,也可以搜Qwen3.5-9B或DeepSeek-V4,会有一堆相关模型出来。
注意:模型名称后面带GGUF字样的才是能用LM Studio跑的格式。其他格式(如Safetensors)需要转换,这里先不展开。
选模型的时候注意量化版本,前面表格说过了——显存6GB左右选Q4_K_M,8GB以上选Q5_K_M或更高。
找到合适的版本后,点下载按钮,等进度条跑完就行。模型文件几个GB,下载速度取决于你的网络。
网络问题:如果下载速度太慢或者搜不到模型,可以去HuggingFace官网(huggingface.co)手动下载。搜索框输入模型名,找到.gguf格式文件下载,下载完成后放到LM Studio的模型目录:Windows默认是C:\Users\你的用户名\.lmstudio\models,Mac是~/Library/Application Support/LM Studio/models/。
第三步:加载模型并开始对话
下载完成后,点击左侧"我的模型"(My Models),就能看到刚才下载的模型了。
点击模型名称旁边的"加载"(Load)按钮,LM Studio会开始加载模型到显存。
加载完成后,右侧会自动切换到聊天界面。在输入框里打字,按回车发送,AI就会开始回复你。
你可以设置系统提示词,告诉AI要扮演什么角色。比如输入"你是一个专业程序员,用简洁的方式回答编程问题",AI的回答风格就会相应调整。
第四步(可选):开启本地API服务
这是LM Studio的隐藏功能——它可以变身成一个本地API服务器,让其他应用调用你本地的模型。
点击左侧"开发者"(Developer)选项卡,点"Start Server"按钮。
服务启动后,你就能看到一个API地址:
http://localhost:1234/v1把这个地址配置到支持OpenAI格式的应用(比如Cherry Studio、Cursor等),就能用这些工具调用你的本地模型了。
四、方法二:Ollama命令行部署(适合进阶玩家)
如果你更喜欢命令行操作,或者想要更灵活的配置,Ollama是个不错的选择。它类似Docker的感觉——一个命令就能拉起模型,服务默认在11434端口运行。
第一步:安装Ollama
访问 ollama.com/download,下载对应系统的安装包。
- Windows
:下载安装包,一路下一步就行 - Mac
:下载.dmg,拖到Applications文件夹 - Linux
:运行官方一键脚本: curl -fsSL https://ollama.com/install.sh | sh
安装完成后,打开终端(Windows按Win+R,输入cmd),输入:
ollama -v如果看到版本号(比如ollama version 0.5.6),说明安装成功了。
第二步:设置模型存放路径(可选但推荐)
Ollama默认会把模型存到C盘,如果C盘空间不够,建议改一下路径。
Windows用户,在终端里执行:
setx OLLAMA_MODELS "D:\Ollama\models"Mac/Linux用户,在终端里执行:
export OLLAMA_MODELS=/Volumes/external/ollama/models记得提前创建好这个文件夹。
第三步:下载并运行模型
Ollama官方模型库里有不少模型,可以直接用命令拉取。
如果官方库有Qwen3.5-9B,执行:
ollama run qwen3.5:9b但如果我们想用Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF这个自定义模型,就需要手动导入。
第四步:导入自定义GGUF模型
有些模型不在Ollama官方库里,需要我们自己动手导入。
步骤1:下载GGUF模型文件
去HuggingFace下载.gguf格式的模型文件。假设我们把文件下载到:
D:\models\qwen3.5-9b-deepseek-v4-q4_k_m.gguf步骤2:创建Modelfile
在模型文件同目录下,创建一个叫Modelfile的文件(没有后缀名),内容只有一行:
FROM ./qwen3.5-9b-deepseek-v4-q4_k_m.gguf步骤3:导入模型
在终端里,进入Modelfile所在目录,执行:
ollama create qwen3.5-local -f Modelfileqwen3.5-local是你给这个模型起的名字,可以随便改。
步骤4:运行模型
ollama run qwen3.5-local模型加载完成后,你就能直接在终端里跟AI对话了。
进阶技巧:Ollama支持修改很多参数,比如上下文长度、GPU卸载比例等。创建Modelfile时可以加上: TEMPLATE "{{.Prompt}}"
PARAMETER num_ctx 4096
PARAMETER temperature 0.7
第五步:API服务(可选)
Ollama也支持API调用。启动服务后:
ollama serve然后就可以用代码调用了:
import openai client = OpenAI( base_url="http://localhost:11434/v1", api_key="not-needed" ) response = client.chat.completions.create( model="qwen3.5-local", messages=[ {"role": "user", "content": "你好,介绍一下你自己"} ] ) print(response.choices[0].message.content)五、模型选择和优化建议
部署只是第一步,用得舒服才是关键。这里分享几个我踩坑后总结的经验。
量化版本怎么选?
简单说:显存够就选高量化版本,显存紧就选低量化版本。
Q4_K_M是我最推荐的——在模型大小和回答质量之间取得了最佳平衡。Q2_K虽然最小,但有些复杂问题会答不上来;Q5_K_M及以上质量确实更好,但显存要求也更高。
如果你不确定,先从Q4_K_M开始试,效果不满意再换更高版本。
上下文长度设置
上下文长度决定了一次对话能处理多少内容。默认情况下,Ollama会根据显存自动设置:
显存<24GB:默认4K上下文 显存24-48GB:默认32K上下文 显存≥48GB:默认256K上下文
如果你的显卡是RTX 3060 12G,建议把上下文设到8K-16K,再高的话显存就吃紧了。
GPU卸载优化
如果你发现模型加载后显存几乎满了,但速度还是慢,可以调整GPU卸载比例。
在LM Studio里,加载模型前可以调整GPU卸载(GPU Offload)滑块。数字越高,用显卡算的部分越多,速度越快,但显存占用也越高。
Ollama可以通过环境变量调整:
OLLAMA_NUM_GPU=1六、常见问题排查
部署过程中难免遇到各种问题,这里整理了常见坑和解决方案。
Q1:模型加载失败,提示显存不足?
这是最常见的问题。解决方案:
降低量化版本(Q5_K_M换成Q4_K_M) 减少上下文长度 关闭其他占用显存的应用(比如游戏、3D渲染软件) 降低GPU卸载比例
Q2:模型加载成功,但回答速度很慢?
可能原因:
显卡显存不够,溢出到内存了——参考上面的优化方案 用的是CPU推理——确保LM Studio或Ollama正确识别了你的显卡 硬盘速度太慢——换NVMe固态
Q3:下载模型速度太慢?
国内访问HuggingFace经常抽风。可以:
使用国内镜像:huggingface.co 换成 hf-mirror.com 设置代理 去魔搭社区(modelscope.cn)下载,部分模型有镜像
Q4:Ollama启动后连不上?
检查一下:
Ollama服务是否在运行(终端输入ollama serve) 端口是否被占用(默认11434) 防火墙是否拦截
Q5:模型回答质量很差?
可能是:
量化版本太低,换更高量化版本试试 提示词写得不够清楚,试试更详细的指令 这个模型本身就不擅长这类问题,换个模型试试
七、本地部署的进阶玩法
基础部署玩转之后,这些进阶操作可以让你的本地AI更强大:
1. 搭建本地知识库
配合AnythingLLM或MaxKB这类工具,可以让你的AI"读懂"你自己的文档。公司资料、个人笔记、产品手册——一股脑扔进去,AI就能基于这些内容回答问题,而且数据完全不离开你的电脑。
2. 多模型切换
不同的模型擅长不同的事情:
写代码:用CodeLlama或DeepSeek Coder 写文章:用Qwen或GLM的中文优化版 角色扮演:用专门微调过的对话模型
LM Studio支持一键切换模型,Ollama也可以同时安装多个模型按需调用。
3. API集成到工作流
把本地AI接入到各种工具里:
VS Code插件:代码补全、解释、审查 Obsidian插件:笔记智能标签、摘要生成 浏览器插件:网页内容智能处理
4. 多人共享
如果你有台性能不错的台式机做"服务器",可以让局域网内的其他设备也能访问你的本地AI。
Ollama设置:
OLLAMA_HOST=0.0.0.0同一局域网内的其他电脑,访问你的IP:11434就能用上你的本地AI了。
好啦,教程到这里就结束了。我知道你可能觉得步骤有点多,但相信我,动手操作一遍就知道了——真的没那么难。
本地部署AI这事儿,一旦跑起来就会上瘾。你会开始琢磨:还有哪个模型更强?能不能微调一下让它更懂我的领域?能不能搭个知识库?——恭喜,你跟我一样,掉进"本地AI深坑"了。
最后说一句:别被技术术语吓到。什么量化、上下文、GPU卸载——这些都是纸老虎,看一遍就懂了。重要的是先跑起来,遇到问题再查,边用边学,比什么都强。
有什么问题欢迎评论区聊聊,我尽量解答。觉得有用的话,转发给你身边想折腾本地AI的朋友~
互动时间
你在部署过程中遇到什么坑了?或者有什么独家技巧?评论区聊聊~
如果觉得这篇教程有用,点个「在看」呗
关注 yesno讲AI
不讲难懂技术,只聊普通人能用的AI❤️
夜雨聆风