你有没有算过,每个月光是订阅各种AI服务要花多少钱?Midjourney、ChatGPT Plus、Claude Pro……少说也要几百块。如果在本地跑大模型,不仅完全免费,数据还不上云,隐私直接拉满。
但动辄上万的4090,谁买得起?
今天就给各位垃圾佬推荐一条究极性价比道路——P106矿卡 + 老爷机,全配下来可能还没你一个月AI订阅费贵。

硬件选型
CPU:i3起步,能吃灰最好
推荐i3-4170级别以上即可。为什么?因为推理主力是显卡,CPU不拖后腿就行。越旧的电脑越好,本来就是废物利用,不用白不用。
如果手头有E3-1230 V3之类的老志强魔改U,一样能打。
内存:16GB是底线
大模型推理时需要显存 + 内存一起协调工作,内存太少会频繁卡死。8GB太少,直接上16GB起步,能上32GB更好。
内存关系:显存优先,不够了才走内存。但遇到大上下文时,内存不够还是马上崩。
显卡:P106-100,神卡
如果你想低成本入局本地AI,P106-100就是答案。
这块卡最初是给以太坊挖矿准备的,没有视频输出接口,所以游戏党对它嗤之以鼻。但在AI推理场景下,这恰恰成了神卡——因为你能用比普通显卡低得多的价格,买到几乎一样的核心算力。
规格上,P106-100拥有1280个CUDA核心 + 6GB GDDR5显存,浮点性能约4.5 TFLOPS,和GTX 1060 6GB同宗同源。二手价多少?现在行情大概100-200元就能拿下。
要知道GTX 1060 6GB在二手市场还要五六百。花一两百买几乎一样的计算性能,这性价比简直离谱。
主板与安装提醒
P106不能接显示器,所以需要你的CPU带核显(i3-4170自带HD 4400),或者手头有张亮机卡用来输出画面。P106就专门负责计算,不给它画面输出任务——分工明确。
主板只要有一个PCIe x16插槽就能插上,老平台完全兼容。插上去之前最好先清理下灰尘,老机器往往积灰严重,而P106本身都是矿卡出身,散热性能本来就有损耗,干净风道比什么都重要。
操作系统选择
建议Linux(如Ubuntu)优先。开源生态完善,驱动、CUDA、Docker问题最少,同样配置下推理需要踩的坑远少于Windows。
如果必须留在Windows,也不是不能玩——但P106的驱动配置会比Linux多花点功夫。微软其实也提供了计算卡模式的驱动支持,只不过需要额外做一些设置。
软件部署
现在我们进入正题——一键部署Ollama。
Ollama是本地大模型的懒人包,安装完就能直接 ollama run 下载模型开聊,不需要懂Python,不需要配环境。所有依赖、环境变量都自动搞定,用完即走
安装Ollama
对于 Linux 用户(含Ubuntu):
bash
curl -fsSL https://ollama.com/install.sh | sh
安装后验证:ollama --version 看到版本号就成功。
对于 Windows 用户:
方法一:官网(ollama.com)下载 OllamaSetup.exe,一路Next完成安装
方法二:管理员打开PowerShell,用winget快速装:
powershell
winget install Ollama.Ollama
(装完 Ollama 会在后台自动运行,不用敲命令行启动)
为了服务器管理方便,推荐把模型存到非系统盘。编辑 ~/.ollama/models 或 Windows 的配置文件,指定 OLLAMA_MODELS 变量路径即可。
拉取模型
以目前比较主流的DeepSeek R1量化版本为例:
bash
ollama run deepseek-r1:7b
首次运行时会自动下载模型(大概4-7GB),下载完直接进入聊天界面,输入内容按回车就能对话。
如果想更精细控制推理参数(temperature、top_p等),用 ollama pull 拉取后再用 ollama run 带参数启动就行。
(可选)可视化WebUI
命令行玩够了,可以搭建个漂亮的可视化界面,让AI看起来跟ChatGPT网页版一样舒服。
方案一:Docker一键部署
如果你有Docker基础,推荐用Open WebUI。只需几步:
bash
docker pull docker.xuanyuan.run/openwebui/open-webui:latest
docker network create ai-network
# 启动容器并关联
全部拉完就能在浏览器打开 localhost:3000 访问漂亮的可视化聊天页面。
方案二:Chatbox客户端
不太会Docker的可以装Chatbox,轻量级本地客户端,下载后配置 http://localhost:11434 为API地址,立即连接Ollama。
选多大参数的模型?
优先选7B到14B之间、经过4-bit量化的模型。
内存占用可以这样估算:4-bit量化模型 ≈ 参数量(B) × 0.6 ~ 0.7 GB。
所以:
7B模型(如Qwen2.5:7b、Mistral:7b)→ 约4-5GB显存,P106刚好够用
14B模型(如Qwen2.5:14b)→ 约9GB显存,P106的6G显存不太够,会溢出到内存,速度打折扣
结论:首选7B模型,性能好、跑得顺。1B、3B那些小模型适合老集显机器跑体验。
进阶玩法提示
纯CPU方案
如果你连P106都不想买,纯粹用旧CPU + 16G内存跑小点的量化模型,也能体验AI推理的乐趣。选1B或3B模型,推理模式调成"纯CPU"(OLLAMA_CPU_ONLY=1)就行了。速度慢些,但比花钱开订阅便宜多了。
多卡并行
P106的关键限制是6G显存。想跑更大的模型怎么办?多插几张P106!
如果有第二根PCIe x16插槽,再插一块P106。虽然旧主板不一定支持NVLink,但可以用mpirun之类的工具实现模型分块加载、跨卡推理。
成本比单张4090低了至少一个数量级,适合不追求速度、只图能跑通的学生党或折腾派。
避坑指南
说再多优点,也要正视P106的几个坑:
1. 驱动需要特殊处理。
P106原本被英伟达官方屏蔽了游戏驱动。想让它老老实实跑CUDA,可能需要安装魔改版驱动或特定旧版本(比如470.xx系列)。提前做好心理准备,可能要搜一搜"P106魔改驱动"教程。
2. 没有视频输出。
插上P106后,你依旧看不到任何画面。必须在BIOS里把核显设为首选输出设备,或插一块亮机卡。否则P106可能会霸占计算通道导致没画面!
3. 矿卡的品控问题。
P106矿卡可能经历过长时间高负载,散热风扇可能磨损较严重。拿到手第一件事:更换导热硅脂、检查风扇、测试稳定性。翻车概率虽然不高,但不能忽视。
总结
我们走过的路径很清晰:
🔄 废物利用:把i3及以上老爷机拆出来清灰重装
🔄 低成本升级:16GB内存 + 一块百元级的P106-100矿卡
🔄 一键装环境:Ollama + 7B量化模型
🔄 最终实现:零云服务依赖、零月费、隐私完全保密的本地AI推理工作站
几百块花得很值。互联网上免费的不是不花钱,而是你的数据。 把AI完全搬回本地,不仅省钱,更让你真正拥有了自己的私人AI助手。
夜雨聆风