手把手教你旧电脑实现Token自由

你有没有算过，每个月光是订阅各种AI服务要花多少钱？Midjourney、ChatGPT Plus、Claude Pro……少说也要几百块。如果在本地跑大模型，不仅完全免费，数据还不上云，隐私直接拉满。

但动辄上万的4090，谁买得起？

今天就给各位垃圾佬推荐一条究极性价比道路——P106矿卡 + 老爷机，全配下来可能还没你一个月AI订阅费贵。

硬件选型

CPU：i3起步，能吃灰最好

推荐i3-4170级别以上即可。为什么？因为推理主力是显卡，CPU不拖后腿就行。越旧的电脑越好，本来就是废物利用，不用白不用。

如果手头有E3-1230 V3之类的老志强魔改U，一样能打。

内存：16GB是底线

大模型推理时需要显存 + 内存一起协调工作，内存太少会频繁卡死。8GB太少，直接上16GB起步，能上32GB更好。

内存关系：显存优先，不够了才走内存。但遇到大上下文时，内存不够还是马上崩。

显卡：P106-100，神卡

如果你想低成本入局本地AI，P106-100就是答案。

这块卡最初是给以太坊挖矿准备的，没有视频输出接口，所以游戏党对它嗤之以鼻。但在AI推理场景下，这恰恰成了神卡——因为你能用比普通显卡低得多的价格，买到几乎一样的核心算力。

规格上，P106-100拥有1280个CUDA核心 + 6GB GDDR5显存，浮点性能约4.5 TFLOPS，和GTX 1060 6GB同宗同源。二手价多少？现在行情大概100-200元就能拿下。

要知道GTX 1060 6GB在二手市场还要五六百。花一两百买几乎一样的计算性能，这性价比简直离谱。

主板与安装提醒

P106不能接显示器，所以需要你的CPU带核显（i3-4170自带HD 4400），或者手头有张亮机卡用来输出画面。P106就专门负责计算，不给它画面输出任务——分工明确。

主板只要有一个PCIe x16插槽就能插上，老平台完全兼容。插上去之前最好先清理下灰尘，老机器往往积灰严重，而P106本身都是矿卡出身，散热性能本来就有损耗，干净风道比什么都重要。

操作系统选择

建议Linux（如Ubuntu）优先。开源生态完善，驱动、CUDA、Docker问题最少，同样配置下推理需要踩的坑远少于Windows。

如果必须留在Windows，也不是不能玩——但P106的驱动配置会比Linux多花点功夫。微软其实也提供了计算卡模式的驱动支持，只不过需要额外做一些设置。

软件部署

现在我们进入正题——一键部署Ollama。

Ollama是本地大模型的懒人包，安装完就能直接 ollama run 下载模型开聊，不需要懂Python，不需要配环境。所有依赖、环境变量都自动搞定，用完即走

安装Ollama

对于 Linux 用户（含Ubuntu）：

bash

curl -fsSL https://ollama.com/install.sh | sh

安装后验证：ollama --version 看到版本号就成功。

对于 Windows 用户：

方法一：官网（ollama.com）下载 OllamaSetup.exe，一路Next完成安装

方法二：管理员打开PowerShell，用winget快速装：

powershell

winget install Ollama.Ollama

（装完 Ollama 会在后台自动运行，不用敲命令行启动）

为了服务器管理方便，推荐把模型存到非系统盘。编辑 ~/.ollama/models 或 Windows 的配置文件，指定 OLLAMA_MODELS 变量路径即可。

拉取模型

以目前比较主流的DeepSeek R1量化版本为例：

bash

ollama run deepseek-r1:7b

首次运行时会自动下载模型（大概4-7GB），下载完直接进入聊天界面，输入内容按回车就能对话。

如果想更精细控制推理参数（temperature、top_p等），用 ollama pull 拉取后再用 ollama run 带参数启动就行。

（可选）可视化WebUI

命令行玩够了，可以搭建个漂亮的可视化界面，让AI看起来跟ChatGPT网页版一样舒服。

方案一：Docker一键部署

如果你有Docker基础，推荐用Open WebUI。只需几步：

bash

docker pull docker.xuanyuan.run/openwebui/open-webui:latest

docker network create ai-network

# 启动容器并关联

全部拉完就能在浏览器打开 localhost:3000 访问漂亮的可视化聊天页面。

方案二：Chatbox客户端

不太会Docker的可以装Chatbox，轻量级本地客户端，下载后配置 http://localhost:11434 为API地址，立即连接Ollama。

选多大参数的模型？

优先选7B到14B之间、经过4-bit量化的模型。

内存占用可以这样估算：4-bit量化模型 ≈ 参数量(B) × 0.6 ~ 0.7 GB。

所以：

7B模型（如Qwen2.5:7b、Mistral:7b）→ 约4-5GB显存，P106刚好够用

14B模型（如Qwen2.5:14b）→ 约9GB显存，P106的6G显存不太够，会溢出到内存，速度打折扣

结论：首选7B模型，性能好、跑得顺。1B、3B那些小模型适合老集显机器跑体验。

进阶玩法提示

纯CPU方案

如果你连P106都不想买，纯粹用旧CPU + 16G内存跑小点的量化模型，也能体验AI推理的乐趣。选1B或3B模型，推理模式调成"纯CPU"（OLLAMA_CPU_ONLY=1）就行了。速度慢些，但比花钱开订阅便宜多了。

多卡并行

P106的关键限制是6G显存。想跑更大的模型怎么办？多插几张P106！

如果有第二根PCIe x16插槽，再插一块P106。虽然旧主板不一定支持NVLink，但可以用mpirun之类的工具实现模型分块加载、跨卡推理。

成本比单张4090低了至少一个数量级，适合不追求速度、只图能跑通的学生党或折腾派。

避坑指南

说再多优点，也要正视P106的几个坑：

1. 驱动需要特殊处理。

P106原本被英伟达官方屏蔽了游戏驱动。想让它老老实实跑CUDA，可能需要安装魔改版驱动或特定旧版本（比如470.xx系列）。提前做好心理准备，可能要搜一搜"P106魔改驱动"教程。

2. 没有视频输出。

插上P106后，你依旧看不到任何画面。必须在BIOS里把核显设为首选输出设备，或插一块亮机卡。否则P106可能会霸占计算通道导致没画面！

3. 矿卡的品控问题。

P106矿卡可能经历过长时间高负载，散热风扇可能磨损较严重。拿到手第一件事：更换导热硅脂、检查风扇、测试稳定性。翻车概率虽然不高，但不能忽视。

总结

我们走过的路径很清晰：

🔄 废物利用：把i3及以上老爷机拆出来清灰重装

🔄 低成本升级：16GB内存 + 一块百元级的P106-100矿卡

🔄 一键装环境：Ollama + 7B量化模型

🔄 最终实现：零云服务依赖、零月费、隐私完全保密的本地AI推理工作站

几百块花得很值。互联网上免费的不是不花钱，而是你的数据。把AI完全搬回本地，不仅省钱，更让你真正拥有了自己的私人AI助手。