想用本地AI,但不知道自己的电脑行不行?看完这篇就知道了。
核心就3个东西要看:内存、显存、CPU。其他的都是次要的。
指标一:内存(RAM)
内存决定你能跑多大的模型。
| 内存大小 | 能跑什么 |
|---|---|
| 8GB | 跑不动,别折腾 |
| 16GB | 勉强跑7B量化模型,发热严重 |
| 32GB | 7B~14B模型,没问题 |
| 64GB | 30B+模型都可以 |
数据来源:Ollama官方推荐(https://ollama.com)
有个坑要提醒一下:macOS本身要占掉6-8GB内存,所以你看到32GB,实际上能用的只有24GB左右。别按理论值算。
指标二:显存(GPU VRAM)
这是最重要的一个。如果你有独立显卡,看这个。
显存大小直接决定你能跑什么规模的模型:
| 显存 | 能跑 |
|---|---|
| 4GB | 放弃吧,老老实实用云端 |
| 8GB | 7B-8B量化模型,比如Qwen2.5-7B-int4、LLaMA3.2-7B-int4 |
| 12GB | 14B-20B模型,Mistral-22B、Nomic文本嵌入 |
| 16GB | 30B以下都能跑,包括Qwen2.5-14B |
| 24GB | 30B+模型随便跑 |
数据来源:llama.cpp量化对照表(https://github.com/ggerganov/llama.cpp)
⚠️ 这里有个坑:
商家标的"8G显存"不一定是你想的那样。RTX 3060 laptop版是8GB,但实际可用只有6-7GB,因为一部分显存要分给显示输出。买卡之前查清楚可用显存是多少。
指标三:没有显卡怎么办
Mac用户:看统一内存
Apple Silicon的统一内存设计很有意思——内存和显存共用,没有区别。GPU能访问多少,你就能用多少。
| Mac配置 | 能跑什么 |
|---|---|
| M1 + 16GB | 跑7B模型,勉强能用 |
| M1/M2/M3 + 24GB | 13B模型没问题 |
| M1/M2/M3 + 32GB+ | 跑30B量化模型 |
M1跑7B,速度大概10-15 token/秒,日常用能接受。M3会快不少,大概20-30 token/秒。
数据来源:MacScrier Benchmark(https://macscripter.net)
Windows/Linux无独显:只能跑小模型
没有独立显卡的话,16GB内存能跑0.8B-1.5B的蒸馏小模型,比如Phi-2(2.7B)、TinyLLaMA(1.1B)。
速度很慢,大概3-5 token/秒,当玩具可以,别指望生产力。
怎么快速判断
打开任务管理器(Windows)或活动监视器(Mac):
Windows:
- 1. Win+X → 任务管理器
- 2. 点"性能" → 看"内存"那一栏,总容量和已用量都看清楚
Mac:
- 1. Command+Space → 搜"活动监视器"
- 2. 点"内存"标签,看"物理内存"
显存的话,Windows可以用GPU-Z查,Mac直接在关于本机里看不到,得用命令:
system_profiler SPDisplaysDataType一句话总结
内存16GB以上 + 有8GB以上显存 → 放心折腾本地AI
只有Mac没有独显 → 统一内存16GB起步再考虑
内存16GB以下无独显 → 老实用云端吧
不知道自己配置的发我,我帮你看。
夜雨聆风