乐于分享
好东西不私藏

个人 AI 开发配置(2605-1):你跑不动 70B 模型,不是因为算力不够,是因为内存放不下

个人 AI 开发配置(2605-1):你跑不动 70B 模型,不是因为算力不够,是因为内存放不下

很多人拿到 AI 硬件的第一反应是看 TFLOPS——RTX 5070 的 FP16 算力 30.9 TFLOPS,M4 Pro 的 GPU 算力 Apple 从未官方公布,第三方基于实测反推的估算大约在 10-14 TFLOPS 左右,前者有明显优势。然后他们买了台式机,装好驱动,发现 Qwen3.6-27B 这样的主流模型跑不起来,速度慢得像爬——不是驱动问题,是 12GB 显存根本放不下一个 27B 的量化模型。个人 AI 开发的核心瓶颈从来不是算力,是内存装得下多大的模型。搞清楚这件事,选硬件就不会踩坑。


个人跑模型,和机构的问题完全不同

机构运营一个推理平台,关心的是吞吐量——每秒能服务多少个并发请求,每百万 token 成本多少钱。硬件利用率 70% 还是 85%,决定了几百万的成本差距。

个人开发者关心的是两个更简单的问题:这个模型我能不能跑起来,以及速度够不够用

后者其实门槛很低。写代码的时候,20 tokens/s 已经是流畅的流式输出——你的眼睛跟不上。如果你是在做批量文档处理,5 tokens/s 也够用,等得住。真正的死亡线是:模型根本装不进内存,被迫用 CPU 搬运,速度掉到 1-2 tokens/s,那才叫不可用。

所以个人 AI 选硬件,第一个问题不是”多少算力”,而是”装得下多大的模型”。


模型大小 = 内存需求,有一张速查表

语言模型加载到内存里,参数就是主要的空间占用。用最常见的 Q4_K_M 量化精度(大约每参数 4.5 bit),各个主流模型尺寸的内存需求大约是:

模型规模
Q4_K_M 约需内存
典型模型
7B
4.5 GB
Qwen3-8B、Llama-3-8B
14B
9 GB
Qwen3-14B
27B / 32B
17–20 GB
Qwen3.6-27B、Qwen3-32B
70B
40–45 GB
Llama-3.3-70B

注意:KV Cache(推理中间状态)也要占内存,实际运行时还需要额外预留 1-4 GB,具体取决于上下文长度。超长上下文(32K+)的 KV Cache 会占用更多,这也是为什么 48GB 比 24GB 在实际使用中更有余量——KV Cache 的增长往往超出预期。

如果内存有压力,可以降到 Q3 量化(如 Unsloth UD-Q3 动态量化):内存需求减少约 25%,27B 约 13-14 GB,70B 约 30-33 GB。Unsloth 的动态量化对重要层保留更高精度,精度损失比标准 Q3 更小,是 24GB 设备跑 27B 的实用选项。

这张表说明了一个很残酷的事实:想流畅运行 70B 模型,你需要至少 45-50 GB 可用内存。这也是为什么 12GB 显存的显卡注定被排除在 70B 推理之外——不是差一点点,是差了将近四倍。


两种内存,差别在哪

买显卡,看到的是 VRAM(显存);买 Mac,看到的是统一内存(Unified Memory)。两者都是内存,但有本质区别:

VRAM(独立显卡显存)

  • GPU 专属,带宽极高——RTX 5070 的 GDDR7 带宽 672 GB/s,5070 Ti 达 896 GB/s
  • 容量硬封顶,买了就定死——笔记本 RTX 5070 Ti / 5080 均为 16GB;台式机 RTX 4090 24GB,RTX 5090 32GB
  • GPU 需要的数据如果不在 VRAM 里,就要从系统内存搬过来,走 PCIe 总线,最快约 64 GB/s(实测通常 30-50 GB/s)

统一内存(Apple Silicon)

  • CPU 和 GPU 共享同一块物理内存,没有搬运开销——GPU 直接访问
  • 带宽比 VRAM 低——M4 Pro 273 GB/s,M4 Max 546 GB/s
  • 容量大,Mac mini M4 Pro 最高 64GB,M4 Max 可到 128GB
  • 不可升级,买的时候选定就定死了

CPU Offload:速度的悬崖

当模型超出 VRAM 容量,llama.cpp、ollama 这类工具会自动把超出部分「卸载」到系统内存(DDR5),GPU 每次需要时再去取。这叫 CPU offload,听起来是个合理的折中方案,但实际效果是速度悬崖。

原因:数据走 PCIe 总线,带宽约 30-50 GB/s,比 VRAM 带宽慢了 10-20 倍。

实际影响(以 RTX 5080 笔记本 16GB + 系统 DDR5 为例):

场景
推理速度
7B Q4 全部在 VRAM
约 100-150 tokens/s
14B Q4 全部在 VRAM(16GB 装下有余)
约 50-70 tokens/s
27B Q4 少量 offload(约 4-8GB 在 DDR5)
约 8-15 tokens/s
70B Q4 大量 offload(约 25GB 在 DDR5)
约 0.5-2 tokens/s

27B 这一档即便是 16GB 笔记本也已经从”流畅”掉到”勉强能用”,70B 则是真正的不可用——你能在屏幕上看着光标一个字一个字地出现,体验约等于按照秒来数。台式机配 RTX 4090(24GB)则可以把 27B 完整装入显存,彻底消灭这道悬崖;RTX 5090(32GB)更进一步,连 34B 都能全速运行。

Offload 是应急方案,不是正式解决方案。如果你的主要需求需要跑 27B 以上的模型,从一开始就应该选内存够大的设备,而不是事后再靠 offload 弥补。


各硬件平台的模型能力边界

综合上面的数字,五个主流配置的能力边界一目了然:

几个容易误判的点:

M4 Pro 速度比笔记本 RTX 5080 慢,但「能跑」比「跑得快」更重要。对于个人用途,27B 模型 15 tokens/s 完全够用,但 8 tokens/s 已经有明显等待感。台式机配 RTX 4090 则把 27B 的速度推到 30 t/s,差距又拉开了一档。

「显存大小 > 算力高低」是个人AI硬件选型的第一原则。在模型装得进的前提下,再比较速度差异才有意义。

16GB 笔记本(5070 Ti / 5080)和台式机 RTX 4090(24GB)之间的差距,不只是速度。16GB 跑 27B 是勉强应付,24GB 跑 27B 是完全不费力——这是体验质量上的差距,不只是数字上的差距。


一句话结论

选个人 AI 硬件的顺序是:先确认能装下目标模型(内存容量),再看带宽决定跑多快,算力是最后考虑的。

  • 主要跑 14B 以内,需要 CUDA,便携优先:笔记本 RTX 5070 Ti / 5080(16GB),速度快
  • 主要跑 Qwen3.6-27B,台式机 CUDA 路线:RTX 4090(24GB,二手约 8000-12000 元)全流畅约 30 t/s,性价比首选;RTX 5090(32GB)新品约 16000 元,余量更大
  • 主要跑 27B-70B,优先 macOS 生态:Mac mini M4 Pro 48GB,是当前个人最具性价比的大模型推理机
  • 需要跑 128K+ 长上下文的 70B:Mac mini M4 Max 128GB,或者直接租云

下一篇聚焦 Mac mini——它的统一内存不只是容量大,还有一些你未必知道的工程限制。


数据来源:Wikipedia GeForce RTX 50 series(2026年4月)、Apple M4 规格表(Wikipedia 2026年4月);推理速度数据来自 llama.cpp/ollama 社区实测,因配置和量化方式不同会有波动。