买 AI 硬件这件事,99%的人都问错了问题。
一上来就问「哪个性价比最高?」「5090 够用吗?」「Mac 能跑大模型吗?」——这些问题的答案不是「够」或「不够」,是**「你愿意在哪个地方卡住」**。
因为本地跑 AI,本质上是一道三元一次方程:
本地 AI 硬件 = 容量 × 带宽 × 软件栈
容量决定你能不能装下那个模型 带宽决定装下之后跑得快不快 软件栈决定你能兑现参数表上百分之多少的性能
缺一个角,另外两个的优势就全白搭。
一张带宽天梯图,看懂21款AI硬件

按内存带宽从高到低排,市面上所有能跑本地 AI 的硬件长这样:
第一梯队:带宽怪兽(1792 GB/s)
NVIDIA 三张卡霸榜——RTX PRO 6000 Blackwell(96GB)、RTX 5090(32GB)、RTX 4090(24GB)。都是 1792 GB/s 和 1008 GB/s 带宽级别。
GPU 还是绝对的带宽之王。没有对手能接近这个吞吐量。如果你要的是纯 token 生成速度和高并发吞吐,NVIDIA 是唯一答案。
但代价呢?96GB 的 RTX PRO 6000 天价,5090 只有 32GB 显存——大部分大模型根本装不下。
第二梯队:内存海量但带宽打折(819 GB/s)
Mac Studio M3 Ultra:512GB 统一内存,819 GB/s 带宽。
512GB!大部分开源模型想装就能装,不需要多卡分片,不需要搞分布式推理。这就是 Apple Silicon 的独门优势——统一内存架构,CPU 和 GPU 共享一个地址空间,模型直接往内存里一塞就跑。
代价是带宽只有 NVIDIA 旗舰的一半不到。能跑,但不够快。并发场景尤其吃力——多个用户同时请求时,819 GB/s 就扛不住了。
第三梯队:专业卡和准旗舰(640-960 GB/s)
Radeon PRO W7900(48GB@864 GB/s)、AMD Radeon AI PRO R9700(32GB@640 GB/s)、RX 7900 XTX(24GB@960 GB/s)。
AMD 在努力。硬件参数不差。但软件栈——ROCm 的生态成熟度跟 CUDA 还差一个数量级。参数表上的数字,到手能兑现多少,看软件。
第四梯队:新玩家(512-608 GB/s)
Tenstorrent、Intel Arc Pro。前者有完全开源的软件栈(值得长期关注),后者在性价比上做文章。
Tenstorrent 的 Blackhole p150(32GB@512 GB/s+800G 网络)很特别——带宽数字不高,但它带 800G 网络互联。单卡一般,多卡潜力不小。
第五梯队:统一内存的新大陆(120-614 GB/s)
这里最值得说的是 Strix Halo(Ryzen AI Max)。~256 GB/s 统一内存带宽,最多 96GB 可用 GPU 内存。这是 x86 阵营第一个真正的统一内存方案——跟 Apple Silicon 一个架构思路,但在 x86 生态里。
MacBook Pro M5 Max(460-614 GB/s)和 M5 Pro(307 GB/s)也在这一梯队,加上 DGX Spark(128GB@273 GB/s,带 CUDA 一致性内存)、Mac mini M4 Pro(273 GB/s)。
轻薄本这边——MacBook Air M5(153 GB/s)、Snapdragon X2 Elite(152-228 GB/s)、Lunar Lake(136 GB/s)——能跑小模型,别指望跑大的。
重点:GPU 是带宽之王。Apple 赢在能单机塞下任何模型。Strix Halo 是 x86 统一内存的第一个破局者。选谁,取决于你最不能忍哪种瓶颈。
但坏就坏在:能装下 ≠ 能跑好
这是最容易踩的坑。
一个模型「能装进去」,和「用起来爽」,中间隔着六道隐形成本:
解码阶段的带宽消耗。预填充(prefill)是一次性的,解码(decode)是每生成一个 token 都要跑一遍。KV Cache 越长,带宽压力越大。一个 70B 模型,跑长上下文时,解码的带宽消耗能让一块看起来很够的卡直接跪下。
KV Cache 增长。每次对话越长,cache 越大,可用显存越少。你以为 512GB 能跑 70B 就永远够用?多轮对话之后,cache 会吃掉你的显存。
反量化开销。模型按 INT4 存,跑的时候要反量化回 FP16——每算一个 token 都有开销,不是免费的。
批处理和并发。单用户跑和十个用户同时跑,带宽需求是十倍的差距。
调度器质量。你的推理框架能不能高效调度 KV Cache、能否做 continuous batching?llama.cpp、vLLM、TensorRT-LLM 在同样硬件上的吞吐差别能到 2-4 倍。
框架开销。PyTorch 本身就有额外开销,ONNX Runtime 比原生 PyTorch 轻,但也要看具体算子支持。
一句话总结:参数表上的数字,到手之后至少打个七折。好的软件栈能把这个折扣压到九折,差的三折都是正常的。
重点:买硬件前,先去查你打算用的推理框架在那个硬件上的实测吞吐——只看参数表买回来的,大概率是个昂贵的教训。
你的三个问题
每次买 AI 硬件前,按这个顺序问自己:
第一,什么必须装下?
你要跑的模型有多大?70B?405B?或者只跑 7B、13B 就够?这个决定了你最低的显存/内存门槛。装不下,一切都别谈。
第二,你需要哪个带宽级别?
你是自己玩、慢慢生成无所谓?还是要做服务、需要低延迟高并发?819 GB/s 对于个人体验来说绰绰有余,但对于多用户并发,可能 1792 GB/s 都不够。
第三,哪个软件栈能真正兑现它?
NVIDIA 的 CUDA 生态最稳。Apple 的 MLX+CoreML 在快速追赶,但很多模型还没适配。AMD 的 ROCm 在大步快跑,但踩坑概率高。Tenstorrent 全开源,灵活但缺生态。选硬件就是选软件栈——换了软件栈,同样的硅片跑出来完全不同的结果。
到这儿你大概明白了:没有「最好的 AI 硬件」。
5090 快但装不下大模型。Mac 能装下但跑不快。AMD 参数好但软件坑。Tenstorrent 未来可期但今天还嫩。
你在买的是瓶颈,不是全能。
选哪个瓶颈你可以接受,比选哪个硬件「最好」——重要一百倍。
参考链接:[1] https://x.com/TheAhmadOsman/status/2062312164455862286
点赞、转发、小心心❤️欢迎在评论区留下你的想法!
— 完 —
夜雨聆风