AI本地部署硬件选购指南(三):显卡——显存就是命,算力决定速度

AI本地部署硬件选购指南（三）：显卡——显存就是命，算力决定速度

系列导读： 本篇分析AI工作站最核心的组件——显卡。显存大小决定能不能跑，算力高低决定跑多快。
统计基准： 2026年4月，价格、型号、规格均以此时点为准。

一、为什么显卡是AI工作站的核心？

CPU是大脑，显卡是肌肉。本地跑大模型，90%的计算量都在显卡上完成。

两个核心指标：

指标	作用	类比
显存	模型权重的”住所”，装不下就跑不起来	书桌面积，书放不下就别想看
算力	推理速度，每秒生成多少token	阅读速度，看得快才能出活

铁律：显存不够 = 直接跑不了；算力不够 = 能跑但慢。先保显存，再提算力。

二、模型参数与精度：选对格式省显存

详细原理请参阅：《LLM 本地部署硬核指南：显存、算力与量化，一次讲透！》

本节仅列出日常选型所需的核心速查表。

2.1 精度与显存的关系（速查表）

精度格式	每参数占用	7B	31B	适用场景
FP16/BF16	2 字节	14 GB	62 GB	原始权重
INT8	1 字节	7 GB	31 GB	无损/微损
INT4	0.5 字节	3.5 GB	15.5 GB	极致压缩

速算公式：显存 ≈ 参数量(B) × 每参数字节数

2.2 GGUF 量化格式对照（31B模型）

格式	每参数	31B显存	推荐度
Q8_0	≈1 字节	31 GB	高质量（显存翻倍）
Q4_K_M	≈0.56 字节	17.4 GB	⭐主流首选
Q3_K_M	≈0.45 字节	14 GB	16GB显卡极限
Q2_K	≈0.35 字节	10.9 GB	8GB显卡强制用

为什么选 Q4_K_M？ 混合量化，对敏感层保留高精度，质量接近 Q8_0，显存省 75%。

2.3 精度对推理的影响

量化	准确度	速度	显存
FP16/BF16	100%	基准	1×
INT8	≈99%	快 1.5~2×	½
Q4_K_M	≈97%	快 3~4×	¼

实测（31B + RTX 4090D）：Q4_K_M 速度约 55-65 t/s，准确度损耗仅 2-3%

2.4 精度选择实战

你的情况	推荐格式	说明
31B + 4090D	Q4_K_M	主流最佳平衡
7B/13B	Q4_K_M 或 Q5_K_M	显存够用，质量很好
16GB 显卡	Q4_K_M	16GB 装 31B 的极限
8GB 显卡	Q3_K_M / Q2_K	质量损失大，慎用
70B + 5090D	Q4_K_M	32GB 刚好放下

结论：31B 模型必须量化，24GB 显存是单卡最低门槛。

三、显存容量怎么选？

主流模型精确显存数据、显卡适配表、KV Cache 量化命令 已拆分为独立文章，请参阅：
《主流大模型显存占用硬核指南：KV Cache、GQA 与 Qwen-DeepSeek 系列精确数据》

该文章包含：

• Qwen2.5 / DeepSeek-R1-Distill / Llama 各模型显存速查表

• RTX 4060 Ti / 4090D / 5090D 显卡适配表

• KV Cache 量化的具体命令行示例（llama.cpp / vLLM）

• 模型选型决策树

3.1 快速决策表（日常参考）

你的需求	推荐显卡	推荐模型	说明
入门学习，跑7B模型	RTX 4060 Ti 16G	Qwen2.5-7B	128K上下文流畅
主力开发，跑14B模型	RTX 4090D 24G	Qwen2.5-14B	32K上下文流畅
生产环境，跑32B模型	RTX 5090D 32G	Qwen2.5-32B	45K上下文流畅
推理增强任务	RTX 5090D 32G	R1-Distill-Qwen-32B	推理能力强，显存同上

四、为什么不推荐AMD显卡？

这可能是本系列最有争议的结论。先说事实：

AMD显卡的硬件并不差，甚至有亮点：

AMD显卡	显存	亮点
RX 7900 XTX	24GB	和RTX 4090D同样24GB，价格便宜
RX 9070 XT	16GB	新一代RDNA4，价格便宜

看起来性价比碾压。那为什么还是不推荐？

4.1 一个词：ROCm

ROCm是AMD的CUDA替代品，相当于AMD版的GPU计算框架。问题在于：

对比维度	NVIDIA CUDA	AMD ROCm
生态成熟度	行业标准，20年积累	起步晚，持续追赶中
vLLM支持	✅ 原生支持，生产级	⚠️ 实验性支持，Bug多
Ollama支持	✅ 完美	⚠️ 有ROCm版，但性能不稳定
PyTorch支持	✅ 原生一等公民	⚠️ ROCm后端，部分算子不支持
模型量化工具	✅ GPTQ/AWQ/GGUF全家桶	❌ 大部分工具只支持CUDA
微调（LoRA/QLoRA）	✅ 全流程成熟	⚠️ 部分可用，踩坑多
社区教程	✅ 遇到问题100%能搜到答案	❌ 资料极少，靠自己
Docker部署	✅ nvidia-container-toolkit一键搞定	⚠️ ROCm Docker配置复杂
Windows支持	✅ 完美	❌ ROCm主要支持Linux

4.2 真实场景对比

场景	RTX 4090D（CUDA）	RX 7900 XTX（ROCm）
Ollama跑31B模型	一行命令搞定	需装ROCm驱动，可能报错
vLLM 5路并发	生产级稳定	实验性，可能崩溃
GPTQ量化模型	直接加载	可能不支持该量化格式
模型微调	2小时搞定	2天踩坑，可能还是不行

4.3 什么时候可以考虑AMD显卡？

情况	可以考虑	说明
只跑Ollama + GGUF格式	✅	GGUF对ROCm支持较好
纯Linux环境	✅	ROCm在Linux上比Windows好得多
预算极其有限，必须24GB	✅	RX 7900 XTX 24GB确实便宜
不做微调、不用vLLM	✅	简单推理场景够用

结论：AMD显卡是”硬件好但软件拖后腿”的典型。24GB显存价格纸面参数很诱人，但AI推理不是看纸面参数——框架兼容性、量化工具链、社区支持这些”软实力”才是每天用到的。对于本系列面向的31B+模型+5路并发+微调需求，NVIDIA CUDA是目前唯一成熟的选择。

五、算力怎么看？

5.1 FP8算力计算公式

FP8算力 = CUDA核心数 × 加速频率(GHz) × 架构倍数
40系(Ada)：×8 | 50系(Blackwell)：×16

5.2 2026年主流显卡AI算力一览

显卡	显存	FP8算力	31B INT4速度	5路并发	适合模型	评级
RTX 5070 Ti 16G	16G	360T	❌ 装不下	—	7B~13B	13B甜品
RTX 4060 Ti 16G	16G	89T	❌ 装不下	—	7B~13B	13B入门
RTX 3080 Ti 12G	12G	340T	❌ 装不下	—	7B~13B	13B二手性价比
RTX 3080 10G	10G	272T	❌ 装不下	—	7B~13B	13B最省钱
RTX 3090 24G	24G	497T	42~55 t/s	✅ 流畅	7B~31B	⭐ 31B性价比之王
RTX 3090 Ti 24G	24G	563T	48~62 t/s	✅ 流畅	7B~31B	31B高配二手
RTX 4090D 24G	24G	620T	55~65 t/s	✅ 流畅	7B~31B	⭐ 31B首选（全新）
RTX 4090 24G	24G	836T	65~78 t/s	✅ 流畅	7B~31B	31B旗舰
RTX 5080 24G	24G	860T	60~70 t/s	✅ 流畅	7B~31B	一步到位
RTX 5090D 32G	32G	1280T	75~90 t/s	✅ 丝滑	7B~70B	顶级
RTX 5090 32G	32G	1700T	90~110 t/s	✅ 极致	7B~70B	旗舰

t/s = token/s，即每秒生成token数。5路并发时，总速度÷5≈单路体验。

关于RTX 3090在中国： RTX 3090和RTX 3090 Ti在中国无官方全新在售，均为二手/库存。购买前务必做矿卡鉴定（详见本章第六节）。但24GB显存+，是目前跑31B模型性价比最高的选择。

关于RTX 4090 vs RTX 4090D： 中国特供版RTX 4090D相比标准RTX 4090，在INT8算力上略有阉割（约620T vs 836T），但显存同为24GB。对AI推理而言，31B模型的速度差异在15%以内，RTX 4090D性价比更高。

六、训练与推理：显卡选型的核心差异

核心结论：训练和推理在显卡选型上的差异极大，二者的核心需求、优先级指标、硬件选型逻辑完全不同，甚至很多适合推理的卡完全不适合训练，反之亦然。

6.1 任务本质差异

任务	本质	特点
训练	「教模型学习」	海量数据的前向传播+反向梯度迭代，长周期、重负载、高容错成本
推理	「用模型干活」	仅加载训练好的权重做前向输出，低延迟、高并发、低成本

6.2 核心选型指标优先级对比

对比维度	训练场景（含全参数微调）	推理场景（含本地部署、批量服务）
核心第一诉求	高吞吐、长时稳定、无差错迭代	低延迟、高能效、低成本部署
显存优先级	绝对第一优先级，容量+带宽双极致	仅为入门门槛，够用即可
算力优先级	半精度（FP16/BF16）张量核心算力	低精度（INT4/INT8/FP8）算力，优先能效比
多卡互联需求	极高，NVLink/高速互联决定加速比	极低，单卡即可满足绝大多数需求
稳定性/容错	极高，ECC显存、企业级散热是刚需	极低，消费级硬件完全可胜任
功耗敏感度	次要，优先保证算力和稳定性	核心指标，长期运行电费占比高
消费级卡适配	仅适合中小模型轻量微调	完美适配，同价位体验远超老专业卡

6.3 训练场景的显卡选型逻辑

训练（尤其是全参数微调、大模型预训练）的硬件瓶颈，90%先卡在显存，其次是显存带宽，最后才是核心算力。

显存容量是不可逾越的硬门槛

全参数训练/微调，需要同时加载模型权重、优化器状态、梯度值、中间激活值，显存占用是同模型推理的2-4倍。

模型规模	全参数微调最低显存
7B	24GB
13B	40GB+
70B	80GB+

⚠️ 低于这个阈值，哪怕算力再强，也根本无法启动任务。

架构先进性决定训练效率

现代大模型训练普遍采用FP16/BF16/FP8混合精度，只有新架构（Ada Lovelace、Hopper、Blackwell）的张量核心能对这些精度做硬件级加速。

架构	年代	FP8支持	训练效率
Volta（V100）	2017	❌	落后数代
Ampere（A100）	2020	⚠️	可用
Ada（RTX 40系）	2022	✅	主流
Hopper（H100）	2022	✅	专业首选
Blackwell（RTX 50系）	2024	✅	最新

多卡互联与企业级稳定性

百亿参数以上的大模型预训练，必须依赖：

• 多卡NVLink高速互联（PCIe带宽完全无法满足并行需求）
• ECC显存纠错
• 7×24小时满载稳定性

💡 这类场景只有H100/H200/A100等数据中心级专业卡能胜任，消费级卡无NVLink、无ECC，仅适合个人/小团队的中小模型轻量微调。

6.4 推理场景的显卡选型逻辑

推理的硬件选型逻辑和训练几乎完全相反：优先看成本与能效，其次是显存够用，最后才看峰值算力。

显存仅需满足门槛，量化可大幅降低需求

推理仅需加载模型权重，无需存储优化器、梯度等冗余数据，配合INT4/INT8量化技术，显存需求可直接砍半甚至更低。

模型规模	4bit量化显存需求
7B	8GB
13B	16GB
70B	48GB

✅ 完全不需要训练场景的极致大显存。

新消费级卡全面碾压老专业卡

RTX 40系等新消费级架构，对低精度推理的硬件级优化，远超V100/P100等古董专业卡：

对比	RTX 4090	V100
同价位推理速度	更快	更慢
单token延迟	更低	更高
功耗	更低	更高
开箱即用适配性	完美	差

成本与能效是核心决策点

推理是长期持续运行的任务，硬件采购成本、电费成本是核心考量。

场景	推荐方案	说明
个人本地推理	RTX 4060Ti 16GB	流畅跑主流模型
企业级高并发推理	L4/L40S	能效比高、长时稳定

容错成本极低，无企业级硬件刚需

推理单请求出错，仅需重试即可，不会造成大规模算力浪费。消费级显卡的稳定性完全能满足绝大多数推理场景的需求。

6.5 通用选型建议

场景	推荐显卡	说明
大规模预训练/34B+模型全参数微调	H200/H100/A100 80GB	NVLink多卡服务器，企业级部署
个人/小团队7B-13B模型轻量微调	RTX 4090 24GB / RTX 5090 32GB	性价比拉满，完全满足需求
个人本地开源模型推理	RTX 4060Ti 16GB / RTX 4070Ti Super 16GB	显存够用、功耗低、开箱即用
企业级高并发批量推理	L4/L40S/H200	能效比高、长时稳定

七、双显卡有必要吗？

7.1 什么场景需要双卡？

场景	单卡	双卡	说明
跑一个31B模型	✅ 24GB够	不需要	单卡搞定
跑两个不同模型	❌ 显存不够	✅ 各跑各的	Ollama多实例
跑70B模型	❌ 24GB装不下	✅ 显存拼接	48GB刚好
5路以上高并发	⚠️ 排队慢	✅ 吞吐翻倍	vLLM双卡调度

7.2 长对话场景：单卡vs双卡效率对比

核心结论：在个人单用户长对话场景下，单卡效率全面领先，双卡反而会出现10%-50%的性能损耗。

场景一：模型+目标上下文，单卡显存完全能容纳

指标	单卡	双卡（纯PCIe）	双卡（NVLink）
Token生成速度	100%	50%-90%	80%-95%
延迟	最低	更高	较低
跨卡通信开销	无	有	较小

核心原因：模型全量加载在单卡上，所有计算都在单卡内完成，无任何跨卡通信开销。而双卡必须通过张量并行拆分模型层，每生成一个token，都要在两张卡之间做数据同步、张量传输。

⚠️ 这个通信开销，在单用户单batch的长对话推理场景，完全抵消了双卡的算力优势，反而拖慢速度。

双卡的算力优势，仅在高并发、大批量的多用户推理场景才能发挥。

场景二：模型本身单卡无法容纳，必须双卡拆分

方案	显存占用	质量	Token速度
单卡4bit量化	~8GB（13B）	损耗明显	更快
双卡FP16全精度	48GB（双3090）	更优	慢10%-30%
双卡+NVLink	48GB	更优	慢10%以内

效率对比：双卡FP16全精度的生成质量、逻辑连贯性远优于单卡4bit量化，但受跨卡通信开销影响，token速度仍会比单卡4bit慢10%-30%。

7.3 多卡能不能支持超过单卡容量的长对话？

完全可以，但核心取决于显存瓶颈类型。

最常见场景：模型权重单卡装得下，KV缓存超单卡上限

这是90%的长对话爆显存场景（比如7B模型4bit量化仅占8GB显存，单卡24GB剩下的16GB全给KV缓存，上下文到128K以上就会爆显存）。

实现方式：通过序列并行/KV缓存分片，把超长上下文的KV缓存均匀拆分到多张显卡上。

实际效果：两张3090 24G双卡，可实现接近单卡2倍的上下文长度上限，完全突破单卡显存限制。

极端场景：模型权重本身就超过单卡容量

实现方式：先通过张量并行/流水线并行，把模型权重拆分到多张显卡上完成加载，再配合KV缓存分片，同时突破「模型权重容量」和「上下文长度」的双上限。

实际效果：两张3090 24G双卡总可用显存48GB，可加载单卡24GB无法运行的34B 4bit大模型，同时支持远超单卡上限的超长上下文对话。

关键避坑：异构显存双卡完全无法实现超单卡上限

⚠️ 如果用一张24GB卡+一张12GB卡组成双卡，可用显存上限会以显存最小的卡为基准，总可用容量仅12GB×2=24GB，和单张24GB卡完全一致。

不仅无法突破单卡上限，还要额外承担跨卡通信开销，速度反而比单卡更慢。

7.4 个人长对话场景的最优选型建议

建议	说明
优先选大显存单卡	单卡无跨卡通信开销、开箱即用、延迟更低
超长上下文优先优化KV缓存	KV缓存从FP16量化到INT8/INT4，显存占用砍半，零性能损耗
非要上双卡，必须同型号同显存	异构卡混搭会出现负优化
双卡优先搭配NVLink桥接	降低通信损耗

对比：同预算单张RTX 4090 24G，在个人长对话场景的体验，远好于两张RTX 3090 24G组成的双卡。

7.5 双卡的坑

坑	说明
主板屏蔽M.2	很多主板插第二张显卡后，M.2被屏蔽（详见第四篇主板篇）
功耗翻倍	双3090满载700W+，加上其他功耗建议1400W+
散热压力	两张卡挨着，上面那张温度+15°C
无SLI加速	消费级不支持SLI，双卡只能算力叠加，不能单任务加速
异构卡混搭	显存以最小卡为基准，不仅无增益反而有损耗

双卡不是为了”更快”，而是为了”更多显存”和”更多并发”。个人长对话场景优先单卡大显存。

八、购买渠道分析：盒装 vs 散装 vs 二手

本节核心：AI工作站组件该怎么买？哪些值得省钱，哪些绝对不能省。

8.1 三个渠道核心对比

对比维度	盒装（全新）	散装	二手
价格	定价	比盒装低5~15%	低30~60%
保修	3年官方保修	店保（1年）	无官方保修
假货风险	极低	极低（显卡无法造假，但可以魔改）	矿卡风险
性能影响	正常	正常	可能降频
适用场景	主力卡必选	入门卡可选，仅熟人	仅限熟人处

8.2 显卡散装：为什么比显卡盒装风险低？

显卡几乎不存在假货——RTX 4090D的核心和显存无法仿制。 散装卡和盒装卡是同一批出厂产品，区别仅在包装：

差异	盒装	散装
风扇转速	已调校	可能需手动拉高
保修	3年品牌保修	店铺保修（1年）
附件	说明书、供电线	仅卡本体
价格差	基准	低5~10%

结论：RTX 5060 Ti/4070 Ti这类入门卡买散装问题不大，省几百元。但RTX 4090D及以上必须买全新。

8.3 二手显卡：矿卡——最大的坑

什么是矿卡？ 长期7×24小时高负载运算挖ETH（以太坊）的显卡，核心和显存长期在80°C+高温下工作，内部焊点疲劳、显存老化、散热风扇轴承磨损。

RTX 4090D矿卡识别清单

鉴别方法	操作	正常卡	矿卡特征
外观检查	拆开侧板看核心散热片	银白色硅脂	硅脂干裂发黑、发绿（盐化）
PCB颜色	观察PCB板颜色	深绿色	发黄、发暗（高温氧化）
电容状态	观察核心供电电容	平整无凸起	鼓包、爆浆
风扇声音	开机听风扇	平滑安静	明显异响、轴承磨损
SN码查询	官网查询SN	官方在保	无法查询或已拒保
Furmark压力测试	30分钟压力测试	温度<80°C	温度>85°C，降频严重
显存温度	GPU-Z监控	<90°C	显存温度异常飙升

实操：购买二手4090D前，一定要跑30分钟Furmark + GPU-Z实时监控显存温度。任何显存温度超过95°C的卡，都可能是矿锻炼过的。

RTX 4090D价格陷阱

来源	风险等级
全新盒装/散装	✅ 无风险
二手自用玩家	⚠️ 需验货
二手”工作室升级出”	🔴 高风险，很可能是矿
某鱼”女生自用”	🔴 极高风险

某鱼上大量”女生自用4090″、”工作室升级出4090″，实际是矿老板出货。价格低于¥6,000的二手RTX 4090D，99%有问题。

8.4 显卡选购场景建议

场景	推荐渠道	理由
RTX 5060 Ti / 4070 Ti（万元以内）	散装	便宜几百，无矿卡风险
RTX 4090D（主力卡）	盒装或散装全新	矿卡概率高，必须全新
RTX 5090D（旗舰）	盒装	一步到位不省
RTX 4090D二手（省钱）	仅限自用一手朋友处购买	信任关系，无矿卡风险

AI工作站显卡购买原则：主力卡（4090D及以上）必须买全新；万元以内的卡买散装问题不大。

九、四档配置方案

RTX 3090特别说明： RTX 3090 24G在中国已无官方全新渠道，为二手/库存。购买务必做矿卡鉴定（见第六节），或在可信渠道（朋友转让、信任商家）购买。买24G，是目前31B模型性价比最高的选择。

显卡推荐矩阵：每档都有多个选择

显存档位	推荐显卡	显存	适合场景	推荐度
16GB	RTX 5070 Ti 16G	16G	7B~13B，入门首选	⭐⭐⭐
	RTX 5060 Ti 16G	16G	7B~13B，最低价全新	⭐⭐
	RTX 4060 Ti 16G	16G	7B，性价比最高	⭐⭐
	RTX 3080 Ti 12G	12G	7B~13B，二手低价	⭐
24GB	RTX 3090 24G	24G	7B~31B，31B性价比首选	⭐⭐⭐⭐⭐
	RTX 3090 Ti 24G	24G	7B~31B，二手高配	⭐⭐⭐⭐
	RTX 4090D 24G	24G	7B~31B，31B首选（全新）	⭐⭐⭐⭐⭐
	RTX 4090 24G	24G	7B~31B，旗舰性能	⭐⭐⭐
	RTX 5080 24G	24G	7B~31B，一步到位	⭐⭐⭐
32GB	RTX 5090D 32G	32G	7B~70B，顶级旗舰	⭐⭐⭐⭐⭐
	RTX 5090 32G	32G	7B~70B，极致性能	⭐⭐⭐

使用场景快速对照

你的需求	推荐显卡	理由
入门学习，跑7B模型练手	RTX 4060 Ti 16G	最便宜的16G卡
主要跑13B，偶尔31B	RTX 5070 Ti 16G	13B流畅，16G底线
31B模型，追求性价比	RTX 3090 24G（二手）	⭐买24G，选它**
31B模型，求稳定买全新	RTX 4090D 24G	无矿卡风险，全新保障
31B模型，要算力也要显存	RTX 4090 24G	算力比4090D强35%
70B模型，必须32GB	RTX 5090D 32G	唯一消费级32G
双卡70B（预算有限）	RTX 4090D × 2	48GB显存
二手显卡练手，不心疼	RTX 3080 Ti 12G	二手最低门槛

最低配置（7B~13B模型，个人学习）

组件	推荐	说明
显卡	RTX 5060 Ti 16G	16GB显存，13B模型流畅

组件	推荐	说明
显卡	RTX 4090D 24G	24GB显存+620T算力，31B模型5路并发流畅

最优配置（70B+模型，高并发）

组件	推荐	说明
显卡	RTX 5090D 32G	32GB显存+1280T算力，70B模型可跑，未来5年不过时

考虑升级配置

升级路径	说明
单卡→加第二张同型号	显存翻倍，需主板支持双卡不屏蔽M.2（详见主板篇）
16G→24G	换卡，16GB无法升级显存
24G→32G	换卡，RTX 5090D 32GB一步到位
⚠️ 注意	加第二张卡需确认电源（+300~400W）和散热

十、关联组件注意事项

关联	注意点
主板	双卡必须选白名单主板，否则M.2被屏蔽
电源	单4090D需850W+，双卡需1000W+
散热	双卡间距小，优先选3槽以上间距主板
机箱	显卡长度335mm+，机箱必须支持
显存卸载	显存不够时可用内存卸载，但速度暴跌8倍

免责声明：

1. 本文仅为作者个人学习过程的记录与交流分享，不构成任何形式的购买建议、投资建议或操作指导。

2. 作者并非硬件或相关领域的专业人士，文中所有技术描述、性能分析、观点结论等均基于个人理解和公开资料整理，可能存在错误或偏差。欢迎读者批评指正。

3. 文中所引用的所有数据、图表、参数、对比信息等内容，均为作者在学习过程中自行整理或生成，仅用作个人记录与辅助理解，不保证其绝对准确性、完整性或时效性。

4. 文中提及的硬件价格均为基于2026年4月市场行情的参考价，实际价格以购买时的商家报价为准，价格波动恕不另行通知。

5. 任何个人或机构若参考本文中的任何数据、观点或结论进行决策、购买、投资或操作，由此产生的直接或间接损失（包括但不限于财产损失、数据丢失、机会成本等），作者概不负责。本文不承诺对参考行为产生的任何后果承担法律责任。

6. 本文内容可能随时被作者修订或删除，恕不另行告知。

请读者结合多方信息，独立判断，理性决策。

下一篇：主板——双卡为什么会吞M.2？哪些主板不坑？