乐于分享
好东西不私藏

AI本地部署硬件选购指南(三):显卡——显存就是命,算力决定速度

AI本地部署硬件选购指南(三):显卡——显存就是命,算力决定速度

AI本地部署硬件选购指南(三):显卡——显存就是命,算力决定速度

系列导读: 本篇分析AI工作站最核心的组件——显卡。显存大小决定能不能跑,算力高低决定跑多快。
统计基准: 2026年4月,价格、型号、规格均以此时点为准。


一、为什么显卡是AI工作站的核心?

CPU是大脑,显卡是肌肉。本地跑大模型,90%的计算量都在显卡上完成

两个核心指标:

指标
作用
类比
显存
模型权重的”住所”,装不下就跑不起来
书桌面积,书放不下就别想看
算力
推理速度,每秒生成多少token
阅读速度,看得快才能出活

铁律:显存不够 = 直接跑不了;算力不够 = 能跑但慢。先保显存,再提算力。


二、模型参数与精度:选对格式省显存

详细原理请参阅:《LLM 本地部署硬核指南:显存、算力与量化,一次讲透!》

本节仅列出日常选型所需的核心速查表


2.1 精度与显存的关系(速查表)

精度格式
每参数占用
7B
31B
适用场景
FP16/BF16
2 字节
14 GB
62 GB
原始权重
INT8
1 字节
7 GB
31 GB
无损/微损
INT4
0.5 字节
3.5 GB
15.5 GB
极致压缩

速算公式显存 ≈ 参数量(B) × 每参数字节数


2.2 GGUF 量化格式对照(31B模型)

格式
每参数
31B显存
推荐度
Q8_0
≈1 字节
31 GB
高质量(显存翻倍)
Q4_K_M
≈0.56 字节
17.4 GB
⭐主流首选
Q3_K_M
≈0.45 字节
14 GB
16GB显卡极限
Q2_K
≈0.35 字节
10.9 GB
8GB显卡强制用

为什么选 Q4_K_M? 混合量化,对敏感层保留高精度,质量接近 Q8_0,显存省 75%。


2.3 精度对推理的影响

量化
准确度
速度
显存
FP16/BF16
100%
基准
INT8
≈99%
快 1.5~2×
½
Q4_K_M
≈97%
快 3~4×
¼

实测(31B + RTX 4090D):Q4_K_M 速度约 55-65 t/s,准确度损耗仅 2-3%


2.4 精度选择实战

你的情况
推荐格式
说明
31B + 4090D Q4_K_M
主流最佳平衡
7B/13B
Q4_K_M 或 Q5_K_M
显存够用,质量很好
16GB 显卡
Q4_K_M
16GB 装 31B 的极限
8GB 显卡
Q3_K_M / Q2_K
质量损失大,慎用
70B + 5090D
Q4_K_M
32GB 刚好放下

结论:31B 模型必须量化,24GB 显存是单卡最低门槛。

三、显存容量怎么选?

主流模型精确显存数据、显卡适配表、KV Cache 量化命令 已拆分为独立文章,请参阅:
《主流大模型显存占用硬核指南:KV Cache、GQA 与 Qwen-DeepSeek 系列精确数据》

该文章包含:

  • • Qwen2.5 / DeepSeek-R1-Distill / Llama 各模型显存速查表
  • • RTX 4060 Ti / 4090D / 5090D 显卡适配表
  • • KV Cache 量化的具体命令行示例(llama.cpp / vLLM)
  • • 模型选型决策树

3.1 快速决策表(日常参考)

你的需求
推荐显卡
推荐模型
说明
入门学习,跑7B模型
RTX 4060 Ti 16G
Qwen2.5-7B
128K上下文流畅
主力开发,跑14B模型
RTX 4090D 24G
Qwen2.5-14B
32K上下文流畅
生产环境,跑32B模型
RTX 5090D 32G
Qwen2.5-32B
45K上下文流畅
推理增强任务
RTX 5090D 32G
R1-Distill-Qwen-32B
推理能力强,显存同上

四、为什么不推荐AMD显卡?

这可能是本系列最有争议的结论。先说事实:

AMD显卡的硬件并不差,甚至有亮点:

AMD显卡
显存
亮点
RX 7900 XTX
24GB
和RTX 4090D同样24GB,价格便宜
RX 9070 XT
16GB
新一代RDNA4,价格便宜

看起来性价比碾压。那为什么还是不推荐?

4.1 一个词:ROCm

ROCm是AMD的CUDA替代品,相当于AMD版的GPU计算框架。问题在于:

对比维度
NVIDIA CUDA
AMD ROCm
生态成熟度
行业标准,20年积累
起步晚,持续追赶中
vLLM支持
✅ 原生支持,生产级
⚠️ 实验性支持,Bug多
Ollama支持
✅ 完美
⚠️ 有ROCm版,但性能不稳定
PyTorch支持
✅ 原生一等公民
⚠️ ROCm后端,部分算子不支持
模型量化工具
✅ GPTQ/AWQ/GGUF全家桶
❌ 大部分工具只支持CUDA
微调(LoRA/QLoRA)
✅ 全流程成熟
⚠️ 部分可用,踩坑多
社区教程
✅ 遇到问题100%能搜到答案
❌ 资料极少,靠自己
Docker部署
✅ nvidia-container-toolkit一键搞定
⚠️ ROCm Docker配置复杂
Windows支持
✅ 完美
❌ ROCm主要支持Linux

4.2 真实场景对比

场景
RTX 4090D(CUDA)
RX 7900 XTX(ROCm)
Ollama跑31B模型
一行命令搞定
需装ROCm驱动,可能报错
vLLM 5路并发
生产级稳定
实验性,可能崩溃
GPTQ量化模型
直接加载
可能不支持该量化格式
模型微调
2小时搞定
2天踩坑,可能还是不行

4.3 什么时候可以考虑AMD显卡?

情况
可以考虑
说明
只跑Ollama + GGUF格式
GGUF对ROCm支持较好
纯Linux环境
ROCm在Linux上比Windows好得多
预算极其有限,必须24GB
RX 7900 XTX 24GB确实便宜
不做微调、不用vLLM
简单推理场景够用

结论:AMD显卡是”硬件好但软件拖后腿”的典型。24GB显存价格纸面参数很诱人,但AI推理不是看纸面参数——框架兼容性、量化工具链、社区支持这些”软实力”才是每天用到的。对于本系列面向的31B+模型+5路并发+微调需求,NVIDIA CUDA是目前唯一成熟的选择。


五、算力怎么看?

5.1 FP8算力计算公式

FP8算力 = CUDA核心数 × 加速频率(GHz) × 架构倍数
40系(Ada):×8 | 50系(Blackwell):×16

5.2 2026年主流显卡AI算力一览

显卡
显存
FP8算力
31B INT4速度
5路并发
适合模型
评级
RTX 5070 Ti 16G 16G 360T
❌ 装不下
7B~13B
13B甜品
RTX 4060 Ti 16G 16G 89T
❌ 装不下
7B~13B
13B入门
RTX 3080 Ti 12G 12G 340T
❌ 装不下
7B~13B
13B二手性价比
RTX 3080 10G 10G 272T
❌ 装不下
7B~13B
13B最省钱
RTX 3090 24G 24G 497T 42~55 t/s
✅ 流畅
7B~31B
⭐ 31B性价比之王
RTX 3090 Ti 24G 24G 563T 48~62 t/s
✅ 流畅
7B~31B
31B高配二手
RTX 4090D 24G 24G 620T 55~65 t/s
✅ 流畅
7B~31B
⭐ 31B首选(全新)
RTX 4090 24G 24G 836T 65~78 t/s
✅ 流畅
7B~31B
31B旗舰
RTX 5080 24G 24G 860T 60~70 t/s
✅ 流畅
7B~31B
一步到位
RTX 5090D 32G 32G 1280T 75~90 t/s
✅ 丝滑
7B~70B
顶级
RTX 5090 32G 32G 1700T 90~110 t/s
✅ 极致
7B~70B
旗舰

t/s = token/s,即每秒生成token数。5路并发时,总速度÷5≈单路体验。

关于RTX 3090在中国: RTX 3090和RTX 3090 Ti在中国无官方全新在售,均为二手/库存。购买前务必做矿卡鉴定(详见本章第六节)。但24GB显存+,是目前跑31B模型性价比最高的选择。

关于RTX 4090 vs RTX 4090D: 中国特供版RTX 4090D相比标准RTX 4090,在INT8算力上略有阉割(约620T vs 836T),但显存同为24GB。对AI推理而言,31B模型的速度差异在15%以内,RTX 4090D性价比更高


六、训练与推理:显卡选型的核心差异

核心结论:训练和推理在显卡选型上的差异极大,二者的核心需求、优先级指标、硬件选型逻辑完全不同,甚至很多适合推理的卡完全不适合训练,反之亦然。

6.1 任务本质差异

任务
本质
特点
训练
「教模型学习」
海量数据的前向传播+反向梯度迭代,长周期、重负载、高容错成本
推理
「用模型干活」
仅加载训练好的权重做前向输出,低延迟、高并发、低成本

6.2 核心选型指标优先级对比

对比维度
训练场景(含全参数微调)
推理场景(含本地部署、批量服务)
核心第一诉求
高吞吐、长时稳定、无差错迭代
低延迟、高能效、低成本部署
显存优先级
绝对第一优先级,容量+带宽双极致
仅为入门门槛,够用即可
算力优先级
半精度(FP16/BF16)张量核心算力
低精度(INT4/INT8/FP8)算力,优先能效比
多卡互联需求
极高,NVLink/高速互联决定加速比
极低,单卡即可满足绝大多数需求
稳定性/容错
极高,ECC显存、企业级散热是刚需
极低,消费级硬件完全可胜任
功耗敏感度
次要,优先保证算力和稳定性
核心指标,长期运行电费占比高
消费级卡适配
仅适合中小模型轻量微调
完美适配,同价位体验远超老专业卡

6.3 训练场景的显卡选型逻辑

训练(尤其是全参数微调、大模型预训练)的硬件瓶颈,90%先卡在显存,其次是显存带宽,最后才是核心算力。

显存容量是不可逾越的硬门槛

全参数训练/微调,需要同时加载模型权重、优化器状态、梯度值、中间激活值,显存占用是同模型推理的2-4倍

模型规模
全参数微调最低显存
7B
24GB
13B
40GB+
70B
80GB+

⚠️ 低于这个阈值,哪怕算力再强,也根本无法启动任务。

架构先进性决定训练效率

现代大模型训练普遍采用FP16/BF16/FP8混合精度,只有新架构(Ada Lovelace、Hopper、Blackwell)的张量核心能对这些精度做硬件级加速

架构
年代
FP8支持
训练效率
Volta(V100)
2017
落后数代
Ampere(A100)
2020
⚠️
可用
Ada(RTX 40系)
2022
主流
Hopper(H100)
2022
专业首选
Blackwell(RTX 50系)
2024
最新

多卡互联与企业级稳定性

百亿参数以上的大模型预训练,必须依赖:

  • • 多卡NVLink高速互联(PCIe带宽完全无法满足并行需求)
  • • ECC显存纠错
  • • 7×24小时满载稳定性

💡 这类场景只有H100/H200/A100等数据中心级专业卡能胜任,消费级卡无NVLink、无ECC,仅适合个人/小团队的中小模型轻量微调。


6.4 推理场景的显卡选型逻辑

推理的硬件选型逻辑和训练几乎完全相反:优先看成本与能效,其次是显存够用,最后才看峰值算力

显存仅需满足门槛,量化可大幅降低需求

推理仅需加载模型权重,无需存储优化器、梯度等冗余数据,配合INT4/INT8量化技术,显存需求可直接砍半甚至更低。

模型规模
4bit量化显存需求
7B
8GB
13B
16GB
70B
48GB

✅ 完全不需要训练场景的极致大显存。

新消费级卡全面碾压老专业卡

RTX 40系等新消费级架构,对低精度推理的硬件级优化,远超V100/P100等古董专业卡:

对比
RTX 4090
V100
同价位推理速度
更快
更慢
单token延迟
更低
更高
功耗
更低
更高
开箱即用适配性
完美

成本与能效是核心决策点

推理是长期持续运行的任务,硬件采购成本、电费成本是核心考量。

场景
推荐方案
说明
个人本地推理
RTX 4060Ti 16GB
流畅跑主流模型
企业级高并发推理
L4/L40S
能效比高、长时稳定

容错成本极低,无企业级硬件刚需

推理单请求出错,仅需重试即可,不会造成大规模算力浪费。消费级显卡的稳定性完全能满足绝大多数推理场景的需求。


6.5 通用选型建议

场景
推荐显卡
说明
大规模预训练/34B+模型全参数微调
H200/H100/A100 80GB
NVLink多卡服务器,企业级部署
个人/小团队7B-13B模型轻量微调
RTX 4090 24GB / RTX 5090 32GB
性价比拉满,完全满足需求
个人本地开源模型推理
RTX 4060Ti 16GB / RTX 4070Ti Super 16GB
显存够用、功耗低、开箱即用
企业级高并发批量推理
L4/L40S/H200
能效比高、长时稳定

七、双显卡有必要吗?

7.1 什么场景需要双卡?

场景
单卡
双卡
说明
跑一个31B模型
✅ 24GB够
不需要
单卡搞定
跑两个不同模型
❌ 显存不够
✅ 各跑各的
Ollama多实例
跑70B模型
❌ 24GB装不下
✅ 显存拼接
48GB刚好
5路以上高并发
⚠️ 排队慢
✅ 吞吐翻倍
vLLM双卡调度

7.2 长对话场景:单卡vs双卡效率对比

核心结论:在个人单用户长对话场景下,单卡效率全面领先,双卡反而会出现10%-50%的性能损耗。

场景一:模型+目标上下文,单卡显存完全能容纳

指标
单卡
双卡(纯PCIe)
双卡(NVLink)
Token生成速度
100%
50%-90%
80%-95%
延迟
最低
更高
较低
跨卡通信开销
较小

核心原因:模型全量加载在单卡上,所有计算都在单卡内完成,无任何跨卡通信开销。而双卡必须通过张量并行拆分模型层,每生成一个token,都要在两张卡之间做数据同步、张量传输。

⚠️ 这个通信开销,在单用户单batch的长对话推理场景,完全抵消了双卡的算力优势,反而拖慢速度。

双卡的算力优势,仅在高并发、大批量的多用户推理场景才能发挥。

场景二:模型本身单卡无法容纳,必须双卡拆分

方案
显存占用
质量
Token速度
单卡4bit量化
~8GB(13B)
损耗明显
更快
双卡FP16全精度
48GB(双3090)
更优
慢10%-30%
双卡+NVLink
48GB
更优
慢10%以内

效率对比:双卡FP16全精度的生成质量、逻辑连贯性远优于单卡4bit量化,但受跨卡通信开销影响,token速度仍会比单卡4bit慢10%-30%。


7.3 多卡能不能支持超过单卡容量的长对话?

完全可以,但核心取决于显存瓶颈类型。

最常见场景:模型权重单卡装得下,KV缓存超单卡上限

这是90%的长对话爆显存场景(比如7B模型4bit量化仅占8GB显存,单卡24GB剩下的16GB全给KV缓存,上下文到128K以上就会爆显存)。

实现方式:通过序列并行/KV缓存分片,把超长上下文的KV缓存均匀拆分到多张显卡上。

实际效果:两张3090 24G双卡,可实现接近单卡2倍的上下文长度上限,完全突破单卡显存限制。

极端场景:模型权重本身就超过单卡容量

实现方式:先通过张量并行/流水线并行,把模型权重拆分到多张显卡上完成加载,再配合KV缓存分片,同时突破「模型权重容量」和「上下文长度」的双上限。

实际效果:两张3090 24G双卡总可用显存48GB,可加载单卡24GB无法运行的34B 4bit大模型,同时支持远超单卡上限的超长上下文对话。

关键避坑:异构显存双卡完全无法实现超单卡上限

⚠️ 如果用一张24GB卡+一张12GB卡组成双卡,可用显存上限会以显存最小的卡为基准,总可用容量仅12GB×2=24GB,和单张24GB卡完全一致。

不仅无法突破单卡上限,还要额外承担跨卡通信开销,速度反而比单卡更慢


7.4 个人长对话场景的最优选型建议

建议
说明
优先选大显存单卡
单卡无跨卡通信开销、开箱即用、延迟更低
超长上下文优先优化KV缓存
KV缓存从FP16量化到INT8/INT4,显存占用砍半,零性能损耗
非要上双卡,必须同型号同显存
异构卡混搭会出现负优化
双卡优先搭配NVLink桥接
降低通信损耗

对比:同预算单张RTX 4090 24G,在个人长对话场景的体验,远好于两张RTX 3090 24G组成的双卡


7.5 双卡的坑

说明
主板屏蔽M.2
很多主板插第二张显卡后,M.2被屏蔽(详见第四篇主板篇)
功耗翻倍
双3090满载700W+,加上其他功耗建议1400W+
散热压力
两张卡挨着,上面那张温度+15°C
无SLI加速
消费级不支持SLI,双卡只能算力叠加,不能单任务加速
异构卡混搭
显存以最小卡为基准,不仅无增益反而有损耗

双卡不是为了”更快”,而是为了”更多显存”和”更多并发”。个人长对话场景优先单卡大显存。


八、购买渠道分析:盒装 vs 散装 vs 二手

本节核心:AI工作站组件该怎么买?哪些值得省钱,哪些绝对不能省。

8.1 三个渠道核心对比

对比维度
盒装(全新)
散装
二手
价格
定价
比盒装低5~15%
低30~60%
保修
3年官方保修
店保(1年)
无官方保修
假货风险
极低
极低(显卡无法造假,但可以魔改)
矿卡风险
性能影响
正常
正常
可能降频
适用场景
主力卡必选
入门卡可选,仅熟人
仅限熟人处

8.2 显卡散装:为什么比显卡盒装风险低?

显卡几乎不存在假货——RTX 4090D的核心和显存无法仿制。 散装卡和盒装卡是同一批出厂产品,区别仅在包装:

差异
盒装
散装
风扇转速
已调校
可能需手动拉高
保修
3年品牌保修
店铺保修(1年)
附件
说明书、供电线
仅卡本体
价格差
基准
低5~10%

结论:RTX 5060 Ti/4070 Ti这类入门卡买散装问题不大,省几百元。但RTX 4090D及以上必须买全新。

8.3 二手显卡:矿卡——最大的坑

什么是矿卡? 长期7×24小时高负载运算挖ETH(以太坊)的显卡,核心和显存长期在80°C+高温下工作,内部焊点疲劳、显存老化、散热风扇轴承磨损。

RTX 4090D矿卡识别清单

鉴别方法
操作
正常卡
矿卡特征
外观检查
拆开侧板看核心散热片
银白色硅脂
硅脂干裂发黑、发绿(盐化)
PCB颜色
观察PCB板颜色
深绿色
发黄、发暗(高温氧化)
电容状态
观察核心供电电容
平整无凸起
鼓包、爆浆
风扇声音
开机听风扇
平滑安静
明显异响、轴承磨损
SN码查询
官网查询SN
官方在保
无法查询或已拒保
Furmark压力测试
30分钟压力测试
温度<80°C
温度>85°C,降频严重
显存温度
GPU-Z监控
<90°C
显存温度异常飙升

实操:购买二手4090D前,一定要跑30分钟Furmark + GPU-Z实时监控显存温度。任何显存温度超过95°C的卡,都可能是矿锻炼过的。

RTX 4090D价格陷阱

来源
风险等级
全新盒装/散装
✅ 无风险
二手自用玩家
⚠️ 需验货
二手”工作室升级出”
🔴 高风险,很可能是矿
某鱼”女生自用”
🔴 极高风险

某鱼上大量”女生自用4090″、”工作室升级出4090″,实际是矿老板出货。价格低于¥6,000的二手RTX 4090D,99%有问题。

8.4 显卡选购场景建议

场景
推荐渠道
理由
RTX 5060 Ti / 4070 Ti(万元以内)
散装
便宜几百,无矿卡风险
RTX 4090D(主力卡) 盒装或散装全新
矿卡概率高,必须全新
RTX 5090D(旗舰)
盒装
一步到位不省
RTX 4090D二手(省钱)
仅限自用一手朋友处购买
信任关系,无矿卡风险

AI工作站显卡购买原则:主力卡(4090D及以上)必须买全新;万元以内的卡买散装问题不大。

九、四档配置方案

RTX 3090特别说明: RTX 3090 24G在中国已无官方全新渠道,为二手/库存。购买务必做矿卡鉴定(见第六节),或在可信渠道(朋友转让、信任商家)购买。买24G,是目前31B模型性价比最高的选择。

显卡推荐矩阵:每档都有多个选择

显存档位
推荐显卡
显存
适合场景
推荐度
16GB
RTX 5070 Ti 16G
16G
7B~13B,入门首选
⭐⭐⭐
RTX 5060 Ti 16G
16G
7B~13B,最低价全新
⭐⭐
RTX 4060 Ti 16G
16G
7B,性价比最高
⭐⭐
RTX 3080 Ti 12G
12G
7B~13B,二手低价
24GB RTX 3090 24G 24G 7B~31B,31B性价比首选
⭐⭐⭐⭐⭐
RTX 3090 Ti 24G
24G
7B~31B,二手高配
⭐⭐⭐⭐
RTX 4090D 24G 24G 7B~31B,31B首选(全新)
⭐⭐⭐⭐⭐
RTX 4090 24G
24G
7B~31B,旗舰性能
⭐⭐⭐
RTX 5080 24G
24G
7B~31B,一步到位
⭐⭐⭐
32GB RTX 5090D 32G 32G 7B~70B,顶级旗舰
⭐⭐⭐⭐⭐
RTX 5090 32G
32G
7B~70B,极致性能
⭐⭐⭐

使用场景快速对照

你的需求
推荐显卡
理由
入门学习,跑7B模型练手
RTX 4060 Ti 16G
最便宜的16G卡
主要跑13B,偶尔31B
RTX 5070 Ti 16G
13B流畅,16G底线
31B模型,追求性价比 RTX 3090 24G(二手)
⭐买24G,选它**
31B模型,求稳定买全新
RTX 4090D 24G
无矿卡风险,全新保障
31B模型,要算力也要显存
RTX 4090 24G
算力比4090D强35%
70B模型,必须32GB
RTX 5090D 32G
唯一消费级32G
双卡70B(预算有限)
RTX 4090D × 2
48GB显存
二手显卡练手,不心疼
RTX 3080 Ti 12G
二手最低门槛

最低配置(7B~13B模型,个人学习)

组件
推荐
说明
显卡
RTX 5060 Ti 16G
16GB显存,13B模型流畅

推荐配置(31B模型,5路并发)

组件
推荐
说明
显卡
RTX 4090D 24G
24GB显存+620T算力,31B模型5路并发流畅

最优配置(70B+模型,高并发)

组件
推荐
说明
显卡
RTX 5090D 32G
32GB显存+1280T算力,70B模型可跑,未来5年不过时

考虑升级配置

升级路径
说明
单卡→加第二张同型号
显存翻倍,需主板支持双卡不屏蔽M.2(详见主板篇)
16G→24G
换卡,16GB无法升级显存
24G→32G
换卡,RTX 5090D 32GB一步到位
⚠️ 注意
加第二张卡需确认电源(+300~400W)和散热

十、关联组件注意事项

关联
注意点
主板
双卡必须选白名单主板,否则M.2被屏蔽
电源
单4090D需850W+,双卡需1000W+
散热
双卡间距小,优先选3槽以上间距主板
机箱
显卡长度335mm+,机箱必须支持
显存卸载
显存不够时可用内存卸载,但速度暴跌8倍

免责声明:

  1. 1. 本文仅为作者个人学习过程的记录与交流分享,不构成任何形式的购买建议、投资建议或操作指导。
  2. 2. 作者并非硬件或相关领域的专业人士,文中所有技术描述、性能分析、观点结论等均基于个人理解和公开资料整理,可能存在错误或偏差。欢迎读者批评指正。
  3. 3. 文中所引用的所有数据、图表、参数、对比信息等内容,均为作者在学习过程中自行整理或生成,仅用作个人记录与辅助理解,不保证其绝对准确性、完整性或时效性。
  4. 4. 文中提及的硬件价格均为基于2026年4月市场行情的参考价,实际价格以购买时的商家报价为准,价格波动恕不另行通知。
  5. 5. 任何个人或机构若参考本文中的任何数据、观点或结论进行决策、购买、投资或操作,由此产生的直接或间接损失(包括但不限于财产损失、数据丢失、机会成本等),作者概不负责。本文不承诺对参考行为产生的任何后果承担法律责任。
  6. 6. 本文内容可能随时被作者修订或删除,恕不另行告知。

请读者结合多方信息,独立判断,理性决策。


下一篇:主板——双卡为什么会吞M.2?哪些主板不坑?