AI本地部署硬件选购指南(三):显卡——显存就是命,算力决定速度
AI本地部署硬件选购指南(三):显卡——显存就是命,算力决定速度
系列导读: 本篇分析AI工作站最核心的组件——显卡。显存大小决定能不能跑,算力高低决定跑多快。
统计基准: 2026年4月,价格、型号、规格均以此时点为准。
一、为什么显卡是AI工作站的核心?
CPU是大脑,显卡是肌肉。本地跑大模型,90%的计算量都在显卡上完成。
两个核心指标:
|
|
|
|
|---|---|---|
| 显存 |
|
|
| 算力 |
|
|
铁律:显存不够 = 直接跑不了;算力不够 = 能跑但慢。先保显存,再提算力。
二、模型参数与精度:选对格式省显存
详细原理请参阅:《LLM 本地部署硬核指南:显存、算力与量化,一次讲透!》
本节仅列出日常选型所需的核心速查表。
2.1 精度与显存的关系(速查表)
|
|
|
|
|
|
|---|---|---|---|---|
| FP16/BF16 |
|
|
|
|
| INT8 |
|
|
|
|
| INT4 |
|
|
|
|
速算公式:
显存 ≈ 参数量(B) × 每参数字节数
2.2 GGUF 量化格式对照(31B模型)
|
|
|
|
|
|---|---|---|---|
| Q8_0 |
|
|
|
| Q4_K_M |
|
17.4 GB |
|
| Q3_K_M |
|
|
|
| Q2_K |
|
|
|
为什么选 Q4_K_M? 混合量化,对敏感层保留高精度,质量接近 Q8_0,显存省 75%。
2.3 精度对推理的影响
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
实测(31B + RTX 4090D):Q4_K_M 速度约 55-65 t/s,准确度损耗仅 2-3%
2.4 精度选择实战
|
|
|
|
|---|---|---|
| 31B + 4090D | Q4_K_M |
|
| 7B/13B |
|
|
| 16GB 显卡 |
|
|
| 8GB 显卡 |
|
|
| 70B + 5090D |
|
|
结论:31B 模型必须量化,24GB 显存是单卡最低门槛。
三、显存容量怎么选?
主流模型精确显存数据、显卡适配表、KV Cache 量化命令 已拆分为独立文章,请参阅:
《主流大模型显存占用硬核指南:KV Cache、GQA 与 Qwen-DeepSeek 系列精确数据》该文章包含:
• Qwen2.5 / DeepSeek-R1-Distill / Llama 各模型显存速查表 • RTX 4060 Ti / 4090D / 5090D 显卡适配表 • KV Cache 量化的具体命令行示例(llama.cpp / vLLM) • 模型选型决策树
3.1 快速决策表(日常参考)
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
四、为什么不推荐AMD显卡?
这可能是本系列最有争议的结论。先说事实:
AMD显卡的硬件并不差,甚至有亮点:
|
|
|
|
|---|---|---|
|
|
24GB |
|
|
|
|
|
看起来性价比碾压。那为什么还是不推荐?
4.1 一个词:ROCm
ROCm是AMD的CUDA替代品,相当于AMD版的GPU计算框架。问题在于:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4.2 真实场景对比
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4.3 什么时候可以考虑AMD显卡?
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
结论:AMD显卡是”硬件好但软件拖后腿”的典型。24GB显存价格纸面参数很诱人,但AI推理不是看纸面参数——框架兼容性、量化工具链、社区支持这些”软实力”才是每天用到的。对于本系列面向的31B+模型+5路并发+微调需求,NVIDIA CUDA是目前唯一成熟的选择。
五、算力怎么看?
5.1 FP8算力计算公式
FP8算力 = CUDA核心数 × 加速频率(GHz) × 架构倍数
40系(Ada):×8 | 50系(Blackwell):×16
5.2 2026年主流显卡AI算力一览
|
|
|
|
|
|
|
|
|---|---|---|---|---|---|---|
| RTX 5070 Ti 16G | 16G | 360T |
|
|
|
|
| RTX 4060 Ti 16G | 16G | 89T |
|
|
|
|
| RTX 3080 Ti 12G | 12G | 340T |
|
|
|
|
| RTX 3080 10G | 10G | 272T |
|
|
|
|
| RTX 3090 24G | 24G | 497T | 42~55 t/s |
|
|
|
| RTX 3090 Ti 24G | 24G | 563T | 48~62 t/s |
|
|
|
| RTX 4090D 24G | 24G | 620T | 55~65 t/s |
|
|
|
| RTX 4090 24G | 24G | 836T | 65~78 t/s |
|
|
|
| RTX 5080 24G | 24G | 860T | 60~70 t/s |
|
|
|
| RTX 5090D 32G | 32G | 1280T | 75~90 t/s |
|
|
|
| RTX 5090 32G | 32G | 1700T | 90~110 t/s |
|
|
|
t/s = token/s,即每秒生成token数。5路并发时,总速度÷5≈单路体验。
关于RTX 3090在中国: RTX 3090和RTX 3090 Ti在中国无官方全新在售,均为二手/库存。购买前务必做矿卡鉴定(详见本章第六节)。但24GB显存+,是目前跑31B模型性价比最高的选择。
关于RTX 4090 vs RTX 4090D: 中国特供版RTX 4090D相比标准RTX 4090,在INT8算力上略有阉割(约620T vs 836T),但显存同为24GB。对AI推理而言,31B模型的速度差异在15%以内,RTX 4090D性价比更高。
六、训练与推理:显卡选型的核心差异
核心结论:训练和推理在显卡选型上的差异极大,二者的核心需求、优先级指标、硬件选型逻辑完全不同,甚至很多适合推理的卡完全不适合训练,反之亦然。
6.1 任务本质差异
|
|
|
|
|---|---|---|
| 训练 |
|
|
| 推理 |
|
|
6.2 核心选型指标优先级对比
|
|
|
|
|---|---|---|
| 核心第一诉求 |
|
|
| 显存优先级 |
|
|
| 算力优先级 |
|
|
| 多卡互联需求 |
|
|
| 稳定性/容错 |
|
|
| 功耗敏感度 |
|
|
| 消费级卡适配 |
|
|
6.3 训练场景的显卡选型逻辑
训练(尤其是全参数微调、大模型预训练)的硬件瓶颈,90%先卡在显存,其次是显存带宽,最后才是核心算力。
显存容量是不可逾越的硬门槛
全参数训练/微调,需要同时加载模型权重、优化器状态、梯度值、中间激活值,显存占用是同模型推理的2-4倍。
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
⚠️ 低于这个阈值,哪怕算力再强,也根本无法启动任务。
架构先进性决定训练效率
现代大模型训练普遍采用FP16/BF16/FP8混合精度,只有新架构(Ada Lovelace、Hopper、Blackwell)的张量核心能对这些精度做硬件级加速。
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
多卡互联与企业级稳定性
百亿参数以上的大模型预训练,必须依赖:
-
• 多卡NVLink高速互联(PCIe带宽完全无法满足并行需求) -
• ECC显存纠错 -
• 7×24小时满载稳定性
💡 这类场景只有H100/H200/A100等数据中心级专业卡能胜任,消费级卡无NVLink、无ECC,仅适合个人/小团队的中小模型轻量微调。
6.4 推理场景的显卡选型逻辑
推理的硬件选型逻辑和训练几乎完全相反:优先看成本与能效,其次是显存够用,最后才看峰值算力。
显存仅需满足门槛,量化可大幅降低需求
推理仅需加载模型权重,无需存储优化器、梯度等冗余数据,配合INT4/INT8量化技术,显存需求可直接砍半甚至更低。
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
✅ 完全不需要训练场景的极致大显存。
新消费级卡全面碾压老专业卡
RTX 40系等新消费级架构,对低精度推理的硬件级优化,远超V100/P100等古董专业卡:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
成本与能效是核心决策点
推理是长期持续运行的任务,硬件采购成本、电费成本是核心考量。
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
容错成本极低,无企业级硬件刚需
推理单请求出错,仅需重试即可,不会造成大规模算力浪费。消费级显卡的稳定性完全能满足绝大多数推理场景的需求。
6.5 通用选型建议
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
七、双显卡有必要吗?
7.1 什么场景需要双卡?
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7.2 长对话场景:单卡vs双卡效率对比
核心结论:在个人单用户长对话场景下,单卡效率全面领先,双卡反而会出现10%-50%的性能损耗。
场景一:模型+目标上下文,单卡显存完全能容纳
|
|
|
|
|
|---|---|---|---|
|
|
100% |
|
|
|
|
最低 |
|
|
|
|
无 |
|
|
核心原因:模型全量加载在单卡上,所有计算都在单卡内完成,无任何跨卡通信开销。而双卡必须通过张量并行拆分模型层,每生成一个token,都要在两张卡之间做数据同步、张量传输。
⚠️ 这个通信开销,在单用户单batch的长对话推理场景,完全抵消了双卡的算力优势,反而拖慢速度。
双卡的算力优势,仅在高并发、大批量的多用户推理场景才能发挥。
场景二:模型本身单卡无法容纳,必须双卡拆分
|
|
|
|
|
|---|---|---|---|
|
|
|
|
更快 |
|
|
|
更优 |
|
|
|
|
更优 |
|
效率对比:双卡FP16全精度的生成质量、逻辑连贯性远优于单卡4bit量化,但受跨卡通信开销影响,token速度仍会比单卡4bit慢10%-30%。
7.3 多卡能不能支持超过单卡容量的长对话?
完全可以,但核心取决于显存瓶颈类型。
最常见场景:模型权重单卡装得下,KV缓存超单卡上限
这是90%的长对话爆显存场景(比如7B模型4bit量化仅占8GB显存,单卡24GB剩下的16GB全给KV缓存,上下文到128K以上就会爆显存)。
实现方式:通过序列并行/KV缓存分片,把超长上下文的KV缓存均匀拆分到多张显卡上。
实际效果:两张3090 24G双卡,可实现接近单卡2倍的上下文长度上限,完全突破单卡显存限制。
极端场景:模型权重本身就超过单卡容量
实现方式:先通过张量并行/流水线并行,把模型权重拆分到多张显卡上完成加载,再配合KV缓存分片,同时突破「模型权重容量」和「上下文长度」的双上限。
实际效果:两张3090 24G双卡总可用显存48GB,可加载单卡24GB无法运行的34B 4bit大模型,同时支持远超单卡上限的超长上下文对话。
关键避坑:异构显存双卡完全无法实现超单卡上限
⚠️ 如果用一张24GB卡+一张12GB卡组成双卡,可用显存上限会以显存最小的卡为基准,总可用容量仅12GB×2=24GB,和单张24GB卡完全一致。
不仅无法突破单卡上限,还要额外承担跨卡通信开销,速度反而比单卡更慢。
7.4 个人长对话场景的最优选型建议
|
|
|
|---|---|
| 优先选大显存单卡 |
|
| 超长上下文优先优化KV缓存 |
|
| 非要上双卡,必须同型号同显存 |
|
| 双卡优先搭配NVLink桥接 |
|
对比:同预算单张RTX 4090 24G,在个人长对话场景的体验,远好于两张RTX 3090 24G组成的双卡。
7.5 双卡的坑
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
双卡不是为了”更快”,而是为了”更多显存”和”更多并发”。个人长对话场景优先单卡大显存。
八、购买渠道分析:盒装 vs 散装 vs 二手
本节核心:AI工作站组件该怎么买?哪些值得省钱,哪些绝对不能省。
8.1 三个渠道核心对比
|
|
|
|
|
|---|---|---|---|
| 价格 |
|
|
|
| 保修 |
|
|
|
| 假货风险 |
|
|
|
| 性能影响 |
|
|
|
| 适用场景 |
|
|
|
8.2 显卡散装:为什么比显卡盒装风险低?
显卡几乎不存在假货——RTX 4090D的核心和显存无法仿制。 散装卡和盒装卡是同一批出厂产品,区别仅在包装:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
结论:RTX 5060 Ti/4070 Ti这类入门卡买散装问题不大,省几百元。但RTX 4090D及以上必须买全新。
8.3 二手显卡:矿卡——最大的坑
什么是矿卡? 长期7×24小时高负载运算挖ETH(以太坊)的显卡,核心和显存长期在80°C+高温下工作,内部焊点疲劳、显存老化、散热风扇轴承磨损。
RTX 4090D矿卡识别清单
|
|
|
|
|
|---|---|---|---|
| 外观检查 |
|
|
|
| PCB颜色 |
|
|
|
| 电容状态 |
|
|
|
| 风扇声音 |
|
|
|
| SN码查询 |
|
|
|
| Furmark压力测试 |
|
|
|
| 显存温度 |
|
|
|
实操:购买二手4090D前,一定要跑30分钟Furmark + GPU-Z实时监控显存温度。任何显存温度超过95°C的卡,都可能是矿锻炼过的。
RTX 4090D价格陷阱
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
某鱼上大量”女生自用4090″、”工作室升级出4090″,实际是矿老板出货。价格低于¥6,000的二手RTX 4090D,99%有问题。
8.4 显卡选购场景建议
|
|
|
|
|---|---|---|
|
|
|
|
| RTX 4090D(主力卡) | 盒装或散装全新 |
|
|
|
盒装 |
|
|
|
|
|
AI工作站显卡购买原则:主力卡(4090D及以上)必须买全新;万元以内的卡买散装问题不大。
九、四档配置方案
RTX 3090特别说明: RTX 3090 24G在中国已无官方全新渠道,为二手/库存。购买务必做矿卡鉴定(见第六节),或在可信渠道(朋友转让、信任商家)购买。买24G,是目前31B模型性价比最高的选择。
显卡推荐矩阵:每档都有多个选择
|
|
|
|
|
|
|---|---|---|---|---|
| 16GB |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 24GB | RTX 3090 24G | 24G | 7B~31B,31B性价比首选 |
|
|
|
|
|
|
|
| RTX 4090D 24G | 24G | 7B~31B,31B首选(全新) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 32GB | RTX 5090D 32G | 32G | 7B~70B,顶级旗舰 |
|
|
|
|
|
|
使用场景快速对照
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
| 31B模型,追求性价比 | RTX 3090 24G(二手) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
最低配置(7B~13B模型,个人学习)
|
|
|
|
|---|---|---|
|
|
RTX 5060 Ti 16G |
|
推荐配置(31B模型,5路并发)
|
|
|
|
|---|---|---|
|
|
RTX 4090D 24G |
|
最优配置(70B+模型,高并发)
|
|
|
|
|---|---|---|
|
|
RTX 5090D 32G |
|
考虑升级配置
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
十、关联组件注意事项
|
|
|
|---|---|
| 主板 |
|
| 电源 |
|
| 散热 |
|
| 机箱 |
|
| 显存卸载 |
|
免责声明:
1. 本文仅为作者个人学习过程的记录与交流分享,不构成任何形式的购买建议、投资建议或操作指导。 2. 作者并非硬件或相关领域的专业人士,文中所有技术描述、性能分析、观点结论等均基于个人理解和公开资料整理,可能存在错误或偏差。欢迎读者批评指正。 3. 文中所引用的所有数据、图表、参数、对比信息等内容,均为作者在学习过程中自行整理或生成,仅用作个人记录与辅助理解,不保证其绝对准确性、完整性或时效性。 4. 文中提及的硬件价格均为基于2026年4月市场行情的参考价,实际价格以购买时的商家报价为准,价格波动恕不另行通知。 5. 任何个人或机构若参考本文中的任何数据、观点或结论进行决策、购买、投资或操作,由此产生的直接或间接损失(包括但不限于财产损失、数据丢失、机会成本等),作者概不负责。本文不承诺对参考行为产生的任何后果承担法律责任。 6. 本文内容可能随时被作者修订或删除,恕不另行告知。 请读者结合多方信息,独立判断,理性决策。
下一篇:主板——双卡为什么会吞M.2?哪些主板不坑?
夜雨聆风