乐于分享
好东西不私藏

台式电脑安装大模型实战(1)

台式电脑安装大模型实战(1)

一、目前电脑现状

操作系统:ubuntu 24.04,内存24G,硬盘1T

显卡:RTX5070Ti 16G显存

二、关于显卡驱动和显卡状态 

# 检查显卡驱动和 CUDA 是否正常nvidia-smi

驱动版本(580.126.09)是一个比较新的驱动版本,对于 Ubuntu 24.04 系统,这个版本驱动的稳定性很好,且对 Blackwell 架构(50系显卡)的支持是完善的。是 NVIDIA 针对 Linux 系统的开源内核模块版本。它的主要特点是:

  • 兼容性好:对 Linux 新内核(如 6.8+)支持更好,解决了闭源驱动在新系统上可能无法安装的问题。

  • 功能略减:相比闭源驱动,可能缺少一些专业计算特性(如 NVENC 编码器),但对于大模型推理(CUDA 计算)来说完全够用,不会影响模型运行速度。

显存状态:GPU 利用率(0%)和温度(32°C)都很不错

三、LLM选择:GLM-4-9B 4bit量化版

对于我的配置,GLM-4-9B-Chat 的 4bit量化版本 是目前最平衡、最推荐的选择。

1. 为什么是 GLM-4-9B 而不是 7B?

  • 性能碾压:GLM-4-9B 在各项评测(如 MMLU、C-Eval、代码能力)中全面超越 GLM-4-7B,甚至在某些指标上超越了 Llama-3-8B 。

  • 显存友好:虽然参数更多,但通过 4bit 量化,显存占用从全精度的 18GB 左右降至 8-9GB 。这比 GLM-4-7B 的全精度版本(约 14GB)占用更少,但能力更强。

  • 量化损失极小:现代 4bit 量化技术(如 NF4)非常成熟,GLM-4-9B 量化后性能保留率通常超过 95%,推理速度依然能保持在 23-28 tokens/s,几乎无感知降速 。

2. 为什么不选 DeepSeek-V3?

  • 硬件门槛:DeepSeek-V3.2 虽然性能强大(尤其在长文本和推理效率上),但其官方原生模型参数量巨大(671B),本地部署需要极高的显存(320GB+),消费级显卡无法直接运行 。

  • 体验差异:虽然官方提供了蒸馏版本(如 7B、14B),但在我的 5070 Ti 上,GLM-4-9B 在中文理解、工具调用和编程能力上表现更稳定,且部署更简单。

硬件配置适配性分析

配置项

你的硬件

适配模型

适配度分析

显存

RTX 5070 Ti (16GB)

GLM-4-9B (4bit)

完美适配。占用 8-9GB,剩余显存充足,可支持长上下文或并发任务 。

内存

24G (计划升级 48G)

GLM-4-9B (4bit)

建议升级。24G 内存勉强够用,但升级到 48G 后,系统缓存和模型加载会更流畅,避免频繁换页。

CPU

i5-13400KF

GLM-4-9B (4bit)

足够。该 CPU 性能足够支撑模型推理的预处理和后处理,不会成为瓶颈。

四、操作步骤
之前我发过一篇在笔记本安装大模型的文章,简单的概念就不再重复了,新手可以去参考一下
AI开发新纪元:从“能说”到“会做”的实战手册(三)30分钟搞定 OpenClaw 本地部署
网速太慢了,一个原因ollama服务器在国外,第二就是还没来得及插网线,无线太慢,明天重启动一下路由器看看,今天先这样吧。