8GB 显存也能跑 AI!RTX 4060 本地部署入门,解压即用(llama.cpp版)

很多人觉得 8GB 显存的 RTX 4060 跑大模型是“玩具”，但只要用对方法，它完全可以成为你的本地主力 AI。

今天不谈复杂编译，直接教你用最快捷的“动态库方案”，让windows10+16G+ 4060(8G) + llama.cpp组合发挥出最大潜能。

一、极速配置：解压即用

不需要安装 CMake，不需要配置 CUDA 环境，直接下载官方预编译版本。

依赖：安装Visual Studio
llama.cpp 运行时需要调用相关的库才能运行，如果已经安装过了可以跳过。win10对应的2019或更高版本。
各版本列表：https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/
下载地址：https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/#visual-studio-2019-and-other-products
运行下载的安装程序后，Visual Studio Installer 会启动，请严格按照以下配置进行勾选：

MSVC v142 - VS 2019 C++ x64/x86 生成工具（或对应版本的生成工具）
Windows 10/11 SDK

核心工作负荷： 在“工作负荷”选项卡中，必须勾选“使用 C++ 的桌面应用开发”（这是编译 llama.cpp 必须的核心库和环境）。
右侧详细信息（可选）： 勾选后，在安装器右侧的“安装详细信息”面板中，建议确认以下组件处于勾选状态：

下载：
前往 llama.cpp Releases 页面，下载两个文件，注意一定要跟本地的cuda版本一致（4060是12.x）。

llama.cpp windows 压缩包，名字格式：llama-b9518-bin-win-cuda-12.4-x64.zip
llama.cpp 版本对应的显卡加速文件(dll文件)，名字格式：cudart-llama-bin-win-cuda-12.4-x64.zip

准备： 将下载的2个压缩包都解压到 D:\llama-cpp（或其他任意文件夹，自己取的名字）。

驱动检查： 打开 CMD 输入 nvidia-smi，看到显卡信息，说明环境已就绪。

二、下载模型：认准“黄金组合”

模型文件需寻找 GGUF 格式。对于 8GB 显存的 4060，Q4_K_M 是智力与体积的黄金平衡点。

下载步骤：

打开 Hugging Face 或 https://www.modelscope.ai/ （推荐）。
搜索关键词：模型名 + GGUF（例如：DeepSeek-R1-Distill-Qwen-7B GGUF）。
点击 "Files and versions"，选择文件名包含 Q4_K_M 的 .gguf 文件进行下载。

推荐清单：

日常通用：DeepSeek-R1-Distill-Qwen-7B
代码辅助：Qwen2.5-Coder-7B-Instruct
能力均衡：Llama-3.1-8B-Instruct

下载后，建议将模型文件放在 D:\llama-cpp\models 目录下。

三、组合拳：后端算力 + 顶级前端

llama.cpp 是强大的“算力后端”，自带的 Web UI（llama-ui）功能非常初级。推荐使用 Cherry Studio ，解决原生界面体验差的痛点。

解除截断： 将 Cherry Studio“超时时间”设为 0，彻底告别 30 秒被掐断。
优雅展示： 完美支持 DeepSeek 等模型的 <think> 标签折叠，思考过程清晰可见。
全能外挂： 支持前端联网搜索与识图插件。

四、实战：一键启动脚本

加载启动本地模型:

进入到llama.cpp的主目录，执行如下命令（可直接复制）：

llama-server.exe ^
-m  "models\DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf" ^
-ngl  28 ^
-c  8192 ^
--flash-attn   on ^
-t  6 ^
--port  8080

说明：因为 7B 模型总共有 28 层（Layer）左右，剩下的十多层需要靠内存和 CPU 去跑。CPU 和内存的带宽远低于 4060 的显存带宽，成为了严重的木桶短板，后面再看怎么优化。

如下，说明启动成功。如遇参数不合法，可以搜索一下最新参数。

制作一键启动脚本：

将以下代码保存为 run.bat，放在 llama-server.exe 同目录下，点击即用：

@echo off
:: 将模型路径修改为你实际下载的路径
llama-server.exe ^
-m  "models\DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf" ^
-ngl  28 ^
-c 8192 ^
--flash-attn on ^
-t  6 ^
--port  8080
pause

参数速查：

-ngl 99：自动将所有模型层卸载到 GPU，速度起飞。
-c 8192：设定上下文长度，保证 AI 能记住长对话。
--flash-attn on：显存减负 Buff，提升长文本生成速度。
-t: 代表 threads，即指定程序运行程序时使用的 CPU 线程数。

五、使用模型进行对话

1、使用自带的llama-ui

打开浏览器，输入地址即可：http://127.0.0.1:8080

2、使用 Cherry Studio 客户端（推荐）

功能更加强大，怎么设置连接大模型自行搜索一下。

查看资源占用情况

[34m1.04.745.639[0m [32mI [0msrv update_slots: all slots are idle[34m4.35.009.606[0m [32mI [0msrv params_from: Chat format: peg-native[34m4.35.009.773[0m [32mI [0mslot get_availabl: id 3 | task -1 | selected slot by LCP similarity, sim_best = 0.154 (> 0.100 thold), f_keep = 0.002[34m4.35.009.774[0m [32mI [0msrv get_availabl: updating prompt cache[34m4.35.009.861[0m [35mW srv prompt_save: - saving prompt with length 1130, total state size = 61.810 MiB (draft: 0.000 MiB)[0m[34m4.35.078.542[0m [32mI [0msrv load: - looking for better prompt, base f_keep = 0.002, sim = 0.154[34m4.35.078.548[0m [32mI [0msrv update: - cache state: 1 prompts, 61.810 MiB (limits: 8192.000 MiB, 8192 tokens, 149763 est)[34m4.35.078.550[0m [32mI [0msrv update: - prompt 00000221E9159680: 1130 tokens, checkpoints: 0, 61.810 MiB[34m4.35.078.554[0m [32mI [0msrv get_availabl: prompt cache update took 68.78 ms[34m4.35.078.744[0m [32mI [0mslot launch_slot: id 3 | task 1115 | processing task, is_child = 0[34m4.37.753.283[0m [32mI [0mslot print_timing: id 3 | task 1115 | n_decoded = 100, tg = 41.33 t/s[34m4.40.773.041[0m [32mI [0mslot print_timing: id 3 | task 1115 | n_decoded = 224, tg = 41.18 t/s[34m4.43.776.669[0m [32mI [0mslot print_timing: id 3 | task 1115 | n_decoded = 346, tg = 40.98 t/s[34m4.46.800.062[0m [32mI [0mslot print_timing: id 3 | task 1115 | n_decoded = 466, tg = 40.64 t/s[34m4.49.812.652[0m [32mI [0mslot print_timing: id 3 | task 1115 | n_decoded = 585, tg = 40.40 t/s[34m4.52.821.900[0m [32mI [0mslot print_timing: id 3 | task 1115 | n_decoded = 707, tg = 40.43 t/s[34m4.55.846.319[0m [32mI [0mslot print_timing: id 3 | task 1115 | n_decoded = 829, tg = 40.41 t/s[34m4.58.852.922[0m [32mI [0mslot print_timing: id 3 | task 1115 | n_decoded = 947, tg = 40.27 t/s[34m5.01.116.584[0m [32mI [0mslot print_timing: id 3 | task 1115 | prompt eval time = 255.10 ms / 11 tokens ( 23.19 ms per token, 43.12 tokens per second)[34m5.01.116.588[0m [32mI [0mslot print_timing: id 3 | task 1115 | eval time = 25782.71 ms / 1037 tokens ( 24.86 ms per token, 40.22 tokens per second)[34m5.01.116.589[0m [32mI [0mslot print_timing: id 3 | task 1115 | total time = 26037.81 ms / 1048 tokens[34m5.01.116.590[0m [32mI [0mslot print_timing: id 3 | task 1115 | graphs reused = 2139[34m5.01.116.610[0m [32mI [0mslot release: id 3 | task 1115 | stop processing: n_tokens = 1049, truncated = 0[34m5.01.116.631[0m [32mI [0msrv update_slots: all slots are idle

五、避坑：8GB 显存分配清单

如果出现 "CUDA error: out of memory"，请按此表调整：

模型类型	量化格式	显存占用	建议
7B 通用模型	Q4_K_M	~5.5 GB	极速流畅（30+ t/s）
9B 模型	Q4_K_M	~6.5 GB	可用，适合复杂任务
14B 模型	Q3_K_M	~7.5 GB	勉强，长文易溢出

温馨提示： 若显存报警，将 -c 从 8192 降至 4096 即可立竿见影。

写在最后

无需成为工程师，通过简单的脚本组合，RTX 4060 就能从“游戏卡”变身为你的“AI 生产力助手”。

预告： 觉得这还不够？下一篇我们将探讨如何通过参数微调，在 8GB 显存内运行更大模型，彻底榨干 4060 的每一分性能。

跑通的小伙伴，欢迎在评论区分享你的 token/s 速度，看看谁的优化最强！

一、 极速配置：解压即用

二、 下载模型：认准“黄金组合”

三、 组合拳：后端算力 + 顶级前端

四、 实战：一键启动脚本