极简上手!llama.cpp 零基础安装教程(替代Ollama,轻量灵活)

之前一直使用 Ollama 做本地部署，那时文件还很小，安装也方便，不知道从什么时候开始，也许是0.9版之后吧，《Ollama 0.9.5 升级了个寂寞》，下载安装变得困难，我也开始慢慢放弃了。

身边不少新手朋友想要本地部署大模型，苦于不会搭建 llama.cpp 环境，只能选择 Ollama 这类封装好的工具，其实底层仍然是 llama.cpp。

Ollama 虽然操作门槛极低、开箱即用，但存在明显短板：安装包体积庞大，下载耗时久，且每次版本迭代都需要全量更新，整体使用灵活性较差，很难适配个性化部署需求，唯一优势就是操作省心。

因此我已经全面弃用 Ollama，仅在一台 Windows 设备上保留了 LM Studio 备用。

对比下来，llama.cpp 轻量化、可定制性拉满，资源占用更低，适配各类本地部署场景，是本地跑模型的最优选择之一。

我把自己的安装笔记整理了一下，既可以自己回顾，也能给有需要的朋友参考。

安装环境：

系统：Ubuntu 24.04.3 LTS
配置：Intel Xeon E5-2673V3、64G DDR3 内存、A2000 8GB

●●●
# 下载源码 git clone https://github.com/ggml-org/llama.cpp.git# 提前安装 nvidia-cuda-toolkitsudo apt updatesudo apt install -y nvidia-cuda-toolkit# 如果你的显卡比较老，请提前安装合适版本的 gcc，比如 1060显卡用gcc-12，默认是 13# sudo apt install gcc-12 g++-12# 进入源码目录cd llama.cppmkdir build && cd build# 安装参考# https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md#cuda# 1060 显卡的配置，请忽略cmake .. -DGGML_CUDA=ON \  -DCMAKE_C_COMPILER=gcc-12 \  -DCMAKE_CXX_COMPILER=g++-12 \  -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc \  -DCMAKE_CUDA_HOST_COMPILER=/usr/bin/g++-12 \  -DCMAKE_CUDA_ARCHITECTURES=61# A2000配置 ，去 https://developer.nvidia.com/cuda/gpus 查询自己的显卡的DCMAKE_CUDA_ARCHITECTURES参数，如果是8.6就填86cmake .. -DGGML_CUDA=ON \	-DCMAKE_CUDA_ARCHITECTURES=86 \	-DLLAMA_BUILD_UI=OFF# 开始编译，j后面的核心数根据自己的电脑设置，我用了全部的核心，可以适合自己填个4或者12cmake --build . --config Release -j$(nproc)

针对不想手动编译代码、追求高效省心的用户，无需从零搭建环境，可直接前往 llama.cpp 官方发布页，下载官方预编译成品包直接使用，大幅降低上手门槛：https://github.com/ggml-org/llama.cpp/releases

相比于各类封装工具，原生 llama.cpp 彻底摆脱了冗余功能捆绑，占用资源更少、运行效率更高，还能自由调整上下文、量化参数、显存调度等核心配置，适配低配置设备、大上下文推理、模型微调测试等各类场景。

本教程主打极简部署、零冗余操作，新手也能快速完成搭建，轻松实现本地大模型自由，摆脱商用封装工具的各类限制。