之前一直使用 Ollama 做本地部署,那时文件还很小,安装也方便,不知道从什么时候开始,也许是0.9版之后吧,《Ollama 0.9.5 升级了个寂寞》,下载安装变得困难,我也开始慢慢放弃了。
身边不少新手朋友想要本地部署大模型,苦于不会搭建 llama.cpp 环境,只能选择 Ollama 这类封装好的工具,其实底层仍然是 llama.cpp。
Ollama 虽然操作门槛极低、开箱即用,但存在明显短板:安装包体积庞大,下载耗时久,且每次版本迭代都需要全量更新,整体使用灵活性较差,很难适配个性化部署需求,唯一优势就是操作省心。
因此我已经全面弃用 Ollama,仅在一台 Windows 设备上保留了 LM Studio 备用。
对比下来,llama.cpp 轻量化、可定制性拉满,资源占用更低,适配各类本地部署场景,是本地跑模型的最优选择之一。
我把自己的安装笔记整理了一下,既可以自己回顾,也能给有需要的朋友参考。
安装环境:
系统:Ubuntu 24.04.3 LTS 配置:Intel Xeon E5-2673V3、64G DDR3 内存、A2000 8GB
●●● # 下载源码 git clone https://github.com/ggml-org/llama.cpp.git# 提前安装 nvidia-cuda-toolkitsudo apt updatesudo apt install -y nvidia-cuda-toolkit# 如果你的显卡比较老,请提前安装合适版本的 gcc,比如 1060显卡用gcc-12,默认是 13# sudo apt install gcc-12 g++-12# 进入源码目录cd llama.cppmkdir build && cd build# 安装参考# https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md#cuda# 1060 显卡的配置,请忽略cmake .. -DGGML_CUDA=ON \ -DCMAKE_C_COMPILER=gcc-12 \ -DCMAKE_CXX_COMPILER=g++-12 \ -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc \ -DCMAKE_CUDA_HOST_COMPILER=/usr/bin/g++-12 \ -DCMAKE_CUDA_ARCHITECTURES=61# A2000配置 ,去 https://developer.nvidia.com/cuda/gpus 查询自己的显卡的DCMAKE_CUDA_ARCHITECTURES参数,如果是8.6就填86cmake .. -DGGML_CUDA=ON \ -DCMAKE_CUDA_ARCHITECTURES=86 \ -DLLAMA_BUILD_UI=OFF# 开始编译,j后面的核心数根据自己的电脑设置,我用了全部的核心,可以适合自己填个4或者12cmake --build . --config Release -j$(nproc)
针对不想手动编译代码、追求高效省心的用户,无需从零搭建环境,可直接前往 llama.cpp 官方发布页,下载官方预编译成品包直接使用,大幅降低上手门槛:https://github.com/ggml-org/llama.cpp/releases
相比于各类封装工具,原生 llama.cpp 彻底摆脱了冗余功能捆绑,占用资源更少、运行效率更高,还能自由调整上下文、量化参数、显存调度等核心配置,适配低配置设备、大上下文推理、模型微调测试等各类场景。
本教程主打极简部署、零冗余操作,新手也能快速完成搭建,轻松实现本地大模型自由,摆脱商用封装工具的各类限制。
夜雨聆风