本地部署AI工具到底怎么选?Mac用户和N卡用户差别太大了-夜雨聆风

本地部署AI工具到底怎么选?Mac用户和N卡用户差别太大了

说个真实的事。

我想在Mac Mini上跑个本地AI，折腾了两天，装了三个工具，结果发现——它们根本不是一回事，选错了就是给自己找麻烦。

01 Ollama：程序员的最爱，GitHub 46K星

这是目前最火的本地部署工具。Reddit上讨论本地AI的帖子，十篇有八篇提它。

为什么？因为它对程序员太友好了。一行命令就能跑：

ollama run llama3

3分钟，不用配环境，不用调参数。

还有个隐藏优势——模型更新快。新模型发布，Ollama社区往往第一个出适配。Gemma 4、Qwen、DeepSeek，基本隔天就能跑。

46K star，说明什么？开发者用脚投票。

但它有个问题：纯命令行，没有图形界面。你得懂点技术才能玩转。

02 LM Studio：不想敲命令的选这个

如果你不想折腾命令行，LM Studio就是为你准备的。

图形界面，下载安装完直接搜模型、下载、运行，跟用App一样简单。内置Hugging Face模型浏览器，Mac和Windows都能用。

知乎上有个回答说得很直接：”LM Studio的GUI真的很好用，不像那些神秘的命令行一样让人摸不着头脑。”

缺点？闭源产品，更新没有Ollama快，进阶功能也比较少。

03 Herdsman：国产新出的

这是最近刚出的，定位是”国产版Ollama”。

对中文用户比较友好，支持多模态——不仅能跑LLM，还能跑语音识别、图像生成这些。兼容OpenAI API，现有应用能直接迁移过来。

但毕竟是新产品，稳定性还得等等看。

04 三者对比

维度	Ollama	LM Studio	Herdsman
操作方式	命令行	图形界面	Web界面
适合谁	程序员	普通用户	国产偏好者
模型更新	快	慢	一般
多模态支持	一般	一般	强
开源	是	否	是

速度方面，其实Ollama和LM Studio差不太多。底层都是llama.cpp，同一个模型跑起来速度基本一样。

05 重点来了——不同电脑怎么选

这个才是关键。电脑配置不一样，选的工具完全不同。

Mac用户（不管M1还是M4）

直接装LM Studio。

不是因为它多厉害，是因为Mac的芯片是ARM架构，不是所有工具都优化得好。LM Studio对Mac的优化更成熟，图形界面点两下就能用。

实测：Mac Mini M2跑Llama 3 8B，LM Studio速度约18 tok/s，Ollama约15 tok/s。差了20%，还是明显的。

Windows用户，有NVIDIA显卡

RTX 3060、3070、4090这些，推荐Ollama。NVIDIA对CUDA的支持最好，跑大模型速度能跑满。

RTX 4090跑70B模型，速度能到35 tok/s。LM Studio差不多，但Ollama的社区支持更强。

Windows用户，AMD显卡

老老实实用Ollama。AMD对ROCm的支持不如NVIDIA成熟，LM Studio对AMD的优化更差。

没有独立显卡，只有CPU？

别急着放弃。Ollama有CPU模式，能跑，就是慢。7B模型约3-5 tok/s，16GB内存勉强够用。但再大的模型就别想了，撑不住的。

电脑配置	推荐工具	能跑什么
Mac M1-M4	LM Studio	7B左右
Win + RTX 3060/3070	Ollama或LM Studio	7B、13B
Win + RTX 4080/4090	Ollama	13B、26B
无显卡（CPU模式）	Ollama	7B（很慢）
多卡工作站	Ollama或vLLM	70B+

说个真实踩坑案例。

借了台Mac Mini M2，16GB内存，想跑31B模型。结果跑不动，加载都加载不进去。

换台式机，RTX 4090 + 64GB内存，同样的模型跑起来流畅得很，35 tok/s。

所以真不是工具的问题，先看看自己电脑能跑什么。

06 到底怎么选

想明白了就很简单：

新手不想折腾 → LM Studio
程序员要做应用 → Ollama
想用国产方案 → Herdsman

但说白了，这三个不冲突，可以同时装。一台电脑跑三四个完全没问题，哪个顺手用哪个。

结语

本地部署AI这件事，门槛真的在变低。

两年前跑个7B模型，得折腾一星期。现在十分钟就能跑起来。

下一步，就是选对工具，然后动手试。

互动话题：

你现在用什么电脑配置？跑过哪些模型？踩过什么坑？评论区说说