乐于分享
好东西不私藏

本地部署AI工具到底怎么选?Mac用户和N卡用户差别太大了

本地部署AI工具到底怎么选?Mac用户和N卡用户差别太大了

说个真实的事。

我想在Mac Mini上跑个本地AI,折腾了两天,装了三个工具,结果发现——它们根本不是一回事,选错了就是给自己找麻烦。

01 Ollama:程序员的最爱,GitHub 46K星

这是目前最火的本地部署工具。Reddit上讨论本地AI的帖子,十篇有八篇提它。

为什么?因为它对程序员太友好了。一行命令就能跑:

ollama run llama3

3分钟,不用配环境,不用调参数。

还有个隐藏优势——模型更新快。新模型发布,Ollama社区往往第一个出适配。Gemma 4、Qwen、DeepSeek,基本隔天就能跑。

46K star,说明什么?开发者用脚投票。

但它有个问题:纯命令行,没有图形界面。你得懂点技术才能玩转。

02 LM Studio:不想敲命令的选这个

如果你不想折腾命令行,LM Studio就是为你准备的。

图形界面,下载安装完直接搜模型、下载、运行,跟用App一样简单。内置Hugging Face模型浏览器,Mac和Windows都能用。

知乎上有个回答说得很直接:”LM Studio的GUI真的很好用,不像那些神秘的命令行一样让人摸不着头脑。”

缺点?闭源产品,更新没有Ollama快,进阶功能也比较少。

03 Herdsman:国产新出的

这是最近刚出的,定位是”国产版Ollama”。

对中文用户比较友好,支持多模态——不仅能跑LLM,还能跑语音识别、图像生成这些。兼容OpenAI API,现有应用能直接迁移过来。

但毕竟是新产品,稳定性还得等等看。

04 三者对比

维度

Ollama

LM Studio

Herdsman

操作方式

命令行

图形界面

Web界面

适合谁

程序员

普通用户

国产偏好者

模型更新

一般

多模态支持

一般

一般

开源

速度方面,其实Ollama和LM Studio差不太多。底层都是llama.cpp,同一个模型跑起来速度基本一样。

05 重点来了——不同电脑怎么选

这个才是关键。电脑配置不一样,选的工具完全不同。

Mac用户(不管M1还是M4)

直接装LM Studio。

不是因为它多厉害,是因为Mac的芯片是ARM架构,不是所有工具都优化得好。LM Studio对Mac的优化更成熟,图形界面点两下就能用。

实测:Mac Mini M2跑Llama 3 8B,LM Studio速度约18 tok/s,Ollama约15 tok/s。差了20%,还是明显的。

Windows用户,有NVIDIA显卡

RTX 3060、3070、4090这些,推荐Ollama。NVIDIA对CUDA的支持最好,跑大模型速度能跑满。

RTX 4090跑70B模型,速度能到35 tok/s。LM Studio差不多,但Ollama的社区支持更强。

Windows用户,AMD显卡

老老实实用Ollama。AMD对ROCm的支持不如NVIDIA成熟,LM Studio对AMD的优化更差。

没有独立显卡,只有CPU?

别急着放弃。Ollama有CPU模式,能跑,就是慢。7B模型约3-5 tok/s,16GB内存勉强够用。但再大的模型就别想了,撑不住的。

电脑配置

推荐工具

能跑什么

Mac M1-M4

LM Studio

7B左右

Win + RTX 3060/3070

Ollama或LM Studio

7B、13B

Win + RTX 4080/4090

Ollama

13B、26B

无显卡(CPU模式)

Ollama

7B(很慢)

多卡工作站

Ollama或vLLM

70B+

说个真实踩坑案例。

借了台Mac Mini M2,16GB内存,想跑31B模型。结果跑不动,加载都加载不进去。

换台式机,RTX 4090 + 64GB内存,同样的模型跑起来流畅得很,35 tok/s。

所以真不是工具的问题,先看看自己电脑能跑什么。

06 到底怎么选

想明白了就很简单:

  • 新手不想折腾 → LM Studio

  • 程序员要做应用 → Ollama

  • 想用国产方案 → Herdsman

但说白了,这三个不冲突,可以同时装。一台电脑跑三四个完全没问题,哪个顺手用哪个。

结语

本地部署AI这件事,门槛真的在变低。

两年前跑个7B模型,得折腾一星期。现在十分钟就能跑起来。

下一步,就是选对工具,然后动手试。


互动话题:

你现在用什么电脑配置?跑过哪些模型?踩过什么坑?评论区说说