本地部署AI工具到底怎么选?Mac用户和N卡用户差别太大了
说个真实的事。
我想在Mac Mini上跑个本地AI,折腾了两天,装了三个工具,结果发现——它们根本不是一回事,选错了就是给自己找麻烦。
01 Ollama:程序员的最爱,GitHub 46K星
这是目前最火的本地部署工具。Reddit上讨论本地AI的帖子,十篇有八篇提它。
为什么?因为它对程序员太友好了。一行命令就能跑:
ollama run llama3
3分钟,不用配环境,不用调参数。
还有个隐藏优势——模型更新快。新模型发布,Ollama社区往往第一个出适配。Gemma 4、Qwen、DeepSeek,基本隔天就能跑。
46K star,说明什么?开发者用脚投票。
但它有个问题:纯命令行,没有图形界面。你得懂点技术才能玩转。
02 LM Studio:不想敲命令的选这个
如果你不想折腾命令行,LM Studio就是为你准备的。
图形界面,下载安装完直接搜模型、下载、运行,跟用App一样简单。内置Hugging Face模型浏览器,Mac和Windows都能用。
知乎上有个回答说得很直接:”LM Studio的GUI真的很好用,不像那些神秘的命令行一样让人摸不着头脑。”
缺点?闭源产品,更新没有Ollama快,进阶功能也比较少。
03 Herdsman:国产新出的
这是最近刚出的,定位是”国产版Ollama”。
对中文用户比较友好,支持多模态——不仅能跑LLM,还能跑语音识别、图像生成这些。兼容OpenAI API,现有应用能直接迁移过来。
但毕竟是新产品,稳定性还得等等看。
04 三者对比
|
维度 |
Ollama |
LM Studio |
Herdsman |
|---|---|---|---|
|
操作方式 |
命令行 |
图形界面 |
Web界面 |
|
适合谁 |
程序员 |
普通用户 |
国产偏好者 |
|
模型更新 |
快 |
慢 |
一般 |
|
多模态支持 |
一般 |
一般 |
强 |
|
开源 |
是 |
否 |
是 |
速度方面,其实Ollama和LM Studio差不太多。底层都是llama.cpp,同一个模型跑起来速度基本一样。
05 重点来了——不同电脑怎么选
这个才是关键。电脑配置不一样,选的工具完全不同。
Mac用户(不管M1还是M4)
直接装LM Studio。
不是因为它多厉害,是因为Mac的芯片是ARM架构,不是所有工具都优化得好。LM Studio对Mac的优化更成熟,图形界面点两下就能用。
实测:Mac Mini M2跑Llama 3 8B,LM Studio速度约18 tok/s,Ollama约15 tok/s。差了20%,还是明显的。
Windows用户,有NVIDIA显卡
RTX 3060、3070、4090这些,推荐Ollama。NVIDIA对CUDA的支持最好,跑大模型速度能跑满。
RTX 4090跑70B模型,速度能到35 tok/s。LM Studio差不多,但Ollama的社区支持更强。
Windows用户,AMD显卡
老老实实用Ollama。AMD对ROCm的支持不如NVIDIA成熟,LM Studio对AMD的优化更差。
没有独立显卡,只有CPU?
别急着放弃。Ollama有CPU模式,能跑,就是慢。7B模型约3-5 tok/s,16GB内存勉强够用。但再大的模型就别想了,撑不住的。
|
电脑配置 |
推荐工具 |
能跑什么 |
|---|---|---|
|
Mac M1-M4 |
LM Studio |
7B左右 |
|
Win + RTX 3060/3070 |
Ollama或LM Studio |
7B、13B |
|
Win + RTX 4080/4090 |
Ollama |
13B、26B |
|
无显卡(CPU模式) |
Ollama |
7B(很慢) |
|
多卡工作站 |
Ollama或vLLM |
70B+ |
说个真实踩坑案例。
借了台Mac Mini M2,16GB内存,想跑31B模型。结果跑不动,加载都加载不进去。
换台式机,RTX 4090 + 64GB内存,同样的模型跑起来流畅得很,35 tok/s。
所以真不是工具的问题,先看看自己电脑能跑什么。
06 到底怎么选
想明白了就很简单:
-
新手不想折腾 → LM Studio
-
程序员要做应用 → Ollama
-
想用国产方案 → Herdsman
但说白了,这三个不冲突,可以同时装。一台电脑跑三四个完全没问题,哪个顺手用哪个。
结语
本地部署AI这件事,门槛真的在变低。
两年前跑个7B模型,得折腾一星期。现在十分钟就能跑起来。
下一步,就是选对工具,然后动手试。
互动话题:
你现在用什么电脑配置?跑过哪些模型?踩过什么坑?评论区说说
夜雨聆风