把大模型装进自己公司的电脑:2026年中小企业本地部署保姆级教程

很多老板对 AI 的态度是：想用，但不敢用。

合同、客户名单、财务报表，传到别人服务器上，心里不踏实。律所、会计师事务所、做政企生意的公司，这个顾虑更重——有些数据按规定就是不能出内网。

过去的答案是「那就别用了」。2026 年有了新答案：把模型装进自己电脑，数据一个字都不出门。

两年前，在自己电脑上跑大模型，还是个以失望告终的周末实验。今天不一样了：几百块的树莓派（巴掌大的小电脑）能跑聊天机器人，一台 MacBook Air 能跑到当年 GPT-3.5 的水平，一块 700 美元的二手 RTX 3090 显卡，能给你接近 GPT-4 的东西。问题不再是「能不能跑」，而是：该装哪个工具、配什么电脑、值不值得花钱。

这篇把三个问题一次讲完，每一步写到「在哪点什么、敲什么命令」，照着做就能跑起来。文里点名的工具和数字，我都去官网、GitHub 一个个核过。

先把账摆全。本地跑模型的好处，不止「数据不出门」一条：

1.隐私：提示词和数据全程不离开你的机器。律师、医生、财务，这条没得商量

2.省钱：用量大的话，几个月回本，之后没有按字计费，没有限速

3.离线能用：飞机上、地下室、保密场所、网络差的工地——云端 AI 罢工的地方它照干

4.不矫情：开源模型不会因为过度谨慎，把正常的活也拒了

5.学得最快：想真搞懂 AI 是怎么回事，自己跑一遍是最短的路

代价后面「丑话」那节讲。下面按能直接抄的顺序，一层一层来：先搞懂底牌，再挑工具，再配机器，最后算账。

一、先搞懂一件事，少走一半弯路

市面上的本地 AI 工具有十几个，名字一个比一个唬人。但底牌其实很简单：它们底下几乎是同一个引擎，叫 llama.cpp，真正负责「算字」的就是它。

Ollama、LM Studio、GPT4All，全是在这个引擎外面套壳。壳和壳的区别只在三点：有没有图形界面，装起来麻不麻烦，能不能当服务器给多人用。

▍所以你不用研究十几个工具，挑壳就行。真正需要认识的就四个。

二、四个工具，对号入座，附装法

Ollama，默认选项。命令行操作（就是在黑窗口里敲命令），别被吓到，全程就一条命令。它自带一个和 OpenAI 格式兼容的接口，市面上几乎所有 AI 开发工具都认它——以后想把 AI 接进自己的系统、做自动化，走它阻力最小。缺点也直白：没有图形界面。

装法，四步：

① 浏览器打开 ollama.com，点 Download，选你的系统（Mac、Windows 都有），下载完双击安装

② 打开终端：Mac 按 Command+空格，输「终端」回车；Windows 按 Win 键，输 cmd 回车——就是那个黑窗口

③ 敲 ollama run qwen3:8b，回车。第一次会自动下载模型，5GB 多，等进度条走完

④ 看到 >>> 提示符就成了，直接用中文问它问题。想退出，敲 /bye

装完顺手验证一下：浏览器打开 localhost:11434，看到 "Ollama is running" 几个字，说明它已经在后台待命，随时能接你的脚本和系统。

不想敲命令的，用 LM Studio。图形界面，自带模型商店。Mac 用户还有额外福利：它内置了苹果自家的 MLX 加速框架，同一台 Mac 比用别的工具跑得快。缺点是不开源，介意的人会介意。

装法，三步：

① 浏览器打开 lmstudio.ai，下载安装

② 打开后点搜索（放大镜图标），搜 qwen，列表里挑一个体积不超过你内存一半的版本，点 Download

③ 下载完切到聊天页，顶部选中刚下好的模型，开聊

家里有老电脑的，认准 GPT4All。没显卡、内存 8GB 以下的旧机器也能跑。慢，但能用。装法和 LM Studio 一个路数：gpt4all.io 下载安装，打开后在模型列表里挑个小的（Phi-3 Mini 就行），下载完直接聊。公司里那台积灰的旧笔记本可以拿来当试验品。

要给全公司几十号人同时用，上 vLLM。前三个都是单人工具，这个是公司级方案：同样一块显卡，它能比普通方案多扛 2 到 4 倍的并发请求。代价是只支持 Linux 加英伟达显卡，部署也复杂，一个人用就别碰它，到了「团队共用」那一步再回来找它。

另外两个点一下名：Jan AI 全开源、不收集任何数据，适合隐私要求顶格的场景；llama.cpp 直接裸用最省资源，整个程序不到 90MB——对比之下，Ollama 装完要占 4.6GB。

▍最实在的答案其实是：Ollama 和 LM Studio 两个都装，它俩不是竞争关系。LM Studio 当「试衣间」——用图形界面挑模型、试模型、调提示词；Ollama 当「发动机」——挑好了让它常驻后台，给你的脚本、工具、自动化流程供电。一个管「选」，一个管「用」。

工具定了，下一个问题马上来：我这台电脑，带得动哪个模型？

三、你手头是什么电脑，就装什么

这部分最值钱，一张硬件对照表，照着找自己的位置：

·树莓派 Pi 5（几百块的巴掌电脑，8GB/16GB 内存）：装 Ollama，跑 1B~4B 的迷你模型，每秒 2 到 8 个 token。做简单问答、当智能家居的大脑够了，别拿它写正经东西。这是本地 AI 的最低入场价。

·老笔记本（i5、无显卡、8GB 内存）：装 GPT4All，跑 Phi-3 Mini 这种小模型。慢，问短问题行，别指望写长文。

·普通新笔记本（16GB 内存、无独立显卡）：装 Ollama 或 LM Studio，跑 4B 到 7B 级别的模型。B 是参数量单位，越大越聪明，也越吃硬件。每秒输出 5 到 15 个 token（模型吐字的单位），写邮件、做摘要够用。

·MacBook Air（M2/M3/M4 芯片）：装 LM Studio、开 MLX 加速，跑 8B 到 14B 模型，每秒 20 到 40 个 token，比你阅读的速度还快。苹果芯片在这件事上出乎意料地能打。

·苹果顶配（M4 Max、128GB 内存）：能跑 70B 大模型，每秒约 20 个 token，干正经活没问题。靠的是苹果的统一内存——同样能力放在 PC 上，得配五千美元的专业显卡。

·英伟达显卡台式机（RTX 3060 到 4070）：装 Ollama，8B 到 14B 模型每秒 30 到 80 个 token，几档里体验最顺的。

·AMD 显卡加 Windows：别装 Ollama，用 llama.cpp 的 Vulkan 模式或 LM Studio，不然显卡白买。

·团队多人共用：vLLM，一块 A100 显卡能同时服务 10 到 50 个人。

跑什么模型？推荐两个国产的：Qwen（阿里开源的通义千问）和 DeepSeek。中文能力比海外开源模型靠谱。在 Ollama 里就是一条命令的事：ollama run qwen3:8b 或 ollama run deepseek-r1:8b，数字按上面表里你那一档能跑的大小换。

单台机器的打法到这就齐了。但如果你胃口更大——想跑「满血版」大模型，也不用买怪兽机器。

四、进阶：四台 Mac mini 跑「满血版」DeepSeek

4 台 Mac mini，用一个叫 EXO 的开源软件连成集群（几台机器拼成一台用），就能跑起 6710 亿参数的 DeepSeek——就是大家说的「满血版」。没有数据中心，没有云，没有一次 API 调用。

EXO 的原理是把模型切开，分到每台机器上各算一段。它在 GitHub 上开源（搜 exo-explore/exo，4.5 万星），官方数据：2 台机器最多提速 1.8 倍，4 台提速 3.2 倍。

最省心的是组网：把几台机器连进同一个局域网（插同一台路由器、连同一个 Wi-Fi 就算），每台装上 EXO，它们会自动发现彼此、自动组成集群，不用手动配置。

▍你不需要一台怪兽机器，把手头已有的旧电脑串起来分担负载，就行。办公室淘汰下来的那几台电脑，可能就是你的「AI 机房」。

工具会挑了、机器会配了，最后落到老板最关心的问题：花多少钱，几个月回本？

五、替你算笔账

入门档：0 元。现有电脑装 Ollama，跑个 7B 的 Qwen，一个晚上搞定。先试清楚本地模型够不够用，再谈花钱。

像样档：一台 Mac mini M4（16GB 内存），官网起售价 4499 元。跑 7B 到 14B 模型很轻松，可以当小团队的内部 AI 服务器，全天开着。

认真档：二手 RTX 3090（24GB 显存），市价五千上下（行情价，以实际成交为准），配台机器跑 32B 级模型，能给你接近 GPT-4 的东西。

买不买，不拍脑袋，先把自己的真实开销查出来。三步：

① 查 API 账单：用 OpenAI 的，登 platform.openai.com，左边菜单点 Usage（用量），按月看；用国内大模型的，去各家控制台的「费用中心」看

② 加上订阅费：ChatGPT Plus、各种 AI 工具会员，全公司一个个数出来

③ 近 3 个月加总除以 3，得出月均

月均两三千元：一台五千块的机器两三个月回本，之后电费几乎可以忽略，值得动手。月均就几十块：别折腾，API 继续用，这篇存着，等用量上来再说。本地部署是给「用量大」或「数据敏感」的人准备的。

什么样的企业值得做？三条占两条再动手：

1. 数据敏感：合同、病历、财务、政企项目

2. AI 用量大：月开销稳定超 2000 元

3. 团队里有一个愿意折腾电脑的人

这账划不划算，你自己看。

丑话说在前面

本地模型干不过云端最强的。最难的推理任务上，最好的本地模型仍然落后 GPT-5.1 和 Claude 这一档。

▍实际用法是二八开：日常 80% 的活——写稿、摘要、整理资料、辅助写代码——本地够用；最难的 20%，留一个云端订阅。

所以别想着一步到位全替换。先拿现有电脑试，试明白了再花钱。

往后看，三件事

1. MCP（让 AI 接外部工具干活的通用接口）正在变成标配，LM Studio 已经装上了，到年底主流本地工具都会跟上——到时候本地模型也能像云端 AI 一样「接活干」，不只是聊天

2. 手机端要起飞，正经的本地 AI 正在往手机里搬

3. 和云端的差距会继续缩小，但最顶尖那一档短期内仍是云端独有——所以「二八开」的用法，一两年内都不会过时

给中小企业的能抄清单

1. 今晚就能做：去 ollama.com 下载安装，敲 ollama run qwen3:8b，拿你平时问 ChatGPT 的问题问它，亲自感受差距有多大

2. 翻出公司最旧的还能开机的电脑，装 GPT4All，测出你的「零成本底线」在哪

3. 按第五节的三步，拉出过去 3 个月的 AI 开销，月均超 2000 元，再考虑买硬件

4. 列一张「数据敏感业务清单」：合同审阅、客户资料整理、财务分析——这些是最先搬到本地的活

5. 多人共用别一步到位：10 人以内每人装 Ollama 各用各的，超过 10 人同时用再上 vLLM