导语: 当 Ollama 在 2026 年突破 10 万 GitHub 星标时,我知道一件事:本地 AI 不再是极客玩具,而是每个人的日常工具。
01 为什么要把 AI 装进自己的电脑?
说实话,最开始吸引我的理由很现实:隐私和钱。
当你使用 ChatGPT 或任何云端 AI 时,你的每一个提示词都会发送到别人的服务器上。你在信任他们的政策、他们的安全措施,以及他们明年决定用这些数据做什么。
如果你在处理合同、客户笔记、健康文档、内部代码,或者任何你不会公开发布的东西——这是个真实的问题。
第二个理由是成本。按 token 付费的模式,用着用着就贵了。而本地 AI,一次投入,无限使用。
Ollama 的作者说得好:"这不是小众玩法了。人们在自己的机器上运行真实的 AI 模型,做真实的工作,不用给任何人按 token 付费。"
02 你需要什么样的硬件?
这是最关键的问题。先打开你的系统信息,检查这三件事:
1. GPU 和显存 (VRAM)
即使预算有限的显卡,比如 Intel Arc B580(12GB,约$250),也能运行 7-8B 的 AI 模型。
2. 系统内存 (RAM)
- 8GB RAM
:入门级,能跑 3B 小模型(如 Phi-3、Llama 3.2 3B),但速度较慢 - 16GB RAM
:推荐配置,舒适运行 7B 模型(如 Mistral 7B、Llama 3.1 8B) - 32GB RAM
:理想配置,可以跑 13B+ 大模型(如 Qwen 2.5 Coder 32B) - 64GB+ RAM
:发烧友级别,能运行 70B+ 超大模型
3. 存储空间
模型是大型文件。一个 7B 模型在 Q4 量化下约 4GB,70B 模型约 40GB。建议至少预留50-100GB 的 SSD 空间。NVMe SSD 比 SATA 驱动器加载模型更快。
Apple Silicon 特别说明:M1/M2/M3 Mac 凭借统一内存架构,在本地 AI 推理上表现出色。一台 96GB 的 M2 Ultra 可以运行 70B 模型,这在 Windows/Linux 上需要价值$10,000+ 的 GPU。
03 5 分钟安装 Ollama
Ollama 被称为"AI 界的 Docker"。它处理模型权重、GPU 加速和 API 服务的所有复杂设置——让你从零基础到与 LLM 聊天只需 5 分钟。
macOS 安装:
方式 A:官方安装包
# 从 ollama.com 下载 .dmg 文件并安装# 支持 macOS 11 (Big Sur) 及更高版本# 自动检测 Apple Silicon (M1/M2/M3) 进行 Metal 加速方式 B:Homebrew
brew install ollamaLinux 安装:
# 官方安装脚本(自动检测 GPU)curl -fsSL https://ollama.com/install.sh | sh# 验证安装ollama --versionWindows 安装:
从 ollama.com 下载安装程序 运行 .exe 文件 Ollama 会作为后台服务自动运行
安装后验证:
# 检查 Ollama 是否已安装ollama --version# 检查服务是否运行curl http://localhost:11434# 返回:Ollama is running04 运行你的第一个模型
打开终端(Windows 上的命令提示符,Mac/Linux 上的 Terminal),输入:
# 下载并运行 Llama 3.1 8B(推荐起点)ollama run llama3.1:8bOllama 会下载模型权重(约 4-5GB),然后启动聊天会话。现在你可以问它任何问题,所有计算都在你的本地硬件上完成。
2026 年推荐的模型:
05 重磅选手:Google Gemma 4 系列
如果说 Llama 3 是开源社区的明星,那 Gemma 4 就是 Google 的正式下场。
Gemma 4 是 Google DeepMind 在 2026 年 4 月 2 日 刚刚发布的开放权重模型家族,基于 Gemini 3 技术构建。这是 Google 目前最强大的开源模型系列。
Gemma 4 的核心优势:
- Apache 2.0 许可
:完全开源,可商用,无限制 - 256K 上下文窗口
:31B 和 26B 版本支持超长上下文(128K 用于 E2B/E4B) - 原生多模态
:所有版本支持图文输入,E2B/E4B 还支持音频 - 原生函数调用
:为 AI Agent 时代设计,支持工具调用和工作流 - MoE 架构
:26B 版本采用混合专家架构,只激活 3.8B 参数,速度极快
Gemma 4 完整规格与推荐表:
| 多模态入门 | |||||||
| 速度王者 | |||||||
| 质量至上 |
关于架构的说明:
- Dense(稠密)
:E2B、E4B、31B 使用传统架构,所有参数每次都参与计算 - MoE(混合专家)
:26B 有 26B 总参数,但每次只激活 3.8B,速度接近小模型,质量接近大模型
关于推理速度的说明(未实测):
设备推理速度参考:
| 50-60 tok/s | |||
我的 M3 64GB 专属推荐:
| 🥇 日常主力 | gemma4:26b | ||
| 🥈 质量优先 | gemma4:31b | ||
| 🥉 多模态 | gemma4:e4b |
快速上手:
# 边缘多模态版本(能看图说话,支持音频)ollama run gemma4:e4b# 速度王者(MoE 架构,日常主力推荐)ollama run gemma4:26b# 质量至上(Dense 架构,复杂推理)ollama run gemma4:31b常用命令:
# 列出已下载的模型ollama list# 删除模型ollama rm <模型名># 查看模型信息ollama show <模型名># 退出聊天/bye06 进阶:给 AI 装上图形界面
如果你不满足于命令行,想要一个类似 ChatGPT 的网页界面,推荐使用Open WebUI:
# 使用 Docker 安装 Open WebUIdocker run -d -p 3000:8080 \ --add-host=host.docker.internal:host-gateway \ -v open-webui:/app/backend/data \ --name open-webui \ ghcr.io/open-webui/open-webui:main然后在浏览器访问 http://localhost:3000,配置 Ollama 作为后端(http://host.docker.internal:11434),你就能拥有一个完全本地运行的 ChatGPT 替代品。
07 开发者:用 API 集成到你的工具中
Ollama 在 localhost:11434 上提供 OpenAI 兼容的 API。这意味着任何支持 OpenAI API 的工具都可以直接使用 Ollama。
示例代码(Python):
from openai import OpenAIclient = OpenAI( base_url='http://localhost:11434/v1/', api_key='ollama' # 不需要真实的 API key)response = client.chat.completions.create( model='llama3.1:8b', messages=[{'role': 'user', 'content': '你好!'}])print(response.choices[0].message.content)VS Code 集成:安装 Continue 扩展,配置 Ollama 作为提供者,你就能拥有本地的 AI 编程助手。
07 没有 GPU?云 GPU 是另一个选择
如果你想拥有本地 AI 的控制权,但不想承担硬件成本,可以考虑云 GPU 租赁服务。
Vast.ai 按小时出租独立 GPU。RTX 4090 的价格约为$0.25-0.40/小时——足以全速运行 Llama 3.1 70B。你在租用的实例上安装 Ollama,享受本地控制的同时无需前期硬件投资。
08 最后的话:这不仅仅是一个技术选择
在 2026 年,运行本地 AI 不仅仅是一个技术成就,更像是一种立场声明。
它在说:你的想法和你的数据属于你。
不需要 rate limits,不需要 429 错误,不需要排队等待,不需要被限制。你想运行多少次请求,就运行多少次——只受你的硬件限制。
当然,本地 AI 也有局限。如果你需要最新的模型、大规模并行推理,或者企业级支持,云端 API 仍然有价值。
但對於大多数人来说,本地 AI 是一个自由的选择——自由地使用、自由地修改、自由地拥有。
今日互动:
你现在用的是哪种 AI?有没有考虑过把它装进自己的电脑? 你的硬件配置能跑多大的模型?欢迎在评论区分享你的配置清单!
相关资源
Ollama 官网:https://ollama.com Open WebUI:https://openwebui.com 模型库:https://ollama.com/library
本文基于 Medium 文章 The Clear Setup Guide to Run AI Locally on Your Machine in 2026(https://medium.com/the-ai-studio/the-clear-setup-guide-to-run-ai-locally-on-your-machine-in-2026-199d79e7ea12) 翻译整理
夜雨聆风