你的AI,真的属于你吗?
你有没有想过一个问题:你和ChatGPT、文心一言的每一次对话,都去了哪里?
答案是:去了某个公司的服务器。你的聊天记录、你的想法、你的代码、甚至你不小心粘贴进去的隐私信息——全部存在别人的硬盘上。
对于普通聊天,这可能无所谓。但如果你是一个创业者,在跟AI讨论商业计划?如果你是一个程序员,在让AI帮你调试包含敏感数据的代码?如果你只是想体验AI,但不想每个月掏几百块的会员费?
这时候你可能会问:有没有办法让AI完全跑在我自己的电脑上,不联网、不花钱、谁也别想偷看?
答案是:有。它叫 Ollama。
Ollama 是什么?
Ollama 是一个开源工具,让你在自己的电脑上本地运行各种大语言模型(LLM),比如 Llama、Gemma、Qwen、DeepSeek、Mistral 等等。
一句话概括:它是"大模型界的 Docker"。
什么意思?就像 Docker 让你一条命令拉取和运行应用容器,Ollama 让你一条命令拉取和运行 AI 模型。不需要配环境、不需要装 CUDA 驱动搞半天、不需要看懂那些天书一样的 GitHub README。
截至 2026 年 6 月,Ollama 在 GitHub 上已经获得了超过 17.3 万颗星,是 AI 本地化部署领域当之无愧的顶流项目。它支持 Windows、macOS、Linux 三大平台,而且对 Apple Silicon(M1/M2/M3/M4)做了专门的 Metal GPU 加速优化。
“ 下载地址:https://ollama.com/download[1] GitHub:https://github.com/ollama/ollama[2]
三步装好,五秒跑起来
Ollama 的安装简单到什么程度?我分别在不同系统上试了一遍,给大家报告:
Windows 用户
打开 https://ollama.com/download,点击"Download[3] for Windows",下载 .exe 安装包 双击运行,一路"下一步" 打开 PowerShell,输入 ollama --version,看到版本号就是装好了
不需要管理员权限,不需要手动配环境变量。安装程序会自动把 Ollama 设为开机启动,并在系统托盘放一个羊驼图标。
macOS 用户
两种方式任选:
方式一(推荐新手): 从官网下载 .dmg 安装包,拖进应用程序文件夹,启动即可。菜单栏会出现一个羊驼图标。
方式二(Homebrew 用户):
brew install ollama
brew services start ollama
Mac 用户有个大福利:Ollama 对 Apple Silicon 做了深度优化,利用 Metal 框架和统一内存架构,模型推理速度非常快。我的 M2 MacBook Air(16GB)跑 Llama 3.2 3B,响应几乎是秒出。
Linux 用户
就一行命令:
curl -fsSL https://ollama.com/install.sh | sh
脚本会自动装好依赖、注册 systemd 服务,装完就能用。
下载模型:像逛应用商店一样
装好 Ollama 之后,你要做的第一件事就是"拉"一个模型下来。
打开终端,输入:
ollama pull llama3.2
这个命令会从 Ollama 的模型库下载 Meta 的 Llama 3.2 模型(大约 2GB)。下载完成后,直接运行:
ollama run llama3.2
你会看到一个 >>> 提示符——现在你可以直接跟 AI 对话了,全程不联网。

你可以把它当成一个命令行版的 ChatGPT。问问题、翻译、写代码、总结文章,全都可以。要退出就输入 /bye 或按 Ctrl+D。
想看看自己装过哪些模型?
ollama list
2026 年推荐哪些模型?
Ollama 的模型库(https://ollama.com/library)里有上百个模型。我根据不同的使用场景和硬件配置,给大家整理了一份推荐清单:[4]
| 硬件配置 | 推荐模型 | 适合场景 |
|---|---|---|
| 8GB RAM / 普通笔记本 | Llama 3.2 3B / Phi-4 Mini (3.8B) / Qwen3:4b | 日常聊天、简单翻译、基础写作 |
| 16GB RAM / M系列Mac | Llama 3.1 8B / Gemma 4 E4B / Qwen3:14b | 内容创作、代码辅助、文档分析 |
| 24GB+ GPU / 工作站 | Qwen3:30b / DeepSeek R1 32B / Gemma 4 26B | 复杂推理、专业编码、多模态任务 |
个人最推荐的新手组合:
轻量全能王:Qwen3:4b — 中文能力强,CPU 也能跑 日常干活王:Llama 3.1 8B — 英文写作和代码辅助的性价比之王 代码专精:Qwen 2.5 Coder 7B — 写代码、Debug、解释代码逻辑都很出色
2026 年 Ollama 还支持了原生视觉模型,比如 Gemma 4 E4B 和 Llama 3.2 Vision。你可以把一张图片拖进对话,让模型分析图片内容——而且是完全本地运行,图片不会上传到任何云端服务器。
必学命令:从入门到熟练
装好 Ollama 之后,除了 pull 和 run,还有几个命令你一定会用到:
# 查看本地已安装的模型
ollama list
# 删除不用的模型(释放磁盘空间)
ollama rm llama3.2
# 复制一个模型(想改个名字或做备份)
ollama cp llama3.2 my-llama
# 查看模型详细信息(参数、量化方式、架构等)
ollama show llama3.2
# 查看运行日志(出问题时用)
ollama logs
如果你有多个模型,可以用 ollama run 切换。更酷的是,Ollama 支持多模态对话:
# 分析一张图片(需要支持视觉的模型)
ollama run gemma4:e4b
>>> /image /path/to/photo.jpg
>>> 这张照片里有什么?
2026 年的 Ollama 还新增了 ollama launch 命令,可以一键启动各种 AI 编码工具(比如 Claude Code、OpenCode、Codex CLI),让它们使用你本地的模型而不是云端 API。这对不想把代码上传到云端的开发者来说,是巨大的福音。
用 Ollama API 玩出花
Ollama 不光是个命令行工具,它还暴露了一个 OpenAI 兼容的 API。这意味着:你原本用 OpenAI API 写的应用,改个 URL 就能无缝切换到本地模型。
Ollama 默认监听 http://localhost:11434。你可以直接用 curl 测试:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "用一句话解释什么是黑洞",
"stream": false
}'
返回的 JSON 里就有模型生成的回答。
更实用的做法是,在 Python 项目里用 openai 库直接调用 Ollama:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 本地不需要真实 key
)
response = client.chat.completions.create(
model="llama3.2",
messages=[
{"role": "user", "content": "帮我写一个 Python 冒泡排序"}
]
)
print(response.choices[0].message.content)
注意:base_url 指向本地 Ollama,api_key 随便填就行。这意味着你所有用 OpenAI SDK 写的应用,改两行代码就能变成"本地 AI 应用",数据不出你的电脑。
Ollama 还支持 JSON 结构化输出——你可以让模型严格按照你定义的 JSON Schema 来生成内容:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "推荐三本科幻小说",
"format": "json",
"stream": false
}'
这对于开发 Agent、自动化工作流非常有用。
用 Modelfile 定制你的专属 AI
Ollama 提供了一个叫 Modelfile 的功能,让你可以自定义模型的行为。比如你想做一个专门回复"小红书风格"的 AI,只需创建一个 Modelfile:
FROM llama3.2
# 设定系统提示词(人设)
SYSTEM """
你是一个小红书博主,回复风格要求:
1. 用「姐妹们」「家人们」开头
2. 每句话后面加 emoji ✨
3. 语气热情但不浮夸
4. 回复结尾加相关话题标签
"""
# 调整温度(越高越有创意,越低越严谨)
PARAMETER temperature 0.8
# 限制最大 token 数
PARAMETER num_predict 512
保存为 Modelfile,然后创建自定义模型:
ollama create xiaohongshu-bot -f Modelfile
ollama run xiaohongshu-bot
现在你就有了一个专属的小红书风格 AI!你可以用它来:
打造特定领域的客服机器人(只了解你的产品知识) 做一个总是说冷笑话的聊天伙伴 定制一个只会写 SQL 的数据库助手 做一个能用"鲁迅体"回复的文艺机器人
Modelfile 的思路其实跟 Dockerfile 一模一样——从基础模型出发,叠加你的定制层。这也是为什么大家说 Ollama 是"AI 界的 Docker"。
进阶玩法:搭一个自己的"ChatGPT"
如果你觉得命令行不够直观,可以给 Ollama 配一个 Web 界面——Open WebUI。
Open WebUI 是一个开源的前端界面,装上之后你就能在浏览器里用 ChatGPT 一样的界面跟本地模型聊天了。支持多轮对话、文件上传、Markdown 渲染,甚至可以做 RAG(检索增强生成)——上传你的 PDF、Word 文档,让 AI 基于文档内容回答问题。
搭建步骤(用 Docker):
前提:已经装好 Docker Desktop 和 Ollama。
# 1. 确保 Ollama 在运行
ollama serve
# 2. 拉取并启动 Open WebUI
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
然后打开浏览器访问 http://localhost:3000,创建一个管理员账号,就能用了。

如果你有 Nvidia 显卡,把镜像换成 ghcr.io/open-webui/open-webui:cuda 并在命令中加上 --gpus all 参数,就能用 GPU 加速。
RAG 功能配置:
先在终端拉取嵌入模型: ollama pull nomic-embed-text进入 Open WebUI → 管理员面板 → 设置 → 文档 把嵌入模型设为 nomic-embed-text在聊天界面点击"+"上传文档,就能针对文档提问了
这功能对于学生看论文、律师看合同、产品经理看需求文档,简直是神器。
为什么你应该试试 Ollama?
说了这么多,其实 Ollama 打动我的核心原因就三个:
第一,隐私。 你的数据永远在你自己的硬盘上。问过什么问题、传过什么文件、生成过什么内容——没有任何第三方能看到。对于处理敏感信息的人来说,这不是"nice to have",是刚需。
第二,免费。 没有 API 调用费、没有月费、没有 Token 限制。只要你电脑能跑得动,想聊多久聊多久。做实验、搞开发、写文章,不用每次看账单心跳加速。
第三,自由。 模型是你的,数据是你的,整个流程是你的。你可以用 Modelfile 自定义模型的行为,可以用 API 把 Ollama 集成到自己的应用里,甚至可以完全断网使用。它给你的不是"服务",是"能力"。
真实场景:他们都在用 Ollama 做什么?
你可能觉得"本地跑 AI"听起来很极客,但实际上,Ollama 已经渗透到了各种真实工作场景里:
🏢 企业文档问答:一家律所把内部所有的判例文件和合同模板用 Ollama + RAG 做了个知识库。律师输入问题,AI 直接从文档里找答案——全程内网,数据不出公司。
💻 本地编程助手:很多开发者在 VS Code 里用 Continue.dev 插件,后端接 Ollama 的 Qwen 2.5 Coder 模型。代码自动补全、Bug 解释、重构建议,全部离线完成。没有人能看到你的私有代码。
📱 边缘设备部署:工厂把装好 Ollama 的小型服务器放在产线上,用本地模型分析传感器数据做预测性维护。断网也能用,延迟极低。
🎓 教学实验:大学计算机课上,学生们在笔记本上用 Ollama 跑各种模型,对比不同参数对生成效果的影响。不用花钱买 API credit,想跑多少次跑多少次。
🔒 医疗数据处理:医生需要 AI 辅助分析病历,但患者隐私法规不允许数据上传云端。Ollama 让模型直接在医院的本地服务器上运行。
这些不是"未来愿景",是 2026 年正在发生的事情。
当然,Ollama 也不是万能的。它需要你的电脑有一定的硬件基础,至少 8GB 内存才能跑得舒服。而且本地模型的能力跟云端顶级模型比,在复杂推理上还是有差距。但对于 90% 的日常使用场景来说,完全够用——而且你用的是一个真正属于你的 AI。
最后说几句
2026 年了,AI 已经不再是少数巨头的专利。Ollama 这样的开源工具,正在把 AI 的能力交还给每个人——让你的数据留在你的电脑上,让你的创造力不被订阅费束缚,让你真正拥有属于自己的 AI。
如果你一直想试试 AI 但又担心隐私、费用、技术门槛——真的,花半小时装个 Ollama,拉一个模型跑起来。你可能会惊讶地发现:原来拥有一台"AI PC",就这么简单。
觉得有用的话,点个「推荐」支持一下~ 转发给身边想玩 AI 又怕被割韭菜的朋友,他们可能会请你喝奶茶。🍵
关注「xxDays」,每周为你拆解值得关注的科技工具和思考。
引用链接
[1]https://ollama.com/download
[2]https://github.com/ollama/ollama
[3]https://ollama.com/download,点击"Download: https://ollama.com/download%EF%BC%8C%E7%82%B9%E5%87%BB%22Download
[4]https://ollama.com/library)里有上百个模型。
夜雨聆风