乐于分享
好东西不私藏

本地 AI 不是万能,但真香——Ollama 入门指南

本地 AI 不是万能,但真香——Ollama 入门指南

每次调用云端 API,钱在烧;每次上传数据,隐私在裸奔。也许,本地部署一个 AI 模型就好了。


你是不是也遇到这些问题?

用了一段时间 AI 之后,你可能跟我一样,遇到了几个让人头疼的问题:

第一,API 太贵了。

刚开始觉得 AI 好用,一算账发现——每月 API 费用好几百块。批量处理几百篇笔记、几千张图片?光是 API 调用费就能让你肉疼。重度用户一个月烧上千也不稀奇。

第二,数据隐私让人不放心。

你的笔记、你的照片、你的代码——每次调 API 都要上传到别人的服务器。就算平台承诺不会拿你的数据训练模型,你心里真的踏实吗?

如果你也有这些困扰,也许你该试试在本地跑一个 AI 模型


先泼盆冷水

不过先说清楚:这篇文章不是要告诉你”本地模型能替代 DeepSeek V4″。

不能。

受限于模型规模,当前阶段,本地跑的 20 亿、40 亿参数的小模型在复杂推理、编程、长文本理解方面,确实比不上云端大模型(参数量可以理解为模型的”脑容量”,越大越聪明,但也越吃硬件)。如果你需要最强的 AI 能力,该用云端服务还是得用。

但从趋势来看,当前算力紧张的情况还会持续,而且比较贵,未来一定是本地模型和云端 API 的组合。如果你的笔记本硬件支持,越早接触本地模型越好,而且端侧模型能力也在不断增强,能做的任务会越来越多。

比如说一些日常场景,真的需要 DeepSeek V4 吗?

  • • 查个概念、问个定义
  • • 整理一下邮件草稿
  • • 把 Excel 数据转成 JSON
  • • 看几千张照片截图里有什么内容
  • • 给上百篇笔记分类、打标签

这些轻量任务,本地小模型完全能胜任。而且有三个云端比不了的优势:

第一,免费。 不用办订阅,不用充 API 额度,不花一分钱。

第二,私有。 你的数据不离开电脑,对于敏感信息这点太重要了。

第三,零延迟。 没有网络往返,生成速度相比云端也不差。

所以我的策略是:轻量的批量自动化任务本地跑,复杂任务扔云端。


Ollama 是什么?

一句话:让本地跑大模型像装 App 一样简单。

你不需要懂 GPU 驱动、不需要配什么 CUDA 环境、不需要从源码编译——就像你用微信发消息,不需要懂 TCP/IP 协议一样。Ollama 把所有底层复杂度全部封装好了,留给你的体验就像装一个 App——一行命令,模型下载、加载、运行,全自动。

我第一次用的时候,真的就一句话:

ollama run qwen3.5:2b

30 秒下载完模型,然后一个中文 AI 就在我终端里跟我聊上了。

没有注册账号,没有申请密钥,没有网络请求(模型加载完之后)。


5 分钟装好

Mac 用户

最简单,一行命令:

curl -fsSL https://ollama.com/install.sh | sh

装完之后,顶部菜单栏会出现 Ollama 图标。点击它可以打开图形界面,支持对话、上传文件、联网搜索、切换模型。

Windows 用户

去 ollama.com/download[1] 下载安装包,双击安装。

装完之后右下角系统托盘会出现 Ollama 图标,同样有图形界面可以用。

装完之后 Ollama 会作为 systemd 服务自动启动。用的时候把模型加载到内存,空闲 5 分钟自动释放内存,不占资源。


桌面端 UI:不只是命令行

很多人以为 Ollama 只能用命令行,其实它自带图形界面。

安装完成后,在菜单栏(Mac)或系统托盘(Windows)点击 Ollama 图标,就能打开对话界面。功能包括:

  • • 文字对话——直接打字聊天
  • • 文件上传——支持上传文档、代码、图片
  • • 模型切换——随时换不同大小的模型
  • • 多模态——用 qwen3.5这类多模态模型可以上传图片让 AI 分析

如果是入门,这个界面已经够用了。如果你需要更高级的功能(比如知识库 RAG、多模型对比),后面我会介绍 Cherry Studio 这类第三方客户端。


下载你的第一个模型

Ollama 有一个模型库,类似手机的应用商店,里面几千个模型随便下载。

我们先来个最轻量的:

ollama pull qwen3.5:0.8b

qwen3.5 是通义千问 3.5 代模型,阿里开源的。0.8b 就是 8 亿参数——大约 1GB 大小,非常轻量。

下载完之后,直接跑:

ollama run qwen3.5:0.8b

你会看到一个 >>> 提示符。直接打字,用中文聊就行。

试试问它几个问题:比如让它介绍下 Ollama:

你还可以问:

  • • “用简单的话解释一下什么是机器学习”
  • • “给我总结这篇文章的核心观点”(然后粘贴一段文字)

你会发现,对于日常使用,这个只有 8 亿参数的小模型已经相当能打了。

按 Ctrl+D 退出。


模型要选多大的?

这是新手最常问的问题。直接给你一个对照表:

模型大小
磁盘占用
最低内存
适合什么场景
0.8B(8 亿参数)
1 GB
2 GB
测试、简单问答、数据格式化
2B(20 亿参数)
2.7 GB
4 GB
日常对话、邮件草稿、简单编程
4B(40 亿参数)
3.4 GB
8 GB
写作翻译、图片分析
8B(80 亿参数)
5 GB
16 GB
高质量对话、复杂任务
云端大模型
不占本地
需要网络
复杂编程、深度推理、专业领域

我的 MacBook Air 24GB 内存,日常用来数据处理、图片分析用 qwen3.5:4b 就够了。如果是特别编程任务,我会切到云端模型。


不只是本地——Ollama 也支持云端模型

这是很多人不知道的:Ollama 不只是本地模型工具,它也能直接调用云端大模型。

而且操作方式完全一样,只是模型名后面加个 :cloud。不需要单独注册 API、不需要装 SDK——Ollama 帮你统一了(注册后有免费额度)。

举个例子,今天最新的 DeepSeek-V4-Pro 已经上线 Ollama 云端,基于最新的 NVIDIA Blackwell 硬件运行。想体验一下?一行命令:

ollama run deepseek-v4-pro:cloud

就这么简单。跟你跑本地模型的命令一模一样,只是背后的算力从你的电脑换到了云端。

这意味着你可以用同一套工具、同一种操作方式,自由选择跑本地还是跑云端:

  • • 轻量任务 → 本地模型,省资源、零延迟、完全免费
  • • 复杂任务 → 一键切云端,享受顶级大模型的推理能力

还可以集成到各种开发工具里:

# 配合 Claude Code 使用ollama launch claude --model deepseek-v4-pro:cloud# 配合其他 Agent 工具ollama launch openclaw --model deepseek-v4-pro:cloud

💡 更多云端模型和使用方式,可以访问 Ollama 模型库查看:https://ollama.com/library


几个常用命令

装完 Ollama,这几个命令够你用很久:

# 查看本地有哪些模型ollama list# 下载新模型ollama pull gemma4:e2b# 运行模型并直接对话ollama run gemma4:e2b# 删除模型(释放磁盘空间)ollama rm qwen3.5:0.8b# 查看正在运行的模型ollama ps

就这五个命令,覆盖了 90% 的日常使用场景。


本地模型适合什么场景?

我这段时间用下来,本地模型最适合这些场景:

✅ 批量图片处理

  • • 几千张照片自动分类、打标签(比如按场景、人物、时间归类)
  • • 截图内容识别(用 qwen3.5、gemma4 等多模态模型)
  • • OCR 文字提取

✅ 知识库整理

  • • 给几百篇笔记批量总结、打标签、提取关键词
  • • 配合 Obsidian 等笔记工具做 AI 增强处理
  • • 文档去重和归类

✅ 浏览器端 AI 助手

  • • 选中网页内容一键总结、翻译、解释
  • • 类似 Monica 的浏览器插件体验

✅ 日常问答

  • • 查概念、问定义
  • • 简单的事实性问题

❌ 不适合的场景

  • • 复杂系统设计
  • • 深度逻辑推理
  • • 专业领域问题(法律、医疗等)
  • • 超长文本处理(超出上下文窗口)

这些场景,还是用云端 API 更靠谱。


为什么我说”真香”

前面说了本地模型免费、私有、零延迟的优势,但真正让我”真香”的是这几个我自己动手做的项目

场景一:给几千张手机照片分类打标签。

手机里存了几千张照片,想从中找出孩子成长阶段的精彩瞬间。云端 API 一来一回,几千张照片光是网络请求就要跑很久,还可能触发频率限制。用本地模型配合多模态能力,让 AI 一张张识别内容、自动打标签——照片是出去玩、还是在家、还是生日聚会,全部自动归类。几千张跑完,零成本,数据也没有上传到任何外部服务器。

场景二:给 Obsidian 笔记做 AI 总结和关键词提取。

我有几百篇积累的笔记,想给每篇做总结、打标签、提取关键词。我写了一个 Obsidian 插件,接入本地 Ollama,一键就能对所有笔记批量处理。几百篇笔记,每篇自动生成摘要和标签,整个流程跑下来几分钟搞定。如果是云端 API,光是 API 费用就是一笔开销,而且还得考虑隐私问题——笔记内容全部留在本地。

场景三:做一个浏览器插件,网页上随时问 AI。

类似 Monica 那样的浏览器助手,选中文本就能让 AI 解释、翻译、总结。我写了一个浏览器插件,后端接的本地 Ollama。选中一段英文论文的段落,右键就能让 AI 用中文总结要点;看到一篇技术博客,选中代码就能让 AI 解释。全程本地运行,不用注册任何服务,打开浏览器就能用。

这些体验是云端 API 很难给你的——不只是成本问题,更是数据隐私离线可用的问题。你的照片、你的笔记、你浏览的网页内容,全部留在你自己的电脑上。


Ollama 不只是命令行——它的生态有多大?

你可能以为 Ollama 就是一个终端工具,但其实它背后有一个庞大的生态。各种主流的 AI 工具、编程框架、桌面应用,都已经接入了 Ollama。

AI 编程助手

如果你最近想体验 AI 编程,这些主流的 AI 编程工具都可以接入 Ollama,让本地模型帮你写代码:

工具
一句话介绍
启动命令
Claude Code
Anthropic 出品的 AI 编程 Agent
ollama launch claude
Codex
OpenAI 开源的编程 Agent
ollama launch codex
OpenCode
开源的终端 AI 编程助手
ollama launch opencode

一行命令就能启动,不需要额外配置 API 地址——Ollama 都帮你搞定了。

桌面客户端(非技术人员也能用)

想打造个人助理,这些图形界面工具都支持 Ollama,打开浏览器或桌面应用就能跟 AI 聊天:

工具
特点
Cherry Studio
多模型桌面客户端,界面美观,支持模型对比
AnythingLLM
一站式 AI 应用,自带知识库和文档管理
Lobe Chat
现代化聊天框架,插件生态丰富
Chatbox
轻量级桌面客户端,Mac/Windows/Linux 都能用

编程语言 SDK

想在自己的代码里调用本地模型?Ollama 提供了 10+ 种语言的官方/社区 SDK

Python、JavaScript、Java、Go、Rust、Ruby、C++、Dart、Elixir、Julia……

不管你用什么语言写代码,都能轻松接入。

接下来干什么?

这篇文章只是开胃菜。这个系列我会带你:

  • • API 开发实战——用 Ollama 的 REST API 构建你自己的 AI 应用
  • • 桌面应用对比——Ollama 原生 UI、Cherry Studio怎么选

「动手学 AI」,AI 时代,一起成为Builder。

快下载安装试试吧,有问题可以评论区交流~


引用链接

[1] ollama.com/download: https://ollama.com/download