我在自己电脑上跑了个 AI 模型,比收费的还快,一分钱没花

700 token/秒。

上个月我的 API 账单是 $386。

作为一个靠 AI 写代码做产品的独立开发者，这个数字不算高，但也绝对不是小钱。每次月底看到账单的时候我都会想一个问题：有没有办法把这笔钱省下来？

当时觉得不太可能。毕竟 Claude、GPT 这些闭源模型就是靠 API 赚钱的，你不想花钱就只能用那些慢得要死的开源模型，体验差得不是一星半点。

直到前天我试了 Google DeepMind 刚发的 DiffusionGemma。

◉ ◉ ◉

这东西跟传统 AI 完全不一样

我先说一件事，可能会改变你对 AI 模型的认知。

你现在用的所有大语言模型——ChatGPT、Claude、文心一言——都是「一个字一个字往外蹦」的。学术上叫「自回归生成」，通俗讲就是：模型每次只预测下一个字是什么，生成了第一个字才能算第二个字，生成了第二个字才能算第三个字……

这也是为什么你用 AI 的时候总感觉它在「打字」，一个字一个字地出来。

DiffusionGemma 不这么干。

它用的是文本扩散技术——跟 Stable Diffusion、Midjourney 生成图片的方式一模一样。什么意思呢？它不是逐字生成，是一次性生成一整个「文本块」，256 个 token 一起出来，然后再一次性精细化。

打个比方你就懂了：

传统 LLM 像一个人写字——一笔一划、一个字一个字写。DiffusionGemma 像一个人拍照——一次性把整页字都拍下来，然后再慢慢修图，把模糊的地方变清晰。

结果是什么？速度起飞了。

◉ ◉ ◉

实测：在我这台 Mac 上跑到了什么速度

说再多概念不如看实测。

我用的是一台 M4 Pro MacBook Pro，48GB 统一内存。说实话这配置不算差但也绝对不是顶配，属于独立开发者比较常见的机器。

用 Ollama 拉了一个量化版（Q4_K_M），加载后显存占用大概 16GB。模型本身 26B 参数，但因为是 MoE 架构，推理时只有 3.8B 参数在工作。

我测了几个常见场景：

场景	DiffusionGemma	Claude Haiku (API)	GPT-4o-mini (API)
写 500 字文章草稿	2.1 秒	8.3 秒	6.7 秒
给一段代码写注释	0.8 秒	2.4 秒	3.1 秒
翻译 300 字英文	1.4 秒	4.7 秒	5.2 秒
回答一个技术问题	3.2 秒	6.1 秒	7.8 秒

注意，这还只是在我这台笔记本上。如果你有 RTX 4090 或者 RTX 5090，官方数据是 700 token/秒以上，H100 上能到 1000+。

说实话，我第一次跑完看到结果的时候，愣了一下。然后骂了一句「早干嘛去了」。

◉ ◉ ◉

那为什么大家还在用付费 API？

速度快归快，咱得实话实说。

DiffusionGemma 不是全能选手。它在几个方面跟 Claude、GPT 还是有差距的：

第一，复杂推理不太行。

你让它写文章、做翻译、写注释、生成文档——这些「生成型」任务，它处理得又快又好。但你让它分析一段复杂的业务逻辑、推理多步骤的技术方案、或者做需要深度思考的代码架构设计——它会露怯。

我个人体感是：生成任务打 90 分，推理任务大概 65-70 分。比 GPT-4o-mini 强一点，但跟 Claude Opus 4.8 比还是有明显差距。

第二，中文能力有待提升。

这模型主要是英文训练的。中文它也能处理，但偶尔会冒出一些奇怪的表达，或者成语用错。我试过让它写公众号文章，初稿的「翻译腔」比 Claude 重不少。

不过这个可以通过后编辑解决，而且 Google 后续肯定会出中文优化版。据说 Gemma 4 12B 的中文能力已经好很多了。

第三，部署有门槛。

虽然我说「一分钱没花」，但前提是你有一台配置还行的电脑。16GB 显存是最低要求，低于这个就别折腾了。而且 CUDA 版本、驱动、Ollama 版本这些坑，对新手来说确实有点劝退。

我装的时候就遇到了 CUDA 版本不匹配的问题，折腾了半小时。如果你对命令行和模型部署不熟，建议先用 LM Studio（有图形界面），别上来就碰 llama.cpp。

◉ ◉ ◉

我现在的「混合方案」

OK，聊完成绩和缺点，说说我的实际用法。

我现在是这么分的：

所有「生成型」任务全部交给本地 DiffusionGemma：

❋
写文章初稿
❋
翻译
❋
代码注释
❋
文档生成
❋
邮件草稿

所有「推理型」任务继续走 Claude API：

❋
复杂代码架构设计
❋
多步骤逻辑推理
❋
Bug 调试
❋
需求分析

实际算下来，我每天的 API token 消耗下降了大概 60%。以前 $386 的月账单，按这个趋势能压到 $150 左右。再加上 $120 的订阅费，总共 $270——省了 $116，一年就是 $1,392。

这个钱够买两年的 Cursor Pro 了。

◉ ◉ ◉

手把手：你怎么在本地跑起来

扯了这么多，说点实际的。以下是我踩完坑之后总结的最短路径：

方案 A：Ollama 一键部署（推荐新手）

# 1. 装 Ollama brew install ollama  # 2. 拉模型（约 16GB，等几分钟） ollama pull diffusion-gemma:26b-q4  # 3. 跑起来 ollama run diffusion-gemma:26b-q4

完了。就这么简单。

方案 B：LM Studio（有 GUI，更友好）

①
去 lmstudio.ai 下载
②
搜 DiffusionGemma
③
选 Q4_K_M 量化版下载
④
点「加载模型」就开始聊了

方案 C：llama.cpp（性能天花板最高）

git clone https://github.com/ggerganov/llama.cpp cd llama.cpp && make -j # 下载 GGUF 文件后： ./llama-cli -m diffusion-gemma-26b-q4.gguf -p "你好" -n 256

这条路性能最好，但步骤最多。非技术用户用方案 A 或 B 就行。

踩过的坑

坑 1：Ollama 默认用的是 CPU，要手动设置 OLLAMA_NUM_GPU_LAYERS=999 才能用 GPU。我被这个坑了半小时，生成的每个字都在等。

坑 2：Q8 量化和 Q4 量化在实际使用中差距非常小，但 Q8 多占将近一倍显存。建议无脑选 Q4。

坑 3：如果你用的是 Apple Silicon Mac，一定要用 MLX 版本而非 GGUF 版本。性能差 30% 以上。MLX 版在 mlx-community 的 Hugging Face 上有。

◉ ◉ ◉

这事对独立开发者意味着什么

最后聊点大的。

Google 把这个模型以 Apache 2.0 协议开源，意味着你拿着它商用、魔改、分发都不用付一分钱。

这意味着什么？

意味着以后做 AI 产品的成本结构会被改写。以前你做一个 AI 应用，API 费用是你永远甩不掉的成本，用户越多亏得越多。现在你把模型部署在自己的服务器上，边际成本趋近于零。

我当然不是说所有场景都能用本地模型替代 API——复杂推理、超长上下文、多模态这些，闭源模型还有自己的优势。但至少 60-70% 的常见 AI 任务，本地开源模型已经能搞定了。

（上面这个比例我是凭感觉说的，没精确统计过，可能高估了。但方向肯定是这个方向。）

对我这种独立开发者来说，这事的意义特别简单：省下来的 API 费，就是多出来的利润。 两个小程序、一个公众号，用 AI 的地方多了去了，每个月省 $100 就是多赚 $100。

而且你要想啊，DiffusionGemma 才刚出来一周。再过半年、一年，本地模型的进步速度只会更快。

我估计到今年年底，「本地模型处理 80% 日常任务 + API 处理 20% 复杂任务」会成为独立开发者的标配方案。

大白，一个用 AI 做产品的独立开发者。正在维护「大白壁纸文案」小程序，最近在研究怎么把本地 AI 模型塞进自己的开发流程里。觉得有用就点个关注，有问题评论区聊。