700 token/秒。
上个月我的 API 账单是 $386。
作为一个靠 AI 写代码做产品的独立开发者,这个数字不算高,但也绝对不是小钱。每次月底看到账单的时候我都会想一个问题:有没有办法把这笔钱省下来?
当时觉得不太可能。毕竟 Claude、GPT 这些闭源模型就是靠 API 赚钱的,你不想花钱就只能用那些慢得要死的开源模型,体验差得不是一星半点。
直到前天我试了 Google DeepMind 刚发的 DiffusionGemma。
◉ ◉ ◉
这东西跟传统 AI 完全不一样
我先说一件事,可能会改变你对 AI 模型的认知。
你现在用的所有大语言模型——ChatGPT、Claude、文心一言——都是「一个字一个字往外蹦」的。学术上叫「自回归生成」,通俗讲就是:模型每次只预测下一个字是什么,生成了第一个字才能算第二个字,生成了第二个字才能算第三个字……
这也是为什么你用 AI 的时候总感觉它在「打字」,一个字一个字地出来。
DiffusionGemma 不这么干。
它用的是 文本扩散 技术——跟 Stable Diffusion、Midjourney 生成图片的方式一模一样。什么意思呢?它不是逐字生成,是一次性生成一整个「文本块」,256 个 token 一起出来,然后再一次性精细化。
打个比方你就懂了:
传统 LLM 像一个人写字——一笔一划、一个字一个字写。DiffusionGemma 像一个人拍照——一次性把整页字都拍下来,然后再慢慢修图,把模糊的地方变清晰。
结果是什么?速度起飞了。
◉ ◉ ◉
实测:在我这台 Mac 上跑到了什么速度
说再多概念不如看实测。
我用的是一台 M4 Pro MacBook Pro,48GB 统一内存。说实话这配置不算差但也绝对不是顶配,属于独立开发者比较常见的机器。
用 Ollama 拉了一个量化版(Q4_K_M),加载后显存占用大概 16GB。模型本身 26B 参数,但因为是 MoE 架构,推理时只有 3.8B 参数在工作。
我测了几个常见场景:
注意,这还只是在我这台笔记本上。如果你有 RTX 4090 或者 RTX 5090,官方数据是 700 token/秒以上,H100 上能到 1000+。
说实话,我第一次跑完看到结果的时候,愣了一下。然后骂了一句「早干嘛去了」。
◉ ◉ ◉
那为什么大家还在用付费 API?
速度快归快,咱得实话实说。
DiffusionGemma 不是全能选手。 它在几个方面跟 Claude、GPT 还是有差距的:
第一,复杂推理不太行。
你让它写文章、做翻译、写注释、生成文档——这些「生成型」任务,它处理得又快又好。但你让它分析一段复杂的业务逻辑、推理多步骤的技术方案、或者做需要深度思考的代码架构设计——它会露怯。
我个人体感是:生成任务打 90 分,推理任务大概 65-70 分。比 GPT-4o-mini 强一点,但跟 Claude Opus 4.8 比还是有明显差距。
第二,中文能力有待提升。
这模型主要是英文训练的。中文它也能处理,但偶尔会冒出一些奇怪的表达,或者成语用错。我试过让它写公众号文章,初稿的「翻译腔」比 Claude 重不少。
不过这个可以通过后编辑解决,而且 Google 后续肯定会出中文优化版。据说 Gemma 4 12B 的中文能力已经好很多了。
第三,部署有门槛。
虽然我说「一分钱没花」,但前提是你有一台配置还行的电脑。16GB 显存是最低要求,低于这个就别折腾了。而且 CUDA 版本、驱动、Ollama 版本这些坑,对新手来说确实有点劝退。
我装的时候就遇到了 CUDA 版本不匹配的问题,折腾了半小时。如果你对命令行和模型部署不熟,建议先用 LM Studio(有图形界面),别上来就碰 llama.cpp。
◉ ◉ ◉
我现在的「混合方案」
OK,聊完成绩和缺点,说说我的实际用法。
我现在是这么分的:
所有「生成型」任务全部交给本地 DiffusionGemma:
- ❋
写文章初稿 - ❋
翻译 - ❋
代码注释 - ❋
文档生成 - ❋
邮件草稿
所有「推理型」任务继续走 Claude API:
- ❋
复杂代码架构设计 - ❋
多步骤逻辑推理 - ❋
Bug 调试 - ❋
需求分析
实际算下来,我每天的 API token 消耗下降了大概 60%。以前 $386 的月账单,按这个趋势能压到 $150 左右。再加上 $120 的订阅费,总共 $270——省了 $116,一年就是 $1,392。
这个钱够买两年的 Cursor Pro 了。
◉ ◉ ◉
手把手:你怎么在本地跑起来
扯了这么多,说点实际的。以下是我踩完坑之后总结的最短路径:
方案 A:Ollama 一键部署(推荐新手)
# 1. 装 Ollama brew install ollama # 2. 拉模型(约 16GB,等几分钟) ollama pull diffusion-gemma:26b-q4 # 3. 跑起来 ollama run diffusion-gemma:26b-q4完了。就这么简单。
方案 B:LM Studio(有 GUI,更友好)
- ①
去 lmstudio.ai 下载 - ②
搜 DiffusionGemma - ③
选 Q4_K_M 量化版下载 - ④
点「加载模型」就开始聊了
方案 C:llama.cpp(性能天花板最高)
git clone https://github.com/ggerganov/llama.cpp cd llama.cpp && make -j # 下载 GGUF 文件后: ./llama-cli -m diffusion-gemma-26b-q4.gguf -p "你好" -n 256这条路性能最好,但步骤最多。非技术用户用方案 A 或 B 就行。
踩过的坑
坑 1:Ollama 默认用的是 CPU,要手动设置 OLLAMA_NUM_GPU_LAYERS=999 才能用 GPU。我被这个坑了半小时,生成的每个字都在等。
坑 2:Q8 量化和 Q4 量化在实际使用中差距非常小,但 Q8 多占将近一倍显存。建议无脑选 Q4。
坑 3:如果你用的是 Apple Silicon Mac,一定要用 MLX 版本而非 GGUF 版本。性能差 30% 以上。MLX 版在 mlx-community 的 Hugging Face 上有。
◉ ◉ ◉
这事对独立开发者意味着什么
最后聊点大的。
Google 把这个模型以 Apache 2.0 协议开源,意味着你拿着它商用、魔改、分发都不用付一分钱。
这意味着什么?
意味着以后做 AI 产品的成本结构会被改写。以前你做一个 AI 应用,API 费用是你永远甩不掉的成本,用户越多亏得越多。现在你把模型部署在自己的服务器上,边际成本趋近于零。
我当然不是说所有场景都能用本地模型替代 API——复杂推理、超长上下文、多模态这些,闭源模型还有自己的优势。但 至少 60-70% 的常见 AI 任务,本地开源模型已经能搞定了。
(上面这个比例我是凭感觉说的,没精确统计过,可能高估了。但方向肯定是这个方向。)
对我这种独立开发者来说,这事的意义特别简单:省下来的 API 费,就是多出来的利润。 两个小程序、一个公众号,用 AI 的地方多了去了,每个月省 $100 就是多赚 $100。
而且你要想啊,DiffusionGemma 才刚出来一周。再过半年、一年,本地模型的进步速度只会更快。
我估计到今年年底,「本地模型处理 80% 日常任务 + API 处理 20% 复杂任务」会成为独立开发者的标配方案。
大白,一个用 AI 做产品的独立开发者。正在维护「大白壁纸文案」小程序,最近在研究怎么把本地 AI 模型塞进自己的开发流程里。觉得有用就点个关注,有问题评论区聊。
夜雨聆风