装好 OpenClaw 第二天|选哪个模型?看这一篇就够了

装好 OpenClaw 的第二天

——写给每一个打开模型下拉菜单、然后不知道该选哪个的人

by朱雀

有一件事，几乎所有人都做过。

装好 OpenClaw，打开配置页面，看见那个模型下拉菜单，里面密密麻麻列着几十个名字。然后随便点了一个，或者保留了默认值，关掉页面，开始用。

这很正常。人在不确定的时候，总是会选最近的那个。

但代价是真实的。你用了一个不适合你的模型，每次等它回答，你都在等一件本可以更快的事。每次付账单，你都在为一个本可以更便宜的选择买单。更重要的是，你永远不知道，如果换一个模型，结果会不会好很多。

熬夜一夜，写下这篇文章想做一件事：把这个选择说清楚。

一

先说一个真实的数字差距，让你有个概念。

同样是完成 OpenClaw 里 23 个标准工作任务——写文章、分析竞对、整理邮件、读 PDF、处理 CSV——有的模型用了 9 分钟，有的用了 46 分钟。

不是 9 分钟和 10 分钟。是 9 分钟和 46 分钟。

同样是这 23 个任务，有的模型每次花你 ¥1，有的花 ¥16。

同样是这 23 个任务，有的完成率是 87%，有的是 75%。

这些差距不是来自哪个评测机构的理论数字，而是来自 PinchBench，一个专门为 OpenClaw agent 场景设计的实测基准。它做的事情很简单：把同一批真实任务，交给不同的模型去跑，然后如实记录结果。成功了几个，花了多少钱，等了多久。

就这样。

没有什么复杂的加权系数，也没有什么主观评分。任务完成了就是完成了，任务失败了就是失败了。

二

在我们谈具体的模型之前，需要先理解三个维度。不理解这三件事，后面的对比就是一堆数字而已。

第一件事：成功率。

成功率不是"这个模型聪不聪明"，而是"这个模型在 OpenClaw 里能稳定完成任务的概率"。两件事不一样。有些模型在语言理解上很优秀，但不擅长调用工具、执行多步骤任务、处理文件。而 OpenClaw 恰好需要这些。87% 和 75% 之间的差距，意味着每 100 个任务里，一个完成了87个，另一个只完成了75个。那12个失败的任务，要么你要返工，要么你什么都没得到。

第二件事：速度——但不是你想象的那种速度。

这里的"速度"不是模型生成一个字有多快，而是 OpenClaw agent 完成一个完整任务需要多长时间。

agent 工作的方式是：想一想，调用工具，看结果，再想一想，再调用，直到完成。每一步都要等待 API 响应。一个任务可能需要十几次这样的循环。

所以当我们说"Gemini 3 Flash 每个任务平均 24 秒"，意思是：你把任务交给它，24 秒后你能看到结果。

当我们说"DeepSeek V3.2 每个任务平均 2 分钟"，意思是：你点了发送，然后去泡了一杯茶，回来了，结果还没出来。

如果你在实时使用，这个差距是真实的煎熬。如果你是在后台批量跑任务、不需要盯着看，这个差距就没那么重要了。

第三件事：稳定性。

有一些模型，发挥好的时候能到 86%，发挥差的时候只有 78%。有一些模型，每次都稳稳地停在 80% 左右，不会特别亮眼，也不会突然崩掉。

对于生产场景，稳定性比峰值更重要。你需要的是一个你能信任的模型，而不是一个偶尔能表现出色的模型。

三

现在来看这 8 个模型。

看完这张图，有几件事可能跟你原来以为的不一样。

Claude Sonnet 4.6 确实是全组第一，但它的稳定性其实排在中间。 它的最高分是 86.9%，但多次运行的平均分是 78.2%，差了将近 9 个百分点。这意味着它有时候表现极好，有时候会掉链子。对于追求稳定的生产部署，这是一个需要考虑的因素。它的另一个问题是贵——跑完 23 个任务要花 ¥16.8，是本组平均水平的好几倍。

但它有一个其他模型没有的优势：创意任务得了 57%。听起来不高，但其他模型大多是 0%。这不是模型本身不会创意，而是 OpenClaw 的沙箱环境里，图片生成工具有时候用不上。Sonnet 4.6 在这类任务里的表现是例外。

Qwen3.5-plus-02-15 是这组里最被低估的模型。 它同时拥有两样东西：1M 超长上下文，和本组最低的 API 价格。这个组合只有它一个。它的稳定性也是全组最好（最高分与均值只差 4.2 个百分点），意味着你每次用它，得到的体验基本是一致的。缺点是数据分析只有 60%，如果你的任务主要是处理数字，要注意这一点。

Kimi K2.5 的写作是满分，数据分析是 99%。 在这组里，没有第二个模型同时在这两件事上表现这么好。而且它的单次花费只有 ¥1.97，稳定性也是全组最好之一。如果你主要用 OpenClaw 来写报告、整理研究、分析数据，它大概是最省心的选择。

MiniMax M2.1 是花费最少的。 跑完 23 个任务，¥1。就是字面上的一块钱。它的稳定性全组并列最好（差值 3.4），编码和文件操作都是满分。数据分析是它的短板（47%），如果你不需要大量处理数字，它在成本上的优势很难被超越。

DeepSeek V3.2 的问题只有一个：慢。 不是有点慢，是很慢。每个任务平均要等 2 分钟。完成 23 个任务需要 46 分钟——是同组最快的 Gemini 3 Flash 的整整 5 倍。这不是可以接受的等待，这是折磨。但如果你的任务不需要实时响应，只需要夜里跑完、早上看结果，它的成本和数据分析能力（98%）是很有竞争力的。

Gemini 3 Flash 是最快的，但它有两个维度完全失败。 合成推理 0%，内容组织 0%。这不是说它在这两件事上表现差，而是字面意义上的零分。如果你的 agent 需要把多份资料整合成一篇文章，或者对信息进行归纳整理，不要选它。但如果你需要的是速度，需要上传图片、视频、音频让 agent 处理，它是唯一的选择。

GLM-5 最擅长整合与归纳，但不要在实时场景里用它。 合成 97%，内容组织 95%，这两项是全组最高。但它每个任务要等 61 秒，完成 23 个任务要 23 分钟。这是一个适合离线批量任务的模型，不是一个适合坐在屏幕前等待结果的模型。

GPT-5.4 的均值是全组最稳定的旗舰。 它的最高分和均值差距只有 5.5 个百分点，在高分段里是最稳的。合成推理也是全组最强（98%）。但它的上下文只有 272K，如果你的任务需要处理超长文档，就不够用了。

四

选哪个，取决于你是哪种用户。

你主要用 OpenClaw 来写东西、做研究、分析数据，对成本有感知： Kimi K2.5。性价比在这个场景下最突出，稳定性也是最好的。

你需要处理很长的文档，预算有限： Qwen3.5-plus-02-15。1M 上下文加最低 API 价格，是唯一同时满足这两个条件的模型。

你主要写代码，希望花尽量少的钱： MiniMax M2.1。一块钱一次，稳定性还很好，编码满分。

你需要速度，或者需要处理图片、视频、音频： Gemini 3 Flash。没有第二个选项，这件事只有它能做。但如果你还需要整合多来源的信息，就不够用了。

你的任务可以夜里跑批，对实时性没有要求，只想把成本压到最低： DeepSeek V3.2。46 分钟不是问题，问题是成本和数据分析能力都很出色。但如果你还需要转换内容格式，它会让你失望。

你想要一个对的就行的默认选择，不想想太多： Claude Sonnet 4.6 或 GPT-5.4。前者综合分全组最高，后者更稳定、便宜一点，合成推理更强。两个都可以。

你需要把多份资料整合成一份报告，不需要实时互动： GLM-5。合成和组织是它的绝对优势，但你需要接受它偏慢的节奏。

五

还有一件事值得说。

这 8 个模型有一个共同的失败：记忆留存。全部都是 0% 或接近 0%。

这不是模型的缺陷，是 OpenClaw 目前跨会话记忆机制的局限。今天你告诉 agent 你的工作背景，明天它还是一无所知。这是整个生态都在努力解决的问题，还没有完美的答案。

提这件事，是因为如果你在用 OpenClaw 做需要持续记忆的任务，目前来说，你需要自己想办法——比如在每次会话开始时提供一个背景说明文件。

这个问题迟早会被解决。只是还没到。

六

最后说一件可能显而易见的事。

这些数字是 2026 年 3 月的数据。模型在更新，价格在变，排名也在变。Kimi 今天的优势，可能三个月后就被另一个模型追上了。DeepSeek 的速度问题，可能也会在某次更新后得到改善。

所以这篇文章的目的不是告诉你答案，而是告诉你看什么、怎么看。

那个下拉菜单里的几十个名字，现在对你来说已经不再是一堆陌生的词了。它们各有各的性格，各有各的适合场景，各有各的代价。

选一个配得上你需求的，然后开始用。

这件事值得认真对待一次。

数据来源：PinchBench（pinchbench.com），2026 年 3 月 16 日实时抓取。成功率为 23 个标准 OpenClaw 任务的实测通过率，速度为完整跑完 23 个任务的实际墙钟时间，价格按汇率 USD×7.3 换算为人民币。

我是朱雀。

2007 年做过订餐平台，比美团早几年。后来做天使投资，13 年入手加密货币，后来去创业忘了。做了一个还不错的器物品牌，有个杯子放在了马老师、俞老师桌上。天使投资过十个身边的创业者朋友，有人上市了，有人下市了。回过神，发现其实都还不错。

2024 年，把这些放下，重新开始学 AI。我自己说是"农民工进城搬砖的心态"。两年，亲手 6000 小时，400 多个智能体，13 个 AI 产品。

我现在做的事很简单：站在业务里面看技术，站在技术里面看未来，让每一个老板都能看懂方向、拿回对自己生意的掌控感。

现在做三件事：教老板用好 AI，陪企业落地，自己开发产品。

如果你想把 AI 真正用起来，不只是点开聊聊天然后放着，关注我。

加微信请先做自我介绍，时间有限，非诚勿扰。

雇一个龙虾干活：OpenClaw 零基础入门手册

2026企业AI指南｜AI蓝军只占公司2.5%,但战斗力是普通人的100倍

服装老板用AI一年:设计师不招了,下单率涨50%,炒股收益超主业

外贸老板用AI复刻自己：2周让客户信任度从30%飙至80%，3天新人能成交