装好 OpenClaw 的第二天
——写给每一个打开模型下拉菜单、然后不知道该选哪个的人
by朱雀
有一件事,几乎所有人都做过。
装好 OpenClaw,打开配置页面,看见那个模型下拉菜单,里面密密麻麻列着几十个名字。然后随便点了一个,或者保留了默认值,关掉页面,开始用。
这很正常。人在不确定的时候,总是会选最近的那个。
但代价是真实的。你用了一个不适合你的模型,每次等它回答,你都在等一件本可以更快的事。每次付账单,你都在为一个本可以更便宜的选择买单。更重要的是,你永远不知道,如果换一个模型,结果会不会好很多。
熬夜一夜,写下这篇文章想做一件事:把这个选择说清楚。
一
先说一个真实的数字差距,让你有个概念。
同样是完成 OpenClaw 里 23 个标准工作任务——写文章、分析竞对、整理邮件、读 PDF、处理 CSV——有的模型用了 9 分钟,有的用了 46 分钟。
不是 9 分钟和 10 分钟。是 9 分钟和 46 分钟。
同样是这 23 个任务,有的模型每次花你 ¥1,有的花 ¥16。
同样是这 23 个任务,有的完成率是 87%,有的是 75%。
这些差距不是来自哪个评测机构的理论数字,而是来自 PinchBench,一个专门为 OpenClaw agent 场景设计的实测基准。它做的事情很简单:把同一批真实任务,交给不同的模型去跑,然后如实记录结果。成功了几个,花了多少钱,等了多久。
就这样。
没有什么复杂的加权系数,也没有什么主观评分。任务完成了就是完成了,任务失败了就是失败了。
二
在我们谈具体的模型之前,需要先理解三个维度。不理解这三件事,后面的对比就是一堆数字而已。
第一件事:成功率。
成功率不是"这个模型聪不聪明",而是"这个模型在 OpenClaw 里能稳定完成任务的概率"。两件事不一样。有些模型在语言理解上很优秀,但不擅长调用工具、执行多步骤任务、处理文件。而 OpenClaw 恰好需要这些。87% 和 75% 之间的差距,意味着每 100 个任务里,一个完成了87个,另一个只完成了75个。那12个失败的任务,要么你要返工,要么你什么都没得到。
第二件事:速度——但不是你想象的那种速度。
这里的"速度"不是模型生成一个字有多快,而是 OpenClaw agent 完成一个完整任务需要多长时间。
agent 工作的方式是:想一想,调用工具,看结果,再想一想,再调用,直到完成。每一步都要等待 API 响应。一个任务可能需要十几次这样的循环。
所以当我们说"Gemini 3 Flash 每个任务平均 24 秒",意思是:你把任务交给它,24 秒后你能看到结果。
当我们说"DeepSeek V3.2 每个任务平均 2 分钟",意思是:你点了发送,然后去泡了一杯茶,回来了,结果还没出来。
如果你在实时使用,这个差距是真实的煎熬。如果你是在后台批量跑任务、不需要盯着看,这个差距就没那么重要了。
第三件事:稳定性。
有一些模型,发挥好的时候能到 86%,发挥差的时候只有 78%。有一些模型,每次都稳稳地停在 80% 左右,不会特别亮眼,也不会突然崩掉。
对于生产场景,稳定性比峰值更重要。你需要的是一个你能信任的模型,而不是一个偶尔能表现出色的模型。
三
现在来看这 8 个模型。





看完这张图,有几件事可能跟你原来以为的不一样。
Claude Sonnet 4.6 确实是全组第一,但它的稳定性其实排在中间。 它的最高分是 86.9%,但多次运行的平均分是 78.2%,差了将近 9 个百分点。这意味着它有时候表现极好,有时候会掉链子。对于追求稳定的生产部署,这是一个需要考虑的因素。它的另一个问题是贵——跑完 23 个任务要花 ¥16.8,是本组平均水平的好几倍。
但它有一个其他模型没有的优势:创意任务得了 57%。听起来不高,但其他模型大多是 0%。这不是模型本身不会创意,而是 OpenClaw 的沙箱环境里,图片生成工具有时候用不上。Sonnet 4.6 在这类任务里的表现是例外。
Qwen3.5-plus-02-15 是这组里最被低估的模型。 它同时拥有两样东西:1M 超长上下文,和本组最低的 API 价格。这个组合只有它一个。它的稳定性也是全组最好(最高分与均值只差 4.2 个百分点),意味着你每次用它,得到的体验基本是一致的。缺点是数据分析只有 60%,如果你的任务主要是处理数字,要注意这一点。
Kimi K2.5 的写作是满分,数据分析是 99%。 在这组里,没有第二个模型同时在这两件事上表现这么好。而且它的单次花费只有 ¥1.97,稳定性也是全组最好之一。如果你主要用 OpenClaw 来写报告、整理研究、分析数据,它大概是最省心的选择。
MiniMax M2.1 是花费最少的。 跑完 23 个任务,¥1。就是字面上的一块钱。它的稳定性全组并列最好(差值 3.4),编码和文件操作都是满分。数据分析是它的短板(47%),如果你不需要大量处理数字,它在成本上的优势很难被超越。
DeepSeek V3.2 的问题只有一个:慢。 不是有点慢,是很慢。每个任务平均要等 2 分钟。完成 23 个任务需要 46 分钟——是同组最快的 Gemini 3 Flash 的整整 5 倍。这不是可以接受的等待,这是折磨。但如果你的任务不需要实时响应,只需要夜里跑完、早上看结果,它的成本和数据分析能力(98%)是很有竞争力的。
Gemini 3 Flash 是最快的,但它有两个维度完全失败。 合成推理 0%,内容组织 0%。这不是说它在这两件事上表现差,而是字面意义上的零分。如果你的 agent 需要把多份资料整合成一篇文章,或者对信息进行归纳整理,不要选它。但如果你需要的是速度,需要上传图片、视频、音频让 agent 处理,它是唯一的选择。
GLM-5 最擅长整合与归纳,但不要在实时场景里用它。 合成 97%,内容组织 95%,这两项是全组最高。但它每个任务要等 61 秒,完成 23 个任务要 23 分钟。这是一个适合离线批量任务的模型,不是一个适合坐在屏幕前等待结果的模型。
GPT-5.4 的均值是全组最稳定的旗舰。 它的最高分和均值差距只有 5.5 个百分点,在高分段里是最稳的。合成推理也是全组最强(98%)。但它的上下文只有 272K,如果你的任务需要处理超长文档,就不够用了。
四
选哪个,取决于你是哪种用户。
你主要用 OpenClaw 来写东西、做研究、分析数据,对成本有感知: Kimi K2.5。性价比在这个场景下最突出,稳定性也是最好的。
你需要处理很长的文档,预算有限: Qwen3.5-plus-02-15。1M 上下文加最低 API 价格,是唯一同时满足这两个条件的模型。
你主要写代码,希望花尽量少的钱: MiniMax M2.1。一块钱一次,稳定性还很好,编码满分。
你需要速度,或者需要处理图片、视频、音频: Gemini 3 Flash。没有第二个选项,这件事只有它能做。但如果你还需要整合多来源的信息,就不够用了。
你的任务可以夜里跑批,对实时性没有要求,只想把成本压到最低: DeepSeek V3.2。46 分钟不是问题,问题是成本和数据分析能力都很出色。但如果你还需要转换内容格式,它会让你失望。
你想要一个对的就行的默认选择,不想想太多: Claude Sonnet 4.6 或 GPT-5.4。前者综合分全组最高,后者更稳定、便宜一点,合成推理更强。两个都可以。
你需要把多份资料整合成一份报告,不需要实时互动: GLM-5。合成和组织是它的绝对优势,但你需要接受它偏慢的节奏。
五
还有一件事值得说。
这 8 个模型有一个共同的失败:记忆留存。全部都是 0% 或接近 0%。
这不是模型的缺陷,是 OpenClaw 目前跨会话记忆机制的局限。今天你告诉 agent 你的工作背景,明天它还是一无所知。这是整个生态都在努力解决的问题,还没有完美的答案。
提这件事,是因为如果你在用 OpenClaw 做需要持续记忆的任务,目前来说,你需要自己想办法——比如在每次会话开始时提供一个背景说明文件。
这个问题迟早会被解决。只是还没到。
六
最后说一件可能显而易见的事。
这些数字是 2026 年 3 月的数据。模型在更新,价格在变,排名也在变。Kimi 今天的优势,可能三个月后就被另一个模型追上了。DeepSeek 的速度问题,可能也会在某次更新后得到改善。
所以这篇文章的目的不是告诉你答案,而是告诉你看什么、怎么看。
那个下拉菜单里的几十个名字,现在对你来说已经不再是一堆陌生的词了。它们各有各的性格,各有各的适合场景,各有各的代价。
选一个配得上你需求的,然后开始用。
这件事值得认真对待一次。
数据来源:PinchBench(pinchbench.com),2026 年 3 月 16 日实时抓取。成功率为 23 个标准 OpenClaw 任务的实测通过率,速度为完整跑完 23 个任务的实际墙钟时间,价格按汇率 USD×7.3 换算为人民币。
我是朱雀。
2007 年做过订餐平台,比美团早几年。后来做天使投资,13 年入手加密货币,后来去创业忘了。做了一个还不错的器物品牌,有个杯子放在了马老师、俞老师桌上。天使投资过十个身边的创业者朋友,有人上市了,有人下市了。回过神,发现其实都还不错。
2024 年,把这些放下,重新开始学 AI。我自己说是"农民工进城搬砖的心态"。两年,亲手 6000 小时,400 多个智能体,13 个 AI 产品。
我现在做的事很简单:站在业务里面看技术,站在技术里面看未来,让每一个老板都能看懂方向、拿回对自己生意的掌控感。
现在做三件事:教老板用好 AI,陪企业落地,自己开发产品。
如果你想把 AI 真正用起来,不只是点开聊聊天然后放着,关注我。
加微信请先做自我介绍,时间有限,非诚勿扰。
2026企业AI指南|AI蓝军只占公司2.5%,但战斗力是普通人的100倍
服装老板用AI一年:设计师不招了,下单率涨50%,炒股收益超主业
外贸老板用AI复刻自己:2周让客户信任度从30%飙至80%,3天新人能成交

夜雨聆风