AI工具实测 | 第01期
OpenClaw 8个模型全测了一遍烧了200块PU后的选模型指南
哪个该花钱,哪个白嫖就够,看完就懂
先说结论:90%的人在 OpenClaw 上选错了模型,要么花了冤枉钱,要么效果拉胯。
我是做 AI 方向的程序员,上周花了两天时间,用 OpenClaw v2.4 把平台上 8 个模型全部跑了一遍。测试维度包括:代码生成、Bug 修复、长文理解、工具调用、响应速度。
直接上数据,不废话。
01 代码生成能力排名
| Claude Opus 4.6 | 9.5 | |
| GPT-5.4 | 9.0 | |
实测感受:让 Claude Opus 重构一个 800 行的 Python 文件,它不仅改了结构,还主动补上了 3 个我漏掉的边界条件,连类型标注都加好了。GPT-5.4 也很强,但更偏"完成任务",不会主动优化你的代码风格。
02 响应速度排名
| Gemini 3 Flash | 0.3s | 180 |
对,你没看错。最能写代码的 Opus,速度也是最慢的。Flash 比它快了将近 4 倍。这就是为什么日常写代码我用 Sonnet 而不是 Opus。
03 价格对比(每百万Token)
| 白菜价 | |||
| 白菜价 | |||
| 白菜价 | |||
| 中等 | |||
| 中等 | |||
| 贵 | |||
| Claude Opus 4.6 | 巨贵 |
Opus 输出一次的钱,DeepSeek 能跑 70 次。这就是为什么模型选择比模型能力更重要 —— 选错模型,花的钱可能差 70 倍。
04 我的实际使用策略
日常写代码Claude Sonnet 4.6Opus 八成功力,五分之一价格,速度快两倍。我用得最多的模型。
复杂架构设计Claude Opus 4.6大型重构、复杂系统设计时才切。一周大概两三次。
简单问答/翻译DeepSeek V3.2中文理解最好,免费额度大,日常水群回消息都用它。
处理图片/截图Gemini 3 Pro截个报错图丢进去,它直接告诉你怎么改。多模态之王。
高频轻量任务Gemini 3 Flash几乎免费,速度极快,格式转换、简单总结用它。
踩坑提醒
1. 别用 Opus 当默认模型 — 我第一天就烧掉了 80 块 PU
2. Qwen3.5 工具调用偏弱(7.0分),搞自动化慎选
3. GPT-5.4 工具调用全场最强(9.5分),搞 Agent 选它
4. Flash 代码能力只有 6.5 分,别指望它写复杂逻辑
这套混合策略用了一周,PU 消耗降了 60%,效果基本没降。
有问题评论区问,每条都回 | 关注我看更多 AI 实测
夜雨聆风