乐于分享
好东西不私藏

OpenClaw 太火!最合适它的大模型排行榜来了,国产两个进前三~

OpenClaw 太火!最合适它的大模型排行榜来了,国产两个进前三~
来源丨经授权转自 菜鸟教程(ID:runoob)
作者RUNOOB
今年上班以来,AI 圈最火的现象级项目非 OpenClaw 莫属,一路狂飙直接登顶 GitHub。
更夸张的是,它还催生出一门生意 ——上门安装 OpenClaw,像极了当年上门安装系统,服务费从几百元一路喊到上万元,有人靠代装短短几天就赚得盆满钵满,堪称 2026 开年第一波技术风口:
网友直呼:有了OpenClaw赚钱不赚钱不知道,但是这个是真的已经开始赚钱了,OpenClaw上门安装🥲
然后腾讯大厦门口摆摊免费安装:
排队的人还真不少:
所以一代人有一代人的鸡蛋,这事是真的~
现在连人民日报都下场提示大家要注意风险了:
OpenClaw 的作者发布了一个最适合 OpenClaw 的大模型排行榜:

我看了下最新的榜单,模型成功率上,MiniMax-m2.1 和 kimi-k2.5 进入了前三:

模型速度 minimax-m2.5 排第一:

花钱方面,gpt-5-nano 最省,国内的 minimax-m2.1 最花费最少:

最新的排行可以查看:https://pinchbench.com/

PinchBench 测评各大语言模型作为 OpenClaw 智能体核心的表现,摒弃模拟测试,让智能体处理会议排期、代码编写、邮件分拣、主题调研、文件管理等真实任务。

PinchBench 是一个开源的 AI Agent 基准测试系统,通过让不同的大模型执行同一组真实任务,比较它们的表现。

开源地址:https://github.com/pinchbench/skill

主要评估三个指标:

  • Success Rate(成功率):任务完成比例

  • Speed(速度):完成任务所需时间

  • Cost(成本):运行任务的模型费用

这样开发者可以更直观地判断:哪个模型更适合做 AI Agent / 自动化任务。

测试任务覆盖

内置 23 个跨场景的真实任务,分类及测试重点如下:

类别
典型任务示例
考核重点
生产力
日历调度、每日总结
时间解析、事件创建
研究
股票价格、会议信息、市场分析
网页搜索、数据提取、综合
写作
写博客、写邮件、人性化润色
语气控制、格式排版
编程
天气脚本、文件结构搭建
代码生成 + 文件操作
分析
Excel 处理、PDF 总结
数据处理、文档理解
邮件
收件箱 triage、搜索过滤
邮件管理
记忆
上下文召回、知识管理
长时记忆能力
技能
ClawHub 技能发现与集成
OpenClaw 生态融合

每个任务同时采用自动脚本检查 + LLM 法官(Claude Opus)打分

1、快速上手

环境要求 Python 3.10+、uv 包管理器、运行中的 OpenClaw 实例。

# 1. 克隆仓库git clone https://github.com/pinchbench/skill.gitcd skill# 2. 运行测试(支持任意模型)./scripts/run.sh --model anthropic/claude-sonnet-4# 或者指定任务./scripts/run.sh --model openai/gpt-4o --suite task_01_calendar,task_02_stock

想把自己的模型结果冲上排行榜,运行一次 ./scripts/run.sh --register 注册 token,后续自动上传。

1、帧率暴涨40%,老显卡也能吃上!微软这次花活儿太炸了

2从封号到开放!QQ机器人能对接龙虾啦!

3、给我的 OpenClaw 小龙虾装上声音,感觉它活了过来。

4、下午面试了一堆985、211的研究生只是一个月薪6500的基础岗位,结果最后却要了一个普通二本生,找工作太疯狂了。

5、内存、硬盘暴涨,无数玩家追捧的良心网站要关停了