OpenClaw 太火!最合适它的大模型排行榜来了,国产两个进前三~

来源丨经授权转自 菜鸟教程（ID：runoob）
作者丨RUNOOB

今年上班以来，AI 圈最火的现象级项目非 OpenClaw 莫属，一路狂飙直接登顶 GitHub。

更夸张的是，它还催生出一门生意 ——上门安装 OpenClaw，像极了当年上门安装系统，服务费从几百元一路喊到上万元，有人靠代装短短几天就赚得盆满钵满，堪称 2026 开年第一波技术风口：

网友直呼：有了OpenClaw赚钱不赚钱不知道，但是这个是真的已经开始赚钱了，OpenClaw上门安装🥲

然后腾讯大厦门口摆摊免费安装：

排队的人还真不少：

所以一代人有一代人的鸡蛋，这事是真的～

现在连人民日报都下场提示大家要注意风险了：

OpenClaw 的作者发布了一个最适合 OpenClaw 的大模型排行榜：

我看了下最新的榜单，模型成功率上，MiniMax-m2.1 和 kimi-k2.5 进入了前三：

模型速度 minimax-m2.5 排第一：

花钱方面，gpt-5-nano 最省，国内的 minimax-m2.1 最花费最少：

最新的排行可以查看：https://pinchbench.com/

PinchBench 测评各大语言模型作为 OpenClaw 智能体核心的表现，摒弃模拟测试，让智能体处理会议排期、代码编写、邮件分拣、主题调研、文件管理等真实任务。

PinchBench 是一个开源的 AI Agent 基准测试系统，通过让不同的大模型执行同一组真实任务，比较它们的表现。

开源地址：https://github.com/pinchbench/skill

主要评估三个指标：

Success Rate（成功率）：任务完成比例
Speed（速度）：完成任务所需时间
Cost（成本）：运行任务的模型费用

这样开发者可以更直观地判断：哪个模型更适合做 AI Agent / 自动化任务。

测试任务覆盖

内置 23 个跨场景的真实任务，分类及测试重点如下：

类别	典型任务示例	考核重点
生产力	日历调度、每日总结	时间解析、事件创建
研究	股票价格、会议信息、市场分析	网页搜索、数据提取、综合
写作	写博客、写邮件、人性化润色	语气控制、格式排版
编程	天气脚本、文件结构搭建	代码生成 + 文件操作
分析	Excel 处理、PDF 总结	数据处理、文档理解
邮件	收件箱 triage、搜索过滤	邮件管理
记忆	上下文召回、知识管理	长时记忆能力
技能	ClawHub 技能发现与集成	OpenClaw 生态融合

每个任务同时采用自动脚本检查 + LLM 法官（Claude Opus）打分。

1、快速上手

环境要求 Python 3.10+、uv 包管理器、运行中的 OpenClaw 实例。

# 1. 克隆仓库git clone https://github.com/pinchbench/skill.gitcd skill# 2. 运行测试（支持任意模型）./scripts/run.sh --model anthropic/claude-sonnet-4# 或者指定任务./scripts/run.sh --model openai/gpt-4o --suite task_01_calendar,task_02_stock

想把自己的模型结果冲上排行榜，运行一次 ./scripts/run.sh --register 注册 token，后续自动上传。


1、帧率暴涨40%，老显卡也能吃上！微软这次花活儿太炸了
2、从封号到开放！QQ机器人能对接龙虾啦！
3、给我的 OpenClaw 小龙虾装上声音，感觉它活了过来。
4、下午面试了一堆985、211的研究生只是一个月薪6500的基础岗位，结果最后却要了一个普通二本生，找工作太疯狂了。
5、内存、硬盘暴涨，无数玩家追捧的良心网站要关停了