OpenClaw大考!WildClawBench用60道题,把 “龙虾”AI打回原形

最近几个月，越来越多的开发者开始“养龙虾”：给它加技能、写记忆、调人格，希望它能帮自己处理现实任务。但面对日常工作和生活场景，我们养的“龙虾”，真的可以端到端把事情做完吗？它的“大脑”该用哪个模型，效果最好、性价比最高？这恐怕是所有“养虾”用户都关心的问题。

而回看过去一年的各类 Agent Benchmark，大多仍聚焦在“单点能力”的评测，但真实任务更像一场长跑：AI 需要跨模态理解信息，在动态环境中选择工具，并不断处理意料之外的错误。真正关键的，不是某一步是否正确，而是能否完成端到端的闭环交付。

为填补这一空白，来自上海人工智能实验室的研究团队推出了 WildClawBench。不再关注碎片化指标，而是把 Agent 直接放进真实的 OpenClaw 环境中——浏览器、终端、文件系统、日历一应俱全，几乎就是用户的日常工作环境，对模型的 Agency 能力进行“实战考核”。

测试结果发现：当前 Agent 的能力上限，远没有想象中那么高。即便是当前顶级模型 Claude Opus 4.6，在 WildClawBench 上也只拿到了 51.6%，在这些贴近真实场景的任务中，也只能完成大约一半。“最强”模型并不等于“最优”选择，尤其是在成本敏感的场景下；国产模型在 Agent 端到端能力上的追赶速度，已经明显快于很多人的预期。

整个基准包含 60 道任务，全部人工原创，覆盖中英双语，分布在 6 个类别中，基本都是“打工人日常”。每道任务运行在独立 Docker 容器中，评分所需的 ground truth 和脚本在执行结束后才注入，整个执行过程中完全不可见，从根源上杜绝数据泄露。换句话说，每一分，都是 Agent 真刀真枪跑出来的。

WildClawBench 采用 MIT 开源协议，60 道任务的 markdown 定义、评分代码、Docker 镜像和数据集均已公开。项目还提供了任务模板，社区用户可以按照统一格式贡献新任务。每道任务自带自动评分脚本，支持一键批量评测，诚邀大家参与贡献。

GitHub：（文末点击阅读原文可直达）

github.com/InternLM/WildClawBench

HuggingFace 数据集：

huggingface.co/datasets/internlm/WildClawBench

在线排行榜：

internlm.github.io/WildClawBench

完整评测轨迹：

drive.google.com/file/d/1FX6eidw9fNQgm15w6jOjOUCqWAQ__r0Y/view?usp=drive_link

WildClawBench 司南评测集社区地址：

https://hub.opencompass.org.cn/dataset-detail/WildClawBench

WildClawBench 评测框架图，基于 Docker 的真实操作系统环境，AI 智能体可独立操作浏览器、终端等工具。

排行榜：最强模型得分刚过半，国产模型挤进前三

截至 2026 年 4 月 1 日，WildClawBench 共评测了 14 个前沿模型。从整体结果来看，一个直观但有些“扎心”的结论是：当前 Agent 的能力上限，远没有想象中那么高。

排名第一的 Claude Opus 4.6 得分仅为 51.6%。也就是说，即便是目前最强的模型，在这些贴近真实场景的任务中，也只能完成大约一半。这说明问题并不在任务是否复杂，而在于一旦进入真实环境，Agent 的稳定性和持续执行能力仍然明显不足。某种程度上，这也让 WildClawBench 在短期内很难被“刷爆”，模型之间的差距会被持续拉开。

进一步看成本与效果的对比，会发现另一个值得关注的现象。Claude Opus 4.6 单次运行平均成本超过 80 美元，而 GPT-5.4 只需约 20 美元，性能却仅相差 1.3 个百分点。在实际应用中，这样的差距已经足以影响选择——“最强”并不等于“最优”，尤其是在成本敏感的场景下。

最后，再来看看国产模型。在 14 个参评模型中，有 10 个来自中国团队。其中，GLM 5 以 42.6% 排名第三，是唯一进入前三的国产模型，超过了 Gemini 3.1 Pro，而成本仅为 11.39 美元，不到 Claude Opus 4.6 的七分之一。MiMo V2 Pro 以 40.2% 的分数排名第五。从这个角度看，国产模型在 Agent 端到端能力上的追赶速度，已经明显快于很多人的预期。

Leaderboard，评测了国内外共 14 个前沿模型。

子类别雷达图，展示了六个类别下模型的得分，发现不同模型有各自不同的擅长领域。

6 大类别，60 道题，到底在考什么？

生产力流程（10 题）

研究者和知识工作者每天都在做、但希望有人代劳的事。比如 ArXiv 论文审计：Agent 要爬取某天 cs.CV 方向的全部论文，按 6 个方向自动分类；对"多模态"类别的每一篇论文，逐篇打开 PDF 或 HTML，核对完整的作者名单，数清正文有几张图、几张表，附录又有几张图、几张表，记录附录的起始章节标题；再根据用户是 CapRL 作者这一身份信息，从几十篇论文中挑出最相关的推荐，并把以 CapRL 为 baseline 的 benchmark 对比表原样抽取出来。这不是"帮我总结一下摘要"——Agent 必须真的去逐篇读论文的正文内容，一张图一张表地数。

生产力类任务展示，Agent 要爬取某天 cs.CV 方向的全部论文，按 6 个方向自动分类，并根据用户信息（CapRL 作者）完成个性化推送。

代码智能（12 题）

给 Agent 一个完全没有文档的代码仓库，让它自己读源码、装依赖、写推理脚本跑通。比如从 SAM3 的源码出发写出可运行的推理代码，或者解视觉谜题（拼图、连线、Link-a-Pix），要求生成像素级精确的解。

社交互动（6 题）

多轮沟通和上下文追踪。Agent 需要通过多轮邮件来回协商一个多人都有空的会议时间，或者扫一遍聊天记录把所有待办事项、deadline、负责人整理成结构化清单。

搜索检索（11 题）

当网上搜到的信息和本地数据对不上时，Agent 要交叉验证、判断谁对谁错。比如多个来源给出矛盾的财务数据，Agent 需要追溯原始出处并给出有依据的结论。

图搜索检索类任务展示，Agent 要根据提供的谷歌学术主页，确定两位学者之间的最短关系链条，相邻的学者对之间均需要有合作论文。

创意合成（11 题）

这一类最考验"全栈"能力。例如产品发布会任务：要求在断网条件下看完一段完整的发布会录像，识别全部 8 款硬件产品，提取名称、芯片、配色、起售价等结构化信息存成 JSON，再从视频中截取产品画面，排版成一份 5 页 A4 的专业宣传 PDF。评测不仅检查数据是否精确（价格必须和 ground truth 完全一致），还让 VLM 对 PDF 的排版美感、图文一致性打分——做出来的东西不仅要"对"，还要"好看"。

创意合成类任务展示，Agent 要根据提供的球赛完整视频，剪辑一段巴塞罗那7号球员费兰·托雷斯上半场的精彩进球集锦。

安全对齐（10 题）

最隐蔽也最关键的一类。恶意指令被深埋在一份看起来完全正常的文档中间，Agent 要能识别出来并拒绝执行；API Key 散落在一个大型项目上百条 Git commit 的历史里，Agent 要像安全审计员一样逐一排查并报告泄露风险，而不是无视它们继续干活。

"个人龙虾"排行榜：你的 AI 助手比我的强吗？

WildClawBench 还有一个很有意思的延伸——个人 OpenClaw 排行榜。在 OpenClaw 社区里，“养龙虾”已经逐渐变成一种共识：用户不断为自己的 AI 助手添加技能、打磨人格、积累长期记忆，让它一点点变得更“像人”、更能干。于是，一个很自然的问题出现了——在同样的模型之上，谁的“龙虾”更厉害？

WildClawBench 给出了一个直接的答案方式：允许用户将自己调教好的 OpenClaw 工作区（包括 SOUL.md、MEMORY.md 以及各种自定义技能）提交到同一套 60 道任务中进行评测，最终以统一标准跑分上榜。

这不仅仅是比个高低，它能帮助社区理解，在同一个底座模型上，究竟哪些 harness 设计、技能组合、人格设定和记忆策略，真的能提升 Agent 的任务完成率。

（欢迎扫码加入司南评测集社区交流群）

欢迎访问司南官网

https://opencompass.org.cn/home

👇点击关注司南评测体系公众号

获取更多大模型相关知识~