这三座大山没攻克之前,我才不会养龙虾养马openclaw之类

这三座大山没解决之前，我才不会大规模养 OpenClaw 和 Hermes Agent

龙虾，就是 OpenClaw。

马，就是 Hermes Agent。

这两个方向我都很感兴趣，也会继续折腾。

但如果你问我：现在要不要养一堆龙虾和马，让它们接管我的工作流？

我的答案很简单：

不会。

至少现在不会。不是因为它们没用。

而是因为 Agent 现在还没翻过三座大山：

操作浏览器；
操作电脑；
长程任务。

这三座大山没解决之前，它们还不能算真正的 AI 员工。

最多算 AI 实习生。

实习生当然可以用。

但不能放养。

▶ 第一座大山：操作浏览器

Agent 要干活，第一关就是浏览器。

因为今天大量工作都在浏览器里：后台、SaaS、飞书、企微、Notion、GitHub、各种管理台。

现在操作浏览器的方案非常多。

比如：Playwright/Browser Use/Chrome DevTools MCP/agent-browser/Skyvern/bb-browser/CloakBrowser/Nanobrowser/web-access

还有各种基于 CDP、浏览器扩展、视觉点击、远程调试模式的方案。

看着很热闹。

但重点不是方案多不多。

重点是：稳不稳。

浏览器环境太脏了。

网页会改版，按钮会变，登录态会掉，弹窗会挡路，验证码会跳出来，页面会懒加载，DOM 会动态渲染。

人类看到这些问题，扫一眼就能绕过去。

Agent 很容易卡住。

这不是我的主观悲观，WebArena 这类浏览器 Agent 评测已经能看出问题。

WebArena 测的是 Agent 在可复现网页环境里完成真实网页任务，比如电商、论坛、GitLab、CMS、地图、Wiki 等。

截至 2026 年上半年的公开榜单，浏览器 Agent 第一梯队大概是这个水平：

`WebArena` 成绩	真实体感
`<30%`	玩具级，只能看方向
`30%~50%`	能跑部分任务，但失败率很高
`50%~65%`	可研究，可做低风险辅助
`65%~75%`	第一梯队，已经很强，但仍需监督
`75%~85%`	接近人类基准，才开始像可靠浏览器助手
`85%+`	才有资格谈复杂流程托付

当前头部系统大致在 65%~75%，最高公开结果约 74% 左右。

这已经比早期强太多。

但换个角度看，74% 也意味着还有四分之一任务失败。

而且 WebArena 还是受控环境。

真实网站里还会多出登录、验证码、风控、权限、A/B 测试、网络波动、页面改版。

所以第一座山的结论是：

浏览器 Agent 已经可以做演示、做辅助、做低风险任务。

但还不能放心接管复杂业务流程。

它能上网。

但还不等于能上班。

▶ 第二座大山：操作电脑 / 桌面 CUA

第二座山更难。

操作电脑。

也就是现在常说的桌面 CUA：Computer Use Agent。

桌面 CUA 的代表项目包括：

TuriX-CUA/UI-TARS-desktop

Mano-P

Claude Computer Use

OpenAI Operator类产品；

OpenClaw生态里的Peekaboo桌面操作能力。

它们要做的事，不只是打开网页。

而是看屏幕、点按钮、拖窗口、切应用、读文件、改文件、处理系统弹窗、操作本地软件。

这比浏览器更难。

因为电脑环境更不可控。

每个人的目录不同，权限不同，软件版本不同，窗口位置不同，系统语言不同，弹窗也不同。

一个 Agent 在 benchmark 里能跑，不代表在我的个人电脑上也能放心跑。

公开榜单里，部分顶级系统在 OSWorld 或 OSWorld-Verified 上已经进入 60%~80%+ 区间。

这很厉害。

但这不意味着个人电脑上已经可以放心托付。

`OSWorld` 成绩	真实体感
`<50%`	Demo 级，主要看热闹
`50%~65%`	可玩，可研究，不能托付
`65%~75%`	简单任务可用，但要盯着
`75%~85%`	可进入部分半自动工作流
`85%+`	开始接近可靠工具
`90%+`	才像可托付的桌面员工

这张表的核心意思是：

60% 很适合演示。

70% 很适合研究。

80% 可以进入半自动工作流。

但真要像桌面员工一样托付，最好得接近 90%。

因为电脑不是沙盒。

电脑里有私人文件、账号、聊天记录、工作资料、代码仓库、系统配置。

浏览器里点错，可能只是表单错了。

电脑里点错，可能删文件、改配置、污染仓库、触发不可逆操作。

所以第二座山的结论是：

桌面 CUA 已经很有潜力。

但距离“放心交权”，还差一段可靠性和安全边界。

▶ 第三座大山：长程任务

第三座山，是我最在意的一座。

长程任务。

短任务和长任务不是一个东西。

让 Agent 查个资料、总结一篇文章、改一个函数、调用一次工具，已经比较成熟了。

但真正有价值的工作，往往不是 1 步。

而是 10 步、20 步，甚至跨天。

这件事可以看三个测试：GAIA、τ-bench，以及各种长期自主任务评测。

GAIA 测的是通用助理能力：搜索、推理、工具使用、多步执行，最后给出可验证答案。

它比普通问答难很多，尤其 Level 2、Level 3，会暴露 Agent 的规划、检索、代码执行和多步推理问题。

但 GAIA 的任务边界仍然相对清楚。

它更像“复杂题目”，不完全等于“长期无人值守工作”。

τ-bench 更接近企业流程。

它测的是 Agent 在零售、航空这类场景里，多轮对话、调用工具、遵守业务规则、修改后端状态的能力。

当前 τ-bench 头部模型综合分数大概已经到 80%~88%，主流强模型多在 60%~70%+ 区间。

这说明什么？

说明工具调用型 Agent 已经很强。

但也说明可靠性还没到“放心无人值守”。

尤其 τ-bench 关注的是 pass^k：多次独立运行下能不能持续成功。

这正好击中生产环境的核心问题。

不是你能不能成功一次。

而是你能不能稳定成功很多次。

长期自主任务的状态大概是：

任务类型	当前水平
单次问答	成熟
单次工具调用	较成熟
`GAIA` 式多步问答	头部系统进步明显，但高难任务仍不稳
`τ-bench` 式企业工具流程	头部约 `80%~88%`，主流强模型多在 `60%~70%+`
3~5 步任务	可用
10~20 步任务	需要监督
跨天任务	不稳定
自主纠错	有进步但不可靠
自主判断优先级	不稳定
无人值守执行	不建议
高风险业务闭环	不建议

这张表基本就是我现在的使用边界。

3~5 步任务，可以交给 Agent 试。

10~20 步任务，必须中途看。

跨天任务、无人值守、高风险闭环，我不会放手。

因为长程任务最大的问题不是“不会做”。

而是会漂。

一开始目标是清楚的。

跑着跑着，重点变了。

查着查着，范围扩大了。

做着做着，把临时结论当成最终结论。

最后交付一个看似完整、实际跑偏的东西。

这比失败还危险。

失败你能看见。

跑偏不一定能及时发现。

所以第三座山的结论是：

Agent 已经能做短任务，也能处理一部分企业工具流程。

但长程任务还不能放心无人值守。

▶ 所以，虾和马现在是什么？

OpenClaw 和 Hermes Agent，我会继续用。

但我不会把它们当成熟员工。

我会把它们当高潜实习生。

适合做：

低风险探索；
资料整理；
草稿生成；
局部自动化；
有人监督的半自动流程。

不适合直接接管：

私人电脑；
生产后台；
账号权限；
不可逆操作；
跨天无人值守任务；
高风险业务闭环。

这不是保守。

这是基本的生产常识。

你不会让一个刚入职的实习生拿着管理员权限，独自操作财务系统。

你也不该让一个不稳定的 Agent 拿着全套权限，去操作你的浏览器、电脑和业务流程。

▶ 真正的拐点

我期待的拐点，不是模型又多会写诗。

也不是榜单又涨几分。

真正的拐点是：

WebArena 这类浏览器任务进入高可靠区间。

OSWorld 这类桌面任务接近可托付水平。

GAIA、τ-bench 这类长程工具任务不只是高分，而是能稳定复现、能纠错、能审计、能安全退出。

到那一天，Agent 才会从“玩具”和“助手”，变成真正的数字员工。

在那之前，龙虾可以养，马也可以遛。

但不能大规模放养。

因为 AI 员工这件事，最重要的不是聪明。

是可靠。

聪明只能让你惊喜。

可靠才能让你交权。

所以我的结论还是那句话：

这三座大山没解决之前，我才不会大规模养 OpenClaw 和 Hermes Agent。