乐于分享
好东西不私藏

这三座大山没攻克之前,我才不会养龙虾养马openclaw之类

这三座大山没攻克之前,我才不会养龙虾养马openclaw之类

这三座大山没解决之前,我才不会大规模养 OpenClaw 和 Hermes Agent

龙虾,就是 OpenClaw

马,就是 Hermes Agent

这两个方向我都很感兴趣,也会继续折腾。

但如果你问我:现在要不要养一堆龙虾和马,让它们接管我的工作流?

我的答案很简单:

不会。

至少现在不会。不是因为它们没用。

而是因为 Agent 现在还没翻过三座大山:

  1. 操作浏览器;
  2. 操作电脑;
  3. 长程任务。

这三座大山没解决之前,它们还不能算真正的 AI 员工。

最多算 AI 实习生。

实习生当然可以用。

但不能放养。

▶ 第一座大山:操作浏览器

Agent 要干活,第一关就是浏览器。

因为今天大量工作都在浏览器里:后台、SaaS、飞书、企微、Notion、GitHub、各种管理台。

现在操作浏览器的方案非常多。

比如:Playwright/Browser Use/Chrome DevTools MCP/agent-browser/Skyvern/bb-browser/CloakBrowser/Nanobrowser/web-access

还有各种基于 CDP、浏览器扩展、视觉点击、远程调试模式的方案。

看着很热闹。

但重点不是方案多不多。

重点是:稳不稳。

浏览器环境太脏了。

网页会改版,按钮会变,登录态会掉,弹窗会挡路,验证码会跳出来,页面会懒加载,DOM 会动态渲染。

人类看到这些问题,扫一眼就能绕过去。

Agent 很容易卡住。

这不是我的主观悲观,WebArena 这类浏览器 Agent 评测已经能看出问题。

WebArena 测的是 Agent 在可复现网页环境里完成真实网页任务,比如电商、论坛、GitLab、CMS、地图、Wiki 等。

截至 2026 年上半年的公开榜单,浏览器 Agent 第一梯队大概是这个水平:

WebArena

 成绩
真实体感
<30%
玩具级,只能看方向
30%~50%
能跑部分任务,但失败率很高
50%~65%
可研究,可做低风险辅助
65%~75%
第一梯队,已经很强,但仍需监督
75%~85%
接近人类基准,才开始像可靠浏览器助手
85%+
才有资格谈复杂流程托付

当前头部系统大致在 65%~75%,最高公开结果约 74% 左右。

这已经比早期强太多。

但换个角度看,74% 也意味着还有四分之一任务失败。

而且 WebArena 还是受控环境。

真实网站里还会多出登录、验证码、风控、权限、A/B 测试、网络波动、页面改版。

所以第一座山的结论是:

浏览器 Agent 已经可以做演示、做辅助、做低风险任务。

但还不能放心接管复杂业务流程。

它能上网。

但还不等于能上班。

▶ 第二座大山:操作电脑 / 桌面 CUA

第二座山更难。

操作电脑。

也就是现在常说的桌面 CUAComputer Use Agent

桌面 CUA 的代表项目包括:

  • TuriX-CUA/UI-TARS-desktop
  • Mano-P
  • Claude Computer Use
  • OpenAI Operator类产品;
  • OpenClaw生态里的Peekaboo桌面操作能力。

它们要做的事,不只是打开网页。

而是看屏幕、点按钮、拖窗口、切应用、读文件、改文件、处理系统弹窗、操作本地软件。

这比浏览器更难。

因为电脑环境更不可控。

每个人的目录不同,权限不同,软件版本不同,窗口位置不同,系统语言不同,弹窗也不同。

一个 Agent 在 benchmark 里能跑,不代表在我的个人电脑上也能放心跑。

公开榜单里,部分顶级系统在 OSWorld 或 OSWorld-Verified 上已经进入 60%~80%+ 区间。

这很厉害。

但这不意味着个人电脑上已经可以放心托付。

OSWorld

 成绩
真实体感
<50%
Demo 级,主要看热闹
50%~65%
可玩,可研究,不能托付
65%~75%
简单任务可用,但要盯着
75%~85%
可进入部分半自动工作流
85%+
开始接近可靠工具
90%+
才像可托付的桌面员工

这张表的核心意思是:

60% 很适合演示。

70% 很适合研究。

80% 可以进入半自动工作流。

但真要像桌面员工一样托付,最好得接近 90%。

因为电脑不是沙盒。

电脑里有私人文件、账号、聊天记录、工作资料、代码仓库、系统配置。

浏览器里点错,可能只是表单错了。

电脑里点错,可能删文件、改配置、污染仓库、触发不可逆操作。

所以第二座山的结论是:

桌面 CUA 已经很有潜力。

但距离“放心交权”,还差一段可靠性和安全边界。

▶ 第三座大山:长程任务

第三座山,是我最在意的一座。

长程任务。

短任务和长任务不是一个东西。

让 Agent 查个资料、总结一篇文章、改一个函数、调用一次工具,已经比较成熟了。

但真正有价值的工作,往往不是 1 步。

而是 10 步、20 步,甚至跨天。

这件事可以看三个测试:GAIAτ-bench,以及各种长期自主任务评测。

GAIA 测的是通用助理能力:搜索、推理、工具使用、多步执行,最后给出可验证答案。

它比普通问答难很多,尤其 Level 2、Level 3,会暴露 Agent 的规划、检索、代码执行和多步推理问题。

但 GAIA 的任务边界仍然相对清楚。

它更像“复杂题目”,不完全等于“长期无人值守工作”。

τ-bench 更接近企业流程。

它测的是 Agent 在零售、航空这类场景里,多轮对话、调用工具、遵守业务规则、修改后端状态的能力。

当前 τ-bench 头部模型综合分数大概已经到 80%~88%,主流强模型多在 60%~70%+ 区间。

这说明什么?

说明工具调用型 Agent 已经很强。

但也说明可靠性还没到“放心无人值守”。

尤其 τ-bench 关注的是 pass^k:多次独立运行下能不能持续成功。

这正好击中生产环境的核心问题。

不是你能不能成功一次。

而是你能不能稳定成功很多次。

长期自主任务的状态大概是:

任务类型
当前水平
单次问答
成熟
单次工具调用
较成熟
GAIA

 式多步问答
头部系统进步明显,但高难任务仍不稳
τ-bench

 式企业工具流程
头部约 80%~88%,主流强模型多在 60%~70%+
3~5 步任务
可用
10~20 步任务
需要监督
跨天任务
不稳定
自主纠错
有进步但不可靠
自主判断优先级
不稳定
无人值守执行
不建议
高风险业务闭环
不建议

这张表基本就是我现在的使用边界。

3~5 步任务,可以交给 Agent 试。

10~20 步任务,必须中途看。

跨天任务、无人值守、高风险闭环,我不会放手。

因为长程任务最大的问题不是“不会做”。

而是会漂。

一开始目标是清楚的。

跑着跑着,重点变了。

查着查着,范围扩大了。

做着做着,把临时结论当成最终结论。

最后交付一个看似完整、实际跑偏的东西。

这比失败还危险。

失败你能看见。

跑偏不一定能及时发现。

所以第三座山的结论是:

Agent 已经能做短任务,也能处理一部分企业工具流程。

但长程任务还不能放心无人值守。

▶ 所以,虾和马现在是什么?

OpenClaw 和 Hermes Agent,我会继续用。

但我不会把它们当成熟员工。

我会把它们当高潜实习生。

适合做:

  • 低风险探索;
  • 资料整理;
  • 草稿生成;
  • 局部自动化;
  • 有人监督的半自动流程。

不适合直接接管:

  • 私人电脑;
  • 生产后台;
  • 账号权限;
  • 不可逆操作;
  • 跨天无人值守任务;
  • 高风险业务闭环。

这不是保守。

这是基本的生产常识。

你不会让一个刚入职的实习生拿着管理员权限,独自操作财务系统。

你也不该让一个不稳定的 Agent 拿着全套权限,去操作你的浏览器、电脑和业务流程。

▶ 真正的拐点

我期待的拐点,不是模型又多会写诗。

也不是榜单又涨几分。

真正的拐点是:

WebArena 这类浏览器任务进入高可靠区间。

OSWorld 这类桌面任务接近可托付水平。

GAIAτ-bench 这类长程工具任务不只是高分,而是能稳定复现、能纠错、能审计、能安全退出。

到那一天,Agent 才会从“玩具”和“助手”,变成真正的数字员工。

在那之前,龙虾可以养,马也可以遛。

但不能大规模放养。

因为 AI 员工这件事,最重要的不是聪明。

是可靠。

聪明只能让你惊喜。

可靠才能让你交权。

所以我的结论还是那句话:

这三座大山没解决之前,我才不会大规模养 OpenClaw 和 Hermes Agent。