这三座大山没攻克之前,我才不会养龙虾养马openclaw之类
这三座大山没解决之前,我才不会大规模养 OpenClaw 和 Hermes Agent
龙虾,就是 OpenClaw。
马,就是 Hermes Agent。
这两个方向我都很感兴趣,也会继续折腾。
但如果你问我:现在要不要养一堆龙虾和马,让它们接管我的工作流?
我的答案很简单:
不会。
至少现在不会。不是因为它们没用。
而是因为 Agent 现在还没翻过三座大山:
-
操作浏览器; -
操作电脑; -
长程任务。
这三座大山没解决之前,它们还不能算真正的 AI 员工。
最多算 AI 实习生。
实习生当然可以用。
但不能放养。

▶ 第一座大山:操作浏览器
Agent 要干活,第一关就是浏览器。
因为今天大量工作都在浏览器里:后台、SaaS、飞书、企微、Notion、GitHub、各种管理台。
现在操作浏览器的方案非常多。
比如:Playwright/Browser Use/Chrome DevTools MCP/agent-browser/Skyvern/bb-browser/CloakBrowser/Nanobrowser/web-access
还有各种基于 CDP、浏览器扩展、视觉点击、远程调试模式的方案。
看着很热闹。
但重点不是方案多不多。
重点是:稳不稳。
浏览器环境太脏了。
网页会改版,按钮会变,登录态会掉,弹窗会挡路,验证码会跳出来,页面会懒加载,DOM 会动态渲染。
人类看到这些问题,扫一眼就能绕过去。
Agent 很容易卡住。

这不是我的主观悲观,WebArena 这类浏览器 Agent 评测已经能看出问题。
WebArena 测的是 Agent 在可复现网页环境里完成真实网页任务,比如电商、论坛、GitLab、CMS、地图、Wiki 等。
截至 2026 年上半年的公开榜单,浏览器 Agent 第一梯队大概是这个水平:
WebArena
|
|
|---|---|
<30% |
|
30%~50% |
|
50%~65% |
|
65%~75% |
|
75%~85% |
|
85%+ |
|
当前头部系统大致在 65%~75%,最高公开结果约 74% 左右。
这已经比早期强太多。
但换个角度看,74% 也意味着还有四分之一任务失败。
而且 WebArena 还是受控环境。
真实网站里还会多出登录、验证码、风控、权限、A/B 测试、网络波动、页面改版。
所以第一座山的结论是:
浏览器 Agent 已经可以做演示、做辅助、做低风险任务。
但还不能放心接管复杂业务流程。
它能上网。
但还不等于能上班。

▶ 第二座大山:操作电脑 / 桌面 CUA
第二座山更难。
操作电脑。
也就是现在常说的桌面 CUA:Computer Use Agent。
桌面 CUA 的代表项目包括:
TuriX-CUA/UI-TARS-desktop
Mano-P
Claude Computer Use
OpenAI Operator类产品;
OpenClaw生态里的Peekaboo桌面操作能力。
它们要做的事,不只是打开网页。
而是看屏幕、点按钮、拖窗口、切应用、读文件、改文件、处理系统弹窗、操作本地软件。
这比浏览器更难。
因为电脑环境更不可控。
每个人的目录不同,权限不同,软件版本不同,窗口位置不同,系统语言不同,弹窗也不同。
一个 Agent 在 benchmark 里能跑,不代表在我的个人电脑上也能放心跑。

公开榜单里,部分顶级系统在 OSWorld 或 OSWorld-Verified 上已经进入 60%~80%+ 区间。
这很厉害。
但这不意味着个人电脑上已经可以放心托付。
OSWorld
|
|
|---|---|
<50% |
|
50%~65% |
|
65%~75% |
|
75%~85% |
|
85%+ |
|
90%+ |
|
这张表的核心意思是:
60% 很适合演示。
70% 很适合研究。
80% 可以进入半自动工作流。
但真要像桌面员工一样托付,最好得接近 90%。
因为电脑不是沙盒。
电脑里有私人文件、账号、聊天记录、工作资料、代码仓库、系统配置。
浏览器里点错,可能只是表单错了。
电脑里点错,可能删文件、改配置、污染仓库、触发不可逆操作。
所以第二座山的结论是:
桌面 CUA 已经很有潜力。
但距离“放心交权”,还差一段可靠性和安全边界。
▶ 第三座大山:长程任务
第三座山,是我最在意的一座。
长程任务。
短任务和长任务不是一个东西。
让 Agent 查个资料、总结一篇文章、改一个函数、调用一次工具,已经比较成熟了。
但真正有价值的工作,往往不是 1 步。
而是 10 步、20 步,甚至跨天。
这件事可以看三个测试:GAIA、τ-bench,以及各种长期自主任务评测。
GAIA 测的是通用助理能力:搜索、推理、工具使用、多步执行,最后给出可验证答案。
它比普通问答难很多,尤其 Level 2、Level 3,会暴露 Agent 的规划、检索、代码执行和多步推理问题。
但 GAIA 的任务边界仍然相对清楚。
它更像“复杂题目”,不完全等于“长期无人值守工作”。
τ-bench 更接近企业流程。
它测的是 Agent 在零售、航空这类场景里,多轮对话、调用工具、遵守业务规则、修改后端状态的能力。
当前 τ-bench 头部模型综合分数大概已经到 80%~88%,主流强模型多在 60%~70%+ 区间。

这说明什么?
说明工具调用型 Agent 已经很强。
但也说明可靠性还没到“放心无人值守”。
尤其 τ-bench 关注的是 pass^k:多次独立运行下能不能持续成功。
这正好击中生产环境的核心问题。
不是你能不能成功一次。
而是你能不能稳定成功很多次。
长期自主任务的状态大概是:
|
|
|
|---|---|
|
|
|
|
|
|
GAIA
|
|
τ-bench
|
80%~88%,主流强模型多在 60%~70%+ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
这张表基本就是我现在的使用边界。
3~5 步任务,可以交给 Agent 试。
10~20 步任务,必须中途看。
跨天任务、无人值守、高风险闭环,我不会放手。
因为长程任务最大的问题不是“不会做”。
而是会漂。
一开始目标是清楚的。
跑着跑着,重点变了。
查着查着,范围扩大了。
做着做着,把临时结论当成最终结论。
最后交付一个看似完整、实际跑偏的东西。
这比失败还危险。
失败你能看见。
跑偏不一定能及时发现。
所以第三座山的结论是:
Agent 已经能做短任务,也能处理一部分企业工具流程。
但长程任务还不能放心无人值守。
▶ 所以,虾和马现在是什么?
OpenClaw 和 Hermes Agent,我会继续用。
但我不会把它们当成熟员工。
我会把它们当高潜实习生。
适合做:
-
低风险探索; -
资料整理; -
草稿生成; -
局部自动化; -
有人监督的半自动流程。 
不适合直接接管:
-
私人电脑; -
生产后台; -
账号权限; -
不可逆操作; -
跨天无人值守任务; -
高风险业务闭环。
这不是保守。
这是基本的生产常识。
你不会让一个刚入职的实习生拿着管理员权限,独自操作财务系统。
你也不该让一个不稳定的 Agent 拿着全套权限,去操作你的浏览器、电脑和业务流程。
▶ 真正的拐点
我期待的拐点,不是模型又多会写诗。
也不是榜单又涨几分。
真正的拐点是:
WebArena 这类浏览器任务进入高可靠区间。
OSWorld 这类桌面任务接近可托付水平。
GAIA、τ-bench 这类长程工具任务不只是高分,而是能稳定复现、能纠错、能审计、能安全退出。
到那一天,Agent 才会从“玩具”和“助手”,变成真正的数字员工。
在那之前,龙虾可以养,马也可以遛。
但不能大规模放养。
因为 AI 员工这件事,最重要的不是聪明。
是可靠。
聪明只能让你惊喜。
可靠才能让你交权。
所以我的结论还是那句话:
这三座大山没解决之前,我才不会大规模养 OpenClaw 和 Hermes Agent。

夜雨聆风