乐于分享
好东西不私藏

AI 还在笨拙地给你点鼠标?享受吧,这种「可爱」可能马上就看不到了

AI 还在笨拙地给你点鼠标?享受吧,这种「可爱」可能马上就看不到了

导读
roon 一条推文炸了:我们正处在一个极其短暂的窗口期——还能亲眼看着 AI 在电脑上笨手笨脚地挪鼠标、点错按钮、像实习生一样磕磕绊绊地写代码。这条推文15 万人围观,近 4000 人点赞。但他真正想说的远比”AI 还很笨”更让人后背发凉:再过不久,AI 操作电脑的速度会快到你根本来不及看一眼。

一条推文,戳中了所有人的神经

你有没有看过 AI agent 操作电脑的录屏?

鼠标慢慢挪到按钮上方,犹豫一下,点下去——点歪了。再挪,再点。打开一个输入框,逐字逐字敲进去,中间还删了两次。

整个过程像极了你教爸妈用手机时的画面。有点急,有点好笑,又有一丝说不清的温柔。

4 月 25 日,roon(@tszzl)在推特上写下了一段话:

“there will this brief era where we can watch our AIs bumble around on the computer clicking things, failing sometimes, taking a ~human amount of time to write code. in the blink of an eye they’ll be manipulating computers far too quickly to monitor”

「会有这样一个很短的时代:我们还能看着 AI 在电脑上笨拙地点来点去,偶尔失败,写代码还花着接近人类的时间。可一眨眼,它们操纵电脑的速度就会快到人类根本盯不过来。」

▲ roon 这条推文获得近 3700 赞、15 万次浏览,评论区瞬间炸开

这条推文之所以爆,不是因为它在嘲笑 AI 笨。恰恰相反——它在提醒所有人:你觉得 AI 笨拙可爱的这个瞬间,本身就是一个正在关闭的窗口。

你正在手动操作一台「古腾堡印刷机」

roon 随后发了一条跟帖,把这个判断拉到了更大的历史尺度上:

“like any automation that came before it. right now we’re basically manually operating Gutenberg presses. You’ll blink and digital printers will be churning out more books than the human eye can keep up with”

「这和之前所有自动化浪潮一样。现在我们基本上还在手动操作古腾堡印刷机。你一眨眼,数字印刷机就会源源不断地印出比人眼能跟上的更多的书。」

▲ roon 跟帖补充:古腾堡印刷机类比,635 赞

这个类比精准到让人不舒服。

想想看:古腾堡印刷机刚发明时,每印一页都是一个缓慢的、人工参与的、可被旁人围观的过程。工匠排字、上墨、压纸,一步一步,旁观者甚至能指指点点。但从古腾堡到高速轮转印刷机,中间也不过几百年。到工业印刷时代,没有人再「围观」印刷了——因为速度早就超出了人眼能跟踪的范围。

今天 AI agent 操作电脑的样子,就是数字时代的「古腾堡手动排字」。

它还在一个一个地点按钮、一个一个地识别界面元素、一步一步地截屏再判断。你还能看懂它每一步在干什么。你甚至还能在它犯错的时候笑出声来。

但 roon 的意思很明确:这种「还能看懂」的日子,快到头了。

为什么 AI 操作电脑时看起来像个实习生?

在继续之前,有必要解释一下:AI 在电脑上磕磕绊绊,到底是能力问题,还是架构问题?

答案是:主要是架构问题。

目前 Anthropic 的 Computer Use、OpenAI 的 Operator(CUA),基本都是同一套路子:

1.截屏——先看一眼当前界面长什么样 2.识别——用多模态模型判断画面里有哪些按钮、输入框、链接 3.规划——决定下一步该点哪里、该输入什么 4.执行——产出鼠标移动、点击、键盘输入等操作 5.再截屏——循环往复

每一步都带着延迟。模型要思考,网络要传输,界面要响应。这就好比一个人戴着厚手套、隔着一层毛玻璃在操作手机——他不是不会用,他只是没法直接碰到屏幕。

Anthropic 自己在 2024 年 10 月发布 Computer Use 时就直说了:

“At this stage, it is still experimental—at times cumbersome and error-prone.”

「在这个阶段,它仍然是实验性的——有时相当笨拙,而且容易出错。」

▲ Anthropic 官方博客:Computer Use 从第一天就被定义为”实验性、笨拙、易错”

官方甚至给出了具体数据:在 OSWorld 基准测试中,Claude 的 Computer Use 只拿到14.9%的成功率(screenshot-only 模式),给更多步骤也只有22.0%。同一个测试,人类是72.4%

OpenAI 后来居上。2025 年 1 月推出的 CUA 在 OSWorld 上跑到了38.1%,在 WebVoyager 上更是拿到87%。但即便如此,MIT Technology Review 的报道里依然写着:Operator 仍然是 experimental work in progress,still makes mistakes。

所以,AI 看起来笨,确实是因为它现在还笨——但这个「笨」的半衰期可能短得超出所有人想象。

「移动互联网还没等到 iPhone 的那个阶段」

彭博社资深记者 Joe Weisenthal 在 roon 这条推文下面补了一句非常到位的类比:

“we’re still in its ‘mobile internet, pre-iPhone’ era”

「AI 还处在”移动互联网,前 iPhone 时代”的阶段。」

▲ Joe Weisenthal:AI 现在就像 iPhone 发布前的移动互联网,82 赞

这个比喻对非技术读者特别友好。

记得 2006 年的手机上网吗?WAP 页面、龟速加载、满屏的文字链接、每次操作都像在做一道选择题。当时所有人都知道”手机上网是未来”,但体验烂到几乎没人真正用它办正事。

然后 2007 年 iPhone 来了,一切都变了。

roon 说的”窗口期”,本质上就是这个:我们正处在 AI agent 的”WAP 手机上网”阶段。方向毫无疑问是对的,但产品体验还停留在让人又好气又好笑的水平。

问题在于:从 WAP 到 iPhone,中间隔了好几年。而 AI 的迭代速度,可能根本不会给我们那么长的过渡期。

真正该害怕的,不是 AI 点错鼠标

到目前为止,所有讨论似乎都停留在一个相对温和的层面:AI 还很笨,但会变快。

可有人已经在想更深一层的问题了。

Brian McMullin 在 roon 的推文下面写了一段冷静到近乎刺耳的话:

“Speed isn’t the hard part… without defined constraints and validation, faster just means failures happen sooner…”

「难点不在于速度。如果没有明确的约束和验证,更快只意味着失败会来得更早、规模更大。」

▲ Brian McMullin:速度不是难点,没有约束的速度才是灾难

这才是这条选题最硬核的内核。

今天你看 AI agent 点错了一个按钮,你可以笑一笑,然后手动纠正。但如果有一天 AI 在后台同时跑 50 个任务、每秒执行上百次操作,而你连它的操作日志都来不及扫一眼——

谁来发现它犯的错?谁来叫停?谁来担责?

这正是 Hacker News 社区在讨论 OpenAI CUA 时反复提到的问题:所谓”computer-using”其实只是跑在自己的远程浏览器里,不等于真正操控用户本机。但即便如此,可靠性和可治理性依然是最大的悬而未决问题。

▲ Hacker News 上的讨论:开发者社区更关心的是可靠性和产品化路径

有人说这类 agent 可能重塑 UX 测试;也有人直接指出,deterministic reliability(确定性可靠性)到现在还是个难题。

关上窗口的,可能是”更隐形的产品”而非更快的 AI

这里还有一层很多人没想到的东西。

关闭”围观窗口”的力量,未必来自 AI 本身变得更快。更可能的情况是:产品形态变了,AI 的执行过程根本不再展示给你看。

想想看:

  • Anthropic 的 Computer Use 是在你的桌面上一步步操作,你能看到光标在动;
  • 但 OpenAI 的 Operator 已经把执行环境挪到了远程浏览器里——你只看到最终结果,中间过程在云端完成;
  • 再往后,agent 可能直接调用 API、走系统级接口,连 GUI 都不需要经过

也就是说,AI 可能还没来得及把鼠标点得又快又准,就直接跳过了”用鼠标”这个阶段。

就好比:你还在感慨实习生终于学会了骑自行车,结果他第二天就开上了高铁。

你失去的,不只是”围观 AI 犯错”的乐趣,更是”还能理解 AI 正在做什么”的最后一扇窗。

但也别太悲观:有些窗口不会那么快关上

公平地说,也有冷静的反方声音值得听一听。

有开发者指出:大部分 GUI 应用本来就不是为超高速交互设计的。页面加载需要时间,动画有过渡效果,表单校验有等待周期。AI 就算想快,很多老旧系统也不让它快起来。

也就是说,在遗留系统、合规流程、老旧软件主导的场景里,“可见但笨”的阶段可能还会持续相当长一段时间

这个窗口不会在所有行业同一天关闭。金融合规、医疗审批、政府流程——这些领域的 AI agent 可能还得老老实实地”一步一步走给你看”,走很久。

但在纯数字化、API 友好的领域——编程、数据分析、内容创作——围观期恐怕已经开始倒计时了。

最后再看一眼,趁还来得及

roon 这条推文之所以能引爆,是因为它精准命中了一种很特殊的集体情绪:

我们正在经历一个”最后一次”。

以前我们嘲笑 AI 不会推理——后来它学会了。 以前我们嘲笑 AI 不会写长代码——后来它写得比大多数人好了。 现在我们围观 AI 笨拙地点鼠标,觉得它像个刚学电脑的新手,有点可爱,有点好笑。

但这种感觉本身,也是有保质期的。

下一次你再打开一个 AI agent 的演示视频,看到它犹犹豫豫地挪鼠标、小心翼翼地点按钮、偶尔犯个蠢——

认真看。

因为用不了多久,你就再也看不到这一幕了。到那时候,AI 不会再在你面前笨拙地表演——它会在你看不见的地方,以你无法理解的速度,替你做完一切。

而那个时候真正的问题,早就不是”它会不会点错鼠标”了。


— END —

— END —