OpenClaw终于有「视力」了!AI操作电脑这件事,开始变得不对劲了

你用过AI操作电脑吗？

就是那种，你告诉它"帮我把这个表格里的数据整理一下"，然后它自己打开Excel、自己复制粘贴、自己格式刷一顿操作......

听起来很美好对吧？但用过的人都知道，这事儿有个巨大的bug——AI是瞎子。

它只能靠你描述去猜页面长什么样。按钮在哪？输入框在第几行？下拉菜单藏在哪里？全靠猜。猜错了就乱来，一点办法都没有。

这就是我一直说的"AI操作电脑"的最后一公里问题：看得见，才能做对。

▲ 龙虾终于长眼睛了

01 视觉编程新时代

好消息来了。

这周三，智谱发布了GLM-5V-Turbo，专门为"视觉编程"优化的多模态模型，顾名思义，它能直接看懂图，然后写代码。

等等，看懂图写代码是什么意思？

这么说吧，以前你让AI"仿照这个界面做一个登录页"，你得把设计稿截图发给它，然后它根据图片内容猜测"哦，左边有个logo，中间是输入框，右边是按钮"——全靠蒙。

现在不一样了。GLM-5V-Turbo直接识别视觉元素，精确到像素级，然后生成对应的代码。

有多精确？我看到有人测试了，把一张复杂的SaaS后台设计稿扔给它，它直接还原出了整个页面。布局、颜色、间距、组件......几乎1:1。

这还不是最离谱的。更夸张的是，你随便拍一张手绘的草图，它都能给你变成可运行的网页。

手绘草图。

变成网页。

你品品这个含金量。

02 OpenClaw终于长眼睛了

但我真正激动的，不是它能帮前端工程师偷懒。

我激动的是，它对OpenClaw这类AI智能体意味着什么。

OpenClaw大家都知道，本地运行的AI智能体，能帮你操作电脑上的各种软件——浏览器、文档、表格，甚至可以说是"AI数字员工"。

但之前有个痛点：它"看不清"屏幕。

你说"点击那个蓝色的按钮"，它得先截个图分析一下，然后猜测哪个是蓝色按钮。如果你界面设计得比较有个性，它就懵了。

现在不一样了。

GLM-5V-Turbo原生支持视觉理解，直接把OpenClaw的"视力"拉到满分。它能在真实的操作系统或网页环境中，完成"看懂环境→规划动作→执行任务"的完整闭环。

▲ 从视觉理解到代码执行

说得直白点：以前是盲人摸象，现在终于长眼睛了。

03 一条指令，完整交付

具体能做什么？

我看到智谱放出了一个测试：让模型直接复刻一个完整网站。

不是单页面，是整个网站，所有页面，文件全给你保存到本地。

你就跟它说"把这个网站一模一样的给我扒下来"，然后它自己打开浏览器、自己分析结构、自己写代码、自己保存文件。

一条指令，完整交付。

这意味着什么？意味着以前需要"人工+AI"配合的工作，现在AI自己就能搞定。你只需要验收结果就行。

以前我们说AI能替代重复性劳动，但总觉得需要"人盯着"。现在看这个趋势，"人盯着"这个环节可能也要被优化掉了。

04 80%的工作交给AI

当然，有人会说：AI生成的代码，能直接用于生产环境吗？

说实话，现在还不一定。

就像智谱自己测试的，字体粗细、间距padding这些细节，偶尔会有出入。但这种东西，你让人工微调一下就好了。

关键在于：AI把80%的基础工作做了，人只需要做20%的精修。

这效率提升，已经不是量变了，是质变。

而且你别忘了，这只是开始。模型在进化，工具在进化，这个进化速度......我跟你说，去年这个时候我还不相信AI能帮我写代码，现在我已经离不开了。

05 正在发生，不是远方

回到文章开头那个问题：AI操作电脑这件事，离我们还有多远？

我的判断是：已经不是远方了，是正在发生。

GLM-5V-Turbo只是最新的一棒。你看最近几个月，Claude 4.6、Kimi K2.5、小米MiMo-V2-Pro......各大厂商都在往同一个方向跑：让AI真正能解决真实世界的问题。

不是陪你聊天，不是帮你写文案，是接管电脑、操作软件、替你完成工作。

这事听起来很远，但你看这进化速度，可能比你想象的快得多。

我现在有时候会让OpenClaw帮我处理一些繁琐的文档工作。一开始还担心它搞砸，后来发现，只要指令清晰，它比我做得还仔细。

AI不会累，不会烦，不会偷懒，更不会因为心情不好而出错。

你说这事儿，谁扛得住？

至于AI什么时候能真正替代人工，我不知道。但我知道一件事：会用AI的人，已经开始甩开不会用的人了。

这波浪潮，你跟不跟？

好了，今天就聊到这儿。如果你也在用各种AI工具，欢迎在评论区说说你的体验——哪些工具真的帮你提效了，哪些还只是"聊天搭子"？咱们下期见。