你用过AI操作电脑吗?
就是那种,你告诉它"帮我把这个表格里的数据整理一下",然后它自己打开Excel、自己复制粘贴、自己格式刷一顿操作......
听起来很美好对吧?但用过的人都知道,这事儿有个巨大的bug——AI是瞎子。
它只能靠你描述去猜页面长什么样。按钮在哪?输入框在第几行?下拉菜单藏在哪里?全靠猜。猜错了就乱来,一点办法都没有。
这就是我一直说的"AI操作电脑"的最后一公里问题:看得见,才能做对。

▲ 龙虾终于长眼睛了
01 视觉编程新时代
好消息来了。
这周三,智谱发布了GLM-5V-Turbo,专门为"视觉编程"优化的多模态模型,顾名思义,它能直接看懂图,然后写代码。
等等,看懂图写代码是什么意思?
这么说吧,以前你让AI"仿照这个界面做一个登录页",你得把设计稿截图发给它,然后它根据图片内容猜测"哦,左边有个logo,中间是输入框,右边是按钮"——全靠蒙。
现在不一样了。GLM-5V-Turbo直接识别视觉元素,精确到像素级,然后生成对应的代码。
有多精确?我看到有人测试了,把一张复杂的SaaS后台设计稿扔给它,它直接还原出了整个页面。布局、颜色、间距、组件......几乎1:1。
这还不是最离谱的。更夸张的是,你随便拍一张手绘的草图,它都能给你变成可运行的网页。
手绘草图。
变成网页。
你品品这个含金量。
02 OpenClaw终于长眼睛了
但我真正激动的,不是它能帮前端工程师偷懒。
我激动的是,它对OpenClaw这类AI智能体意味着什么。
OpenClaw大家都知道,本地运行的AI智能体,能帮你操作电脑上的各种软件——浏览器、文档、表格,甚至可以说是"AI数字员工"。
但之前有个痛点:它"看不清"屏幕。
你说"点击那个蓝色的按钮",它得先截个图分析一下,然后猜测哪个是蓝色按钮。如果你界面设计得比较有个性,它就懵了。
现在不一样了。
GLM-5V-Turbo原生支持视觉理解,直接把OpenClaw的"视力"拉到满分。它能在真实的操作系统或网页环境中,完成"看懂环境→规划动作→执行任务"的完整闭环。

▲ 从视觉理解到代码执行
说得直白点:以前是盲人摸象,现在终于长眼睛了。
03 一条指令,完整交付
具体能做什么?
我看到智谱放出了一个测试:让模型直接复刻一个完整网站。
不是单页面,是整个网站,所有页面,文件全给你保存到本地。
你就跟它说"把这个网站一模一样的给我扒下来",然后它自己打开浏览器、自己分析结构、自己写代码、自己保存文件。
一条指令,完整交付。
这意味着什么?意味着以前需要"人工+AI"配合的工作,现在AI自己就能搞定。你只需要验收结果就行。
以前我们说AI能替代重复性劳动,但总觉得需要"人盯着"。现在看这个趋势,"人盯着"这个环节可能也要被优化掉了。
04 80%的工作交给AI
当然,有人会说:AI生成的代码,能直接用于生产环境吗?
说实话,现在还不一定。
就像智谱自己测试的,字体粗细、间距padding这些细节,偶尔会有出入。但这种东西,你让人工微调一下就好了。
关键在于:AI把80%的基础工作做了,人只需要做20%的精修。
这效率提升,已经不是量变了,是质变。
而且你别忘了,这只是开始。模型在进化,工具在进化,这个进化速度......我跟你说,去年这个时候我还不相信AI能帮我写代码,现在我已经离不开了。
05 正在发生,不是远方
回到文章开头那个问题:AI操作电脑这件事,离我们还有多远?
我的判断是:已经不是远方了,是正在发生。
GLM-5V-Turbo只是最新的一棒。你看最近几个月,Claude 4.6、Kimi K2.5、小米MiMo-V2-Pro......各大厂商都在往同一个方向跑:让AI真正能解决真实世界的问题。
不是陪你聊天,不是帮你写文案,是接管电脑、操作软件、替你完成工作。
这事听起来很远,但你看这进化速度,可能比你想象的快得多。
我现在有时候会让OpenClaw帮我处理一些繁琐的文档工作。一开始还担心它搞砸,后来发现,只要指令清晰,它比我做得还仔细。
AI不会累,不会烦,不会偷懒,更不会因为心情不好而出错。
你说这事儿,谁扛得住?
至于AI什么时候能真正替代人工,我不知道。但我知道一件事:会用AI的人,已经开始甩开不会用的人了。
这波浪潮,你跟不跟?
好了,今天就聊到这儿。如果你也在用各种AI工具,欢迎在评论区说说你的体验——哪些工具真的帮你提效了,哪些还只是"聊天搭子"?咱们下期见。
夜雨聆风