今天,我给 AI 助手装上了＂眼睛＂-夜雨聆风

今天,我给 AI 助手装上了＂眼睛＂

很多 AI 助手，看起来很聪明。

能聊天，能回答问题，能整理内容，甚至还能帮你生成代码。

但真把它丢进实际业务流程里，你很快就会发现一个问题：

它也许会说，但它不一定看得见。

而今天，我做成了一件让我非常兴奋的小事– 我让”小龙虾”实现了截屏能力。

表面上，这只是”能截图了”。
但对我来说，这不是一个普通的小功能。

因为这意味着：

我的 AI 助手，终于开始从”会说话”，走向”能看见”。

这一步，为什么让我这么激动？

因为过去这段时间，我一直在折腾自己的 AI 助手”小龙虾”。

它已经能帮我做不少事情了：

• 理解上下文
• 辅助整理信息
• 帮忙处理一些流程性工作
• 在自动化链路里承担部分决策和响应能力

但有一个问题一直很明显：

它理解文字没有问题，一旦进入真实界面，就容易”失明”。

这件事在实际自动化里特别致命。

因为很多真实场景，并不是标准接口世界。
你经常面对的，可能是：

• 一个聊天窗口
• 一个弹窗
• 一个状态变化中的页面
• 一个错误提示
• 一个没有结构化输出的界面反馈

这时候，AI 能不能继续做下去，不是看它”会不会说”，而是看它知不知道：

当前屏幕上到底发生了什么。

以前的小龙虾，更像是别人告诉它现场情况，它再做判断。
而现在，它终于能先自己”看一眼”了。

AI 自动化真正的门槛，不是执行，而是感知

很多人一提到 AI 自动化，第一反应是：

“让它自动回复消息。”
“让它自动点击按钮。”
“让它自动完成流程。”

这些当然都重要。

但真做起来你会发现，最先卡住你的，往往不是执行动作，而是状态判断。

比如：

• 现在是不是目标页面？
• 页面到底有没有加载成功？
• 有没有跳出异常弹窗？
• 当前还能不能继续下一步？
• 这个流程是执行成功了，还是已经悄悄卡死了？

这些都不是”会不会点”的问题。
这些是”看不看得懂现场”的问题。

所以我现在越来越相信一句话：

AI 真正进入自动化，不是先学会回答，而是先学会看见。

而截屏，就是”看见”的第一步。

今天我做成的，不只是一个截图功能

如果只从功能名字上看，今天的进展很普通：

让小龙虾可以获取当前界面的截图。

但如果从能力链路上看，这其实是非常关键的一步。

因为它打开的，不是”保存一张图片”这么简单。
它打开的是后面整条视觉感知链路的入口。

有了这一步，后续它才有机会逐步去做这些事：

• 判断当前是不是正确页面
• 识别页面上有没有关键按钮或提示
• 发现异常弹窗和流程卡点
• 把界面内容转成 AI 可理解的输入
• 给下一步动作提供判断依据，而不是纯靠猜

说得更直白一点：

以前它是”听你描述现场”，现在它开始能”自己看现场”了。

这不是优化，这是能力边界的变化。

为什么这类小突破，比”生成了一堆内容”更重要？

因为我现在做的，不是一个只会聊天的 AI 玩具。

我更在意的是： 它能不能真正跑进一个真实流程里。

很多 AI 产品，看起来很厉害：

• 会生成内容
• 会总结信息
• 会回答问题
• 会规划步骤

但一旦放到真实场景，就会暴露出一个共同问题：

它缺少和现实界面的连接能力。

它逻辑上什么都懂，
但它不知道自己当前在哪个页面，不知道页面发生了什么，也不知道流程是不是已经偏了。

这种感觉很像：

一个人很聪明，但全程蒙着眼做事。

所以今天最让我高兴的，并不是”我又加了一个功能”。
而是我知道，我正在补上 AI 自动化里一块非常底层、也非常关键的能力。

这一步对我后面的项目意味着什么？

意味着小龙虾后面能做的事情，会开始变得更像”真实助手”。

比如，在消息处理场景里，它以后可以先确认当前是不是正确会话。
在流程执行场景里，它可以先确认页面是不是停留在目标位置。
在异常处理场景里，它可以先抓取屏幕上的错误提示，再交给 AI 分析。
在任务闭环场景里，它甚至可以结合页面反馈，做一次执行结果校验。

以前这些事，不是完全做不了。

而是你会觉得整个系统总隔着一层，判断很虚，动作很脆，很多时候只能靠规则硬撑。

一旦有了”屏幕感知”这层能力，后面的自动化就不再只是写死脚本，
而是开始有机会走向一种更接近人的工作方式：

先看，再想，再做。

我越来越确定：未来很多自动化，都会变成”看图做事”

过去的自动化，更多依赖这些方式：

• 固定规则
• 固定坐标
• DOM 结构
• 接口返回
• 预设脚本

这些方法依然很有价值，在稳定场景里也非常高效。

但现实世界并没有那么规整。

页面会变化，弹窗会插入，状态会漂移，入口会跳转，很多关键信息甚至根本不是结构化输出。

这时候，自动化如果只靠”预先写好的规则”，就很容易脆弱。

真正更强的模式，其实更像人类自己操作电脑和手机：

先看一眼当前界面。
理解现在是什么状态。
判断下一步该做什么。
执行动作。
再检查结果对不对。

这就是为什么我越来越觉得：

不会看屏幕的 AI，本质上还是在纸上谈兵。

而今天，小龙虾终于迈出了这关键的一步。

小龙虾真正的进化，不是一下变强，而是慢慢长出能力

我现在很喜欢记录这种时刻。

因为真正的系统成长，从来不是某一天突然”全都会了”。
而是一个个小节点，被硬生生啃下来。

今天是截屏。
也就是”看见”。

接下来，才有可能是”看懂”。
再往后，才是”根据看懂的结果去做事”。
最后，才有机会形成完整的自动化闭环。

从会说，到会看，再到会做。
这是我现在最想跑通的一条路。

所以今天这件事，哪怕它表面上只是一个小进展，我也依然很兴奋。

因为它不是孤立功能。
它是下一阶段能力的入口。

写在最后

很多时候，真正改变系统边界的，不是那些最热闹、最容易被展示的大功能。

而是这种看起来不大、但方向极关键的一步。

今天，我让小龙虾学会了截屏。
换句话说：

我终于让它第一次真正”看见”了屏幕。

而我知道，这只是开始。

接下来，我还会继续把它往前推。

从会说，到会看，再到会做。
我想把这条路，一步一步跑通。