摘要:
很多人以为 AI 的价值还停留在“问一个问题,给一个答案”。
但我最近做了一次更接近未来的实验:把 AI 真正接到我的电脑环境里,让它替我操作 Telegram、发送消息和图片、回传执行截图验证,甚至配合电脑的熄屏与防睡眠策略持续运行。
这次最有意思的地方,不是它“会回答”,而是它开始具备了“执行任务、验证结果、持续运行”的能力。
我越来越相信,AI 的下一阶段,不是更会聊天,而是变成真正能替人做事的代理。
_________
这两年大家聊 AI,最常见的场景还是“问它一个问题,它给你一个答案”。
但我最近越来越明显地感觉到,真正重要的分水岭,已经不在“它会不会回答问题”,而在于:
它能不能真正替你做事。
今天,我做了一次很完整的实验。
我不是让 AI 陪我聊天,也不是让它帮我写一段文案,而是把它真正接到了我的电脑环境里,让它替我:
• 操作本机 Telegram
• 给指定联系人发消息
• 把我和机器人的聊天截图发给别人
• 发完以后,再把“发送成功”的聊天界面截图回传给我验证
• 同时还调了电脑的熄屏、防睡眠和后台运行策略
最后,这条流程真的跑通了。
而且跑通之后,我的感受非常强烈:
AI 正在从“回答问题的工具”,变成“可以执行任务的代理”。
───
一、今天这件事,难点根本不是“发消息”
表面上看,我今天让 AI 做的事情很简单:
给黄发一句“你好,这是机器人代发的信息”,再把我和机器人的聊天截图发给他,发完后把成功界面回传给我。
如果把这件事交给人来做,可能三十秒就结束了。
但如果交给 AI,你会发现它背后根本不是“会不会说话”的问题,而是一整套执行问题:
• 它怎么控制 Telegram?
• 它怎么找到指定联系人?
• 它怎么发送文字?
• 它怎么发送图片?
• 它怎么确保不是“说自己做了”,而是真的做了?
• 它怎么把结果再发回来让我检查?
这其实是一套非常典型的 代理系统问题。
也就是说,AI 真正变得有用,不是因为它会写漂亮回答,而是因为它开始进入 执行闭环。
───
二、最先撞墙的地方,是 Telegram 搜索框
一开始,我走的是人类最自然的思路:
• 打开 Telegram
• 搜索联系人
• 点进聊天
• 发消息
结果很快发现,Telegram 桌面端的搜索并不好伺候。
看起来只是一个搜索框,实际上它的行为非常不稳定:
• ⌘F 不一定是全局搜索,有时更像当前上下文搜索
• ⌘⇧F 虽然更接近全局搜索,但搜索结果选中并不稳定
• Tab、方向键、回车,在不同场景下逻辑不一致
• GUI 自动化只能“模拟按键”,却不知道 Telegram 内部到底选中了谁
换句话说,如果继续死磕搜索框,事情很可能永远只能“偶尔成功”,而不是“稳定可用”。
这一刻我突然意识到:
真正有价值的能力,不是会不会写脚本,而是能不能在错误路径上及时掉头。
───
三、真正的突破,不是点对了搜索框,而是绕过了搜索框
后来我换了路,不再依赖 Telegram 的 GUI 搜索。
这次真正的突破点,是用了 Telegram 自带的 deep link。
比如:
• 打开某个用户名的聊天:
tg://resolve?domain=xx
• 打开我自己的机器人聊天:
tg://resolve?domain=xxbot
这一下,事情彻底变了。
因为原本最脆弱的一步——“在搜索结果里点对人”——被彻底绕过去了。
我不再需要 AI 去猜 Telegram 的界面逻辑,
而是让它直接通过协议跳到正确聊天。
这一步的意义其实非常大。
它说明一个很重要的工程原则:
与其在不稳定的界面层上苦修,不如尽快下沉到更稳定的协议层。
这不只是 Telegram 的事。
几乎所有自动化问题,本质上都一样:
• 界面层脆
• 协议层稳
• 能不用纯 GUI,就尽量别只靠 GUI
───
四、连文字发送都被优化掉了
更有意思的是,后来发现 Telegram 的 deep link 不止能打开聊天,连消息文本都能带进去。
例如:
tg://resolve?domain=xx=你好,这是机器人代发的信息。
这意味着,原本的流程:
• 搜索对方
• 打开聊天
• 粘贴文字
• 回车发送
可以被简化成:
• deep link 直接打开聊天并预填内容
• 自动确认发送
这是非常典型的“把 GUI 操作协议化”。
也就是从“模仿人点界面”,变成“直接驱动目标应用进入正确状态”。
这一步让我更确定了一件事:
未来真正强的 AI 代理,不会停留在界面点击层,而会越来越多地利用应用本身的结构化入口。
───
五、最关键的一步,不是发消息,而是“拿回证据”
如果今天只是让 AI 给别人发一条消息,那其实还不够。
真正让我觉得这件事已经进入“可用阶段”的,是后面的这一层:
发完以后,把发送成功的聊天界面截图,再回传给我。
这一步看似只是多截一张图,实际上意义完全不同。
因为很多 AI 自动化都会陷入一个经典问题:
• 它说“做了”
• 但你不知道它到底是真做了,还是只是“感觉自己应该做了”
而一旦加上回执截图,事情就变了。
你不是听它说:
• “我已经发了”
• “应该成功了”
• “脚本没报错”
而是直接看到:
• 当前聊天窗口
• 新发出的消息
• 新发出的图片
• 发送时间
• 实际界面证据
这其实是在给 AI 自动化补上最重要的一层:
可验证性。
如果没有这层,AI 自动化更像魔术;
有了这层,它才像系统。
───
六、然后又碰到了另一个现实问题:熄屏以后,GUI 自动化就不那么听话了
当 Telegram 自动化逐渐跑通之后,我又开始想更进一步:
能不能让电脑熄屏、后台继续运行,同时 AI 还继续干活?
这时又撞到了另一个现实边界。
答案并不是简单的“能”或“不能”。
熄屏后,后台能力通常还在:
• shell 命令还能跑
• 文件还能读写
• 消息还能回复
• OpenClaw 这种宿主还能继续运行
• 后台代理还能继续存在
但熄屏后,GUI 自动化会明显变脆:
• Telegram 前台窗口不一定还能被稳定获取
• 浏览器窗口状态可能变得不可靠
• AppleScript / System Events 可能拿不到窗口索引
• “当前可见界面截图”这种操作容易失败
这件事让我对“AI 接电脑”这件事又多了一层理解:
后台运行,和前台 GUI 可操作,不是同一件事。
很多人会把这两件事混为一谈。
但今天这个实验很清楚地告诉我:
• 代理还能活着
• 不代表它还像亮屏时那样,能随便点一切 GUI
这不是 AI 的问题,而是图形会话本身的边界。
───
七、为了让“龙虾”一直跑,我还调了电脑的电源策略
除了 Telegram 之外,今天还做了另一件很实用的事:
把电脑调整成更适合 AI 后台工作的状态。
最开始为了防止电脑睡死,我开了一条命令:
caffeinate -dimsu
但很快发现副作用非常明显:
碰一下键盘后,屏幕会很久都不灭。
原因是其中的 -d 参数会阻止显示器休眠。
后来我把它改成:
caffeinate -ismu
这版更适合长期运行代理:
• 允许显示器正常熄灭
• 但尽量不让整机睡死
• 让后台能力尽量继续工作
再往后,又把接电模式下的显示器熄屏时间调成了 3 分钟,最后确认已经生效:
• displaysleep 3
也就是说,现在机器已经进入一种更适合 AI 代理长期运行的状态:
• 接电
• 3 分钟息屏
• 尽量保持后台继续跑
• 需要 GUI 时再恢复前台会话
这看起来像一堆系统小细节,但其实很关键。
因为一旦 AI 要从“偶尔帮你一下”升级成“持续陪跑”,
它就必须和你的设备状态、电源策略、图形会话一起被考虑进去。
───
八、这次最让我震撼的,不是 AI 更聪明了,而是它开始更像“同事”了
我今天反复有一种感觉:
它不再只是一个回答问题的模型,而更像一个会自己动手的数字同事。
不是因为它“全知全能”,而是因为它开始具备下面这些特征:
• 能理解模糊需求
• 能拆解成执行步骤
• 会自己动手验证
• 一条路不通,能换一条路
• 能把临时方案收敛成可复用工具
• 最重要的是,它会把结果拿回来给你验收
这已经不是“提示词工程”那个范畴了。
更像是:
一个具备工具能力、执行能力和回执能力的实战代理。
而且它不是停留在概念层面。
今天我们真的现场把它跑通了。
───
九、如果只总结一句话,我会这么说
今天这次实验,真正做成的不是“AI 能发 Telegram 消息”。
而是:
我们把一个本来只会对话的 AI,接到了真实电脑环境里,
让它学会了通过协议直达 Telegram 会话、通过本机能力发送文字和图片、通过截图回传形成证据链,并结合 Mac 的电源策略,开始具备持续运行和执行任务的能力。
这件事看起来不大,
但它已经很像未来个人 AI 的雏形了。
不是“你问它,它答你”,
而是“你交代它,它去做”。
───
十、我越来越相信,AI 的真正革命不在聊天,而在代理
如果只是聊天,AI 的上限大概是:
• 更懂你
• 更会写
• 更会总结
• 更会表达
但如果进入代理阶段,AI 的意义会完全不一样:
• 替你操作工具
• 替你调用服务
• 替你搜集证据
• 替你整理流程
• 替你完成一部分本来要你亲手做的数字劳动
而今天这次实践,让我第一次很明确地感觉到:
这不是“以后会发生”的事,而是“现在已经开始发生”的事。
夜雨聆风