这个开源项目,让 AI 真正开始操作电脑软件
我最近看到一个挺有意思的开源项目,名字叫 sightflow-desktop-agent。
说白了,它干的事很直接:
让 AI 不只是会聊天,而是真的能像人一样操作电脑软件。
这事听起来不新鲜,但真正落到桌面软件上,才知道有多难。

很多工具没有 API,很多流程又偏偏卡在微信、企微、Slack、Telegram 这类界面里。
你让 AI 读懂文字,它会。
你让它跨窗口点按钮、切换应用、输入内容、看反馈,它就容易断片。

SightFlow 想补的,就是这一层。
把 AI 从“会说”往“会做”再推一步。
它不是聊天机器人
这个项目的思路我挺喜欢,叫 See · Think · Do · Learn。
先看屏幕,再结合上下文思考,然后像人一样点击、输入、切换窗口、发送消息,最后把这次执行过程写成结构化的 work-trace。
这里最关键的不是“做了一次动作”。
而是把为什么这么做也记下来。

这就很像给 AI 留工作笔记。后面能回放,能评估,也能复用经验。
这点比普通 RPA 更有意思。
很多自动化工具只记录步骤,不记录判断。SightFlow 记录的是一整段工作记忆:当时屏幕什么样、为什么这么选、做了什么、结果怎样。
它不是单纯的脚本执行器。
更像一个能越做越熟练的桌面工作引擎。
它解决的痛点很现实
我觉得这个项目最值得推荐的原因,不是它把 AI 做得多炫,而是它真的踩中了一个现实问题:
世界上大量工作,不在 API 里,而在屏幕上。
比如桌面聊天软件。
比如各种老后台。
比如你每天都要重复点、复制、粘贴、回复、切窗口的那些流程。
这些事人能做,但接口不一定开放。以前 AI 再聪明,也经常卡在“我看不到你的屏幕,也摸不到你的软件”这一层。
自动回复聊天。
处理多窗口办公。
操作没有接口的老软件。
让 AI 辅助日常桌面流程。
这些场景,才是 SightFlow 这种桌面 Agent 项目真正有价值的地方。
开源,也很关键
它还有一个很实用的地方:local-first。
工作记录默认留在本机,不必上传到服务器。对很多人来说,这一点比“功能多”更重要。
因为桌面软件里往往就有敏感聊天、业务数据、内部流程。
能本地跑,心里会踏实很多

而且它是开源项目,基于 Electron、React、TypeScript 做的,协议是 Apache 2.0。对开发者来说,可看、可改、可接自己的模型和工作流,这个空间就出来了。
👆关注公众号👆
发送“sightflow-desktop-agent”下载项目
夜雨聆风