这个开源项目,让 AI 真正开始操作电脑软件-夜雨聆风

这个开源项目,让 AI 真正开始操作电脑软件

👇关注公众号👇

发送“sightflow-desktop-agent”下载项目

我最近看到一个挺有意思的开源项目，名字叫 sightflow-desktop-agent。

说白了，它干的事很直接：

让 AI 不只是会聊天，而是真的能像人一样操作电脑软件。

这事听起来不新鲜，但真正落到桌面软件上，才知道有多难。

很多工具没有 API，很多流程又偏偏卡在微信、企微、Slack、Telegram 这类界面里。

你让 AI 读懂文字，它会。

你让它跨窗口点按钮、切换应用、输入内容、看反馈，它就容易断片。

SightFlow 想补的，就是这一层。

把 AI 从“会说”往“会做”再推一步。

它不是聊天机器人

这个项目的思路我挺喜欢，叫 See · Think · Do · Learn。

先看屏幕，再结合上下文思考，然后像人一样点击、输入、切换窗口、发送消息，最后把这次执行过程写成结构化的 work-trace。

这里最关键的不是“做了一次动作”。

而是把为什么这么做也记下来。

这就很像给 AI 留工作笔记。后面能回放，能评估，也能复用经验。

这点比普通 RPA 更有意思。

很多自动化工具只记录步骤，不记录判断。SightFlow 记录的是一整段工作记忆：当时屏幕什么样、为什么这么选、做了什么、结果怎样。

它不是单纯的脚本执行器。

更像一个能越做越熟练的桌面工作引擎。

我觉得这个项目最值得推荐的原因，不是它把 AI 做得多炫，而是它真的踩中了一个现实问题：

世界上大量工作，不在 API 里，而在屏幕上。

比如桌面聊天软件。

比如各种老后台。

比如你每天都要重复点、复制、粘贴、回复、切窗口的那些流程。

这些事人能做，但接口不一定开放。以前 AI 再聪明，也经常卡在“我看不到你的屏幕，也摸不到你的软件”这一层。

自动回复聊天。

处理多窗口办公。

操作没有接口的老软件。

让 AI 辅助日常桌面流程。

这些场景，才是 SightFlow 这种桌面 Agent 项目真正有价值的地方。

它还有一个很实用的地方：local-first。

工作记录默认留在本机，不必上传到服务器。对很多人来说，这一点比“功能多”更重要。

因为桌面软件里往往就有敏感聊天、业务数据、内部流程。

能本地跑，心里会踏实很多

而且它是开源项目，基于 Electron、React、TypeScript 做的，协议是 Apache 2.0。对开发者来说，可看、可改、可接自己的模型和工作流，这个空间就出来了。

👆关注公众号👆

发送“sightflow-desktop-agent”下载项目