乐于分享
好东西不私藏

这个开源项目,让 AI 真正开始操作电脑软件

这个开源项目,让 AI 真正开始操作电脑软件

👇关注公众号👇
发送“sightflow-desktop-agent下载项目

我最近看到一个挺有意思的开源项目,名字叫 sightflow-desktop-agent

说白了,它干的事很直接:

让 AI 不只是会聊天,而是真的能像人一样操作电脑软件。

这事听起来不新鲜,但真正落到桌面软件上,才知道有多难。

很多工具没有 API,很多流程又偏偏卡在微信、企微、Slack、Telegram 这类界面里。

你让 AI 读懂文字,它会。

你让它跨窗口点按钮、切换应用、输入内容、看反馈,它就容易断片。

SightFlow 想补的,就是这一层。

把 AI 从“会说”往“会做”再推一步。

它不是聊天机器人

这个项目的思路我挺喜欢,叫 See · Think · Do · Learn

先看屏幕,再结合上下文思考,然后像人一样点击、输入、切换窗口、发送消息,最后把这次执行过程写成结构化的 work-trace

这里最关键的不是“做了一次动作”。

而是把为什么这么做也记下来。

这就很像给 AI 留工作笔记。后面能回放,能评估,也能复用经验。

这点比普通 RPA 更有意思。

很多自动化工具只记录步骤,不记录判断。SightFlow 记录的是一整段工作记忆:当时屏幕什么样、为什么这么选、做了什么、结果怎样。

它不是单纯的脚本执行器。

更像一个能越做越熟练的桌面工作引擎。

它解决的痛点很现实

我觉得这个项目最值得推荐的原因,不是它把 AI 做得多炫,而是它真的踩中了一个现实问题:

世界上大量工作,不在 API 里,而在屏幕上。

比如桌面聊天软件。

比如各种老后台。

比如你每天都要重复点、复制、粘贴、回复、切窗口的那些流程。

这些事人能做,但接口不一定开放。以前 AI 再聪明,也经常卡在“我看不到你的屏幕,也摸不到你的软件”这一层。

自动回复聊天。

处理多窗口办公。

操作没有接口的老软件。

让 AI 辅助日常桌面流程。

这些场景,才是 SightFlow 这种桌面 Agent 项目真正有价值的地方。

开源,也很关键

它还有一个很实用的地方:local-first

工作记录默认留在本机,不必上传到服务器。对很多人来说,这一点比“功能多”更重要。

因为桌面软件里往往就有敏感聊天、业务数据、内部流程。

能本地跑,心里会踏实很多

而且它是开源项目,基于 Electron、React、TypeScript 做的,协议是 Apache 2.0。对开发者来说,可看、可改、可接自己的模型和工作流,这个空间就出来了。

👆关注公众号👆

发送“sightflow-desktop-agent”下载项目