乐于分享
好东西不私藏

每次学新软件都看教程看到头大?这个AI工具直接看你屏幕,你卡在哪它就知道,还手把手教你

每次学新软件都看教程看到头大?这个AI工具直接看你屏幕,你卡在哪它就知道,还手把手教你

   🎯 我先问你一个问题:你上一次打开一个新软件,完全靠自己摸索学会它,花了多长时间?

   😤 打开Figma/Prisma/Notion,界面像飞机驾驶舱一样复杂   😤 看了三遍图文教程还是不知道那个功能藏在哪个菜单下面   😤 视频教程里演示的版本跟你装的不一样,按钮位置全变了   😤 问ChatGPT”XXX软件怎么导出PDF”,它给你的步骤是两年前的旧版界面   😤 让远程的朋友帮忙看屏幕教你操作,但不好意思总麻烦人家 

 这些问题的根源只有一个:现有的所有”教我用软件”的方式,都无法理解你此刻眼前看到的到底是什么。 教程是通用模板,视频是别人录的截图,ChatGPT连你的屏幕长什么样都不知道——它们都在”盲人摸象”。 

 前天我在 GitHub 上刷到了一个叫 Clicky 的开源项目,看完它的演示视频后我愣了整整十秒钟。因为它做的事情听起来太疯狂了——一个AI老师,就住在你的鼠标光标旁边,实时看着你的屏幕,你问什么它都能立刻回答,甚至会用一个蓝色的光标帮你指出”你要找的按钮就在这儿”。

更离谱的是:这个项目才上线 10 天,已经拿下了 3900+ 星。而且我在搜狗微信搜索里翻了三遍——目前公众号上没有任何一篇文章介绍过它。这意味着你是第一批知道这件事的人之一。

   🔍 一句话解释:一个住在你光标旁边的AI老师 

 Clicky 是一个 macOS 菜单栏应用(Windows 版已在开发中)。安装后它会常驻在你的菜单栏,像一个安静的小助手随时待命。但它最核心的能力不是坐在那里等——而是它能看见你在干什么。 

❌ 传统方式学软件:   遇到问题 → 打开浏览器搜索 → 筛选教程 → 对照着文字描述在界面上找 → 找不到对应的位置 → 再搜一遍 → 循环崩溃 

✅ 用 Clicky 的方式:   按下快捷键 → 对着电脑说出你的问题 → Clicky 截取你的当前屏幕发给 AI 分析 → AI 直接告诉你”你现在看到的界面里,那个按钮在第几行第几个”→ 甚至用一个 蓝色半透明光标 帮你指着目标位置 

▲ 你有没有这种经历:打开一个新软件,界面密密麻麻全是按钮和菜单,看了三遍教程还是不知道该点哪里……

 区别在哪?传统方式是你去适应教程,Clicky 是让 AI 来适应你眼前的具体画面。

 技术栈:Swift 开发 / Claude API 驱动智能 / MIT 完全开源 / macOS 10.15+ 支持。作者是 Farzaa,一位专注于 AI 工具链的独立开发者。项目地址:github.com/farzaa/clicky 

   🛠️ 它到底能做什么?(5大能力逐一拆解) 

(每个能力我都先说”没有它时”的问题,再说”有了它之后”的效果,方便你感受差距)

   ① 实时屏幕观察 —— AI 终于”看见”你在看什么了 

没有它时:你问 ChatGPT “Prisma 里怎么设置渐变填充”,它给你一堆步骤:”点击左侧工具栏第三个图标→选择填充选项→调整渐变参数……” 但你盯着自己的屏幕——左侧工具栏哪来的第三个图标?你的界面跟它描述的根本不一样。

有了 Clicky:当你按下快捷键提问时,Clicky 会自动截取你当前屏幕的真实画面,连同你的语音问题一起发送给 Claude API。AI 回复的内容是基于它亲眼看到的你的界面生成的——不再是凭空想象的通用步骤。

   💡 这解决了一个根本性的痛点:所有软件都有多个版本、多种皮肤布局、不同的语言设置。传统教程只能描述一种情况。但 Clicky 的 AI 看到的是你这台电脑上、这个版本、这套配置下的真实界面。一步到位,不用翻译。r>   这就像以前你需要跟客服描述”我的电脑出了个问题”(对方完全靠猜),现在你可以直接把屏幕转给对方说”你看就是这个”。 

   ② 蓝色光标指引 —— “你要找的东西就在这里” 

没有它时:AI 费劲地描述”在顶部菜单栏找到 File 旁边的 Edit 选项,然后下拉到第五个 Preferences……” 你在屏幕上一行一行地数,眼睛都快花了。

有了 Clicky:AI 不只是用文字告诉你——它会生成一个蓝色的半透明光标,直接出现在你的屏幕上,精准指向目标 UI 元素。就像有一个真人站在你身后,伸出手说”就是这里”。

 这个设计太聪明了。人类的大脑处理视觉定位的速度远快于处理文字描述。与其让 AI 用50个字描述一个按钮在哪里,不如让它直接把光标移过去——零歧义,零误解。 

   ③ 语音交互 —— 动嘴不动手 

没有它时:遇到问题时你需要:切换窗口 → 打开浏览器 → 输入搜索关键词 → 筛选结果 → 切回软件 → 尝试操作 → 不对再切回去搜。光是上下文切换就已经消耗了大量精力。

有了 Clicky:按一下快捷键,直接对着电脑说话。”这个表格怎么筛选出上个月的数据?” “这个图层的透明度在哪调?” Clicky 录下你的语音 + 当前屏幕截图,一起发给 AI 处理。全程不需要打字,不需要切换窗口,你的视线始终保持在正在操作的软件上。 

   💡 为什么这很重要:当你在一个复杂的软件里工作时,每一次窗口切换都会打断你的心流(Flow State)。Clicky 的设计哲学是把 AI 帮助变成一个不打断你工作流的动作——按一下、说一句、得到答案、继续干活。整个过程不超过10秒。 

   ④ 上下文记忆 —— 它记得你之前在干嘛 

没有它时:每次问 AI 问题都是全新的对话。”刚才那个筛选条件怎么设来着?” AI 完全不知道你在说什么,你得从头再描述一遍背景。

有了 Clicky:因为它始终在你的屏幕旁边,它可以维护一个持续的工作会话。它记得你5分钟前在做表格筛选,记得你刚才问了关于图层的问题。当你追问”那如果我想同时应用到其他 sheet 呢?”,它知道”其他 sheet”是什么意思——因为它一直在看着你的操作历史。

   ⑤ 多场景适配 —— 不只是一个软件老师 

 Clicky 的能力不限于”教你怎么用软件”。基于屏幕观察+AI分析的架构,它可以应用于:

   🎨 设计审查 — “我这个配色方案有没有对比度不够的地方?” AI 直接看你的设计稿给出反馈   📊 数据分析 — “这张图表里的异常数据是什么原因?” AI 看着你的 Excel 图表做解读   🐛 代码 Debug — “这个报错信息是什么意思?」AI 看着你的 IDE 终端错误输出给方案   📝 写作校对 — 「这段文案读起来通顺吗?」AI 看着你文档编辑器里的内容提修改建议   🌐 外语界面 — 遇到全英文/日文软件看不懂?直接问「这个页面是干什么的」,AI 帮你翻译并解释每个区域的功能 

▲ Clicky的工作方式:住在你光标旁边,实时看你的屏幕,你问什么它答什么,甚至能用蓝色光标帮你指出该点的按钮在哪

   ⚖️ 学软件的方式对比 

维度
看图文教程
问 ChatGPT/Claude
用 Clicky
能看到你的真实界面?
❌ 不能
❌ 不能
✅ 实时截屏分析
回答针对你的具体版本?
⚠️ 取决于教程新旧
❌ 给的是通用步骤
✅ 基于你的实际界面
需要切换窗口?
❌ 要来回切
❌ 要切换到浏览器
✅ 快捷键一键唤起
输入方式
阅读文字
手动打字
✅ 语音直接说
能否直观指出位置?
❌ 只能用文字描述
❌ 同左
✅ 蓝色光标直接指
有上下文记忆?
❌ 无
⚠️ 需要在同一对话内
✅ 持续观察你的操作

   ⚠️ 一个绕不开的问题:它在看你的屏幕,安全吗? 

 说到这里,一定有人在想:“等等,这个东西一直在截我的屏?那我的密码、聊天记录、银行账户岂不都被它看见了?”

 这个问题非常重要,也是 Clicky 作为开源项目的核心优势所在——所有东西都是透明的,没有任何黑箱。 

   🔒 本地优先设计 — 截图和录音首先在你的设备上处理,只有在你主动按下快捷键发起提问时才会发送到 AI API   🔒 开源可审计 — MIT 协议完全开源,任何人都可以查看源码确认它到底在收集什么、发送什么。闭源的同类产品你做不到这一点   🔒 API Key 自管理 — 你使用自己的 Claude API Key(或自建的 API 中转),数据流向完全由你自己控制   🔒 可控的触发机制 — 它不会偷偷截屏。只有在你主动触发(按下快捷键)时才会捕获画面和声音 

   ⚠️ 不过需要诚实说明:如果你使用官方 Claude API,你的截图数据确实会经过 Anthropic 的服务器。如果你对隐私极其敏感,可以考虑:(1) 使用本地部署的 LLM 替代 Claude;(2) 只在非敏感场景下使用。开源的好处就是你如果有能力,完全可以自己魔改后端。对比闭源竞品:很多商业化的”AI 助手”软件也在截屏上传,但你根本不知道它们的后端在干什么、数据存了多久、谁有权限访问。Clicky 至少让你知道一切。 

   💡 怎么用起来?(3步搞定) 

前提条件:一台 Mac(macOS 10.15+) + 一个 Claude API Key

 # 第一步:克隆项目git clone https://github.com/farzaa/clicky.gitcd clicky# 第二步:安装依赖并用 Xcode 构建# 如果你没有 Xcode,可以从 App Store 免费下载xcodebuild -project Clicky.xcodeproj -scheme Clicky build# 第三步:配置你的 Claude API Key# 在设置中填入你的 API Key# 访问 console.anthropic.com 获取 Key# 第四步:启动!# Clicky 会出现在你的菜单栏中# 设置一个全局快捷键(建议 Cmd+Shift+K)# 完成!现在打开任意软件,遇到不会的操作:# 按下快捷键 → 说话 → 等 AI 回答 → 看蓝色光标指引 

 不想自己编译?项目 Release 页面可能提供预编译版本(.app 文件),直接下载拖入 Applications 即可。 

   💡 关于 Windows 用户: 作者明确表示 Windows 版本已在开发路线图中(部分社区 fork 已经开始移植)。目前 Mac 用户可以抢先体验,Windows 用户可以先 Star 关注更新。   💰 费用说明:Clicky 本身免费开源。但调用 Claude API 需要付费(按用量计费)。轻度使用每月花费大约在 $2-$5 左右。也可以考虑接入第三方 Claude API 中转服务降低成本。 

   🎯 谁最需要 Clicky? 

   👩‍💻 设计师 / 产品经理     每天都在 Figma、Sketch、Prism 这些工具之间切换,每个软件的界面都不一样,每次更新都要重新适应。   📊 数据分析 / 运营人员     Excel 公式、Tableau 可视化、SQL 查询器……工具多且杂,经常遇到”我知道这个功能存在但找不到在哪”的情况。   🧑‍💻 开发者(尤其是换语言/框架时)     新接手一个项目,IDE 配置、构建脚本、部署流程……老鸟带新人最痛苦的就是这些环境问题,Clicky 可以充当”虚拟导师”的角色。   👨‍🏫 教父母/长辈用手机电脑的人     这是我个人最看好的场景。想象一下:以后爸妈遇到不会的操作,不再需要你远程视频指导(”不对不是那个按钮!往右一点!再往右!」),而是他们自己对着 Clicky 说一句就能得到答案。光是这个场景就值得一个 Star。   🔄 频繁换软件的人     自由职业者、创业者、数码爱好者——你们的生活就是不断接触新工具。Clicky 能大幅缩短每一个新工具的上手时间。 

   🙋‍♂️ 我的看法:这不是一个工具,是一种新的交互范式 

 过去十年,我们与 AI 的交互方式经历了三次进化:第一代:在网页聊天框里打字问问题第二代:集成到各个 App 内部的 Copilot/Assistant 功能第三代(正在发生):AI 不再等待你来找它,而是主动存在于你的工作空间中,随时准备响应 

 Clicky 属于第三代的早期代表。它的本质创新不在”屏幕识别”技术本身(OCR 和视觉模型早就有了),而在于交互范式的转变——从”你去找 AI”变成”AI 就在你身边”。

但我也有三个诚实的评价:

   ⚠️ 目前只支持 Mac — Windows 和 Linux 用户暂时无法体验。考虑到全球 PC 市场份额 Windows 占 70%+,这是一个明显的限制。但 Windows 版已经在路上了。   ⚠️ 依赖 Claude API — 目前后端绑定 Claude,意味着你需要 Anthropic 的 API Key 且网络通畅。对于国内用户来说这可能是一个障碍(虽然有各种中转方案)。未来如果能支持更多 LLM 后端(比如本地模型)会更友好。   ⚠️ 仍在快速迭代中 — 作为一个 10 天的新项目,它肯定还有 bug、边界情况和性能问题。早期 adopter 需要有一定的折腾心理准备。但这也意味着你有机会影响它的开发方向(开源项目的魅力)。 

我对这个方向的预测:

   🎯 今年内会出现更多”常驻式 AI 伴侣”类应用,覆盖更多平台和场景   🎯 操作系统层面可能会原生集成类似的”AI 观察者”能力(macOS / Windows 都在往这个方向走)   🎯 “屏幕理解”会成为 AI Agent 的基础能力之一,类似现在的”文本理解”和”图像理解”   🎯 隐私保护技术(本地化处理、联邦学习)会成为这类产品的核心竞争力   🎯 企业培训场景会大量采用此类技术——新员工入职不用再看几十页手册,AI 导师跟着他操作即可 

   以后的 AI 不是你去打开的一个网页   而是一直坐在你旁边的那个人 

   💬 来聊聊 

   你有没有过被某个软件搞得怀疑人生的经历?   最后是怎么解决的?找了教程?问了朋友?还是干脆放弃了?   如果有一个 AI 一直坐在你旁边看着你的屏幕,你最想让它帮你做什么?👇评论区聊聊你的想法

🔔 每天挖掘一个 GitHub 上真正值得用的开源神器

     AI 工具实测 · 开源项目深挖 · 科技圈前沿动态 · 效率提升干货   

     ↓ 点「关注公众号」,下一个爆款工具不错过