每次学新软件都看教程看到头大?这个AI工具直接看你屏幕,你卡在哪它就知道,还手把手教你
🎯 我先问你一个问题:你上一次打开一个新软件,完全靠自己摸索学会它,花了多长时间?
😤 打开Figma/Prisma/Notion,界面像飞机驾驶舱一样复杂 😤 看了三遍图文教程还是不知道那个功能藏在哪个菜单下面 😤 视频教程里演示的版本跟你装的不一样,按钮位置全变了 😤 问ChatGPT”XXX软件怎么导出PDF”,它给你的步骤是两年前的旧版界面 😤 让远程的朋友帮忙看屏幕教你操作,但不好意思总麻烦人家
这些问题的根源只有一个:现有的所有”教我用软件”的方式,都无法理解你此刻眼前看到的到底是什么。 教程是通用模板,视频是别人录的截图,ChatGPT连你的屏幕长什么样都不知道——它们都在”盲人摸象”。
前天我在 GitHub 上刷到了一个叫 Clicky 的开源项目,看完它的演示视频后我愣了整整十秒钟。因为它做的事情听起来太疯狂了——一个AI老师,就住在你的鼠标光标旁边,实时看着你的屏幕,你问什么它都能立刻回答,甚至会用一个蓝色的光标帮你指出”你要找的按钮就在这儿”。
更离谱的是:这个项目才上线 10 天,已经拿下了 3900+ 星。而且我在搜狗微信搜索里翻了三遍——目前公众号上没有任何一篇文章介绍过它。这意味着你是第一批知道这件事的人之一。
🔍 一句话解释:一个住在你光标旁边的AI老师
Clicky 是一个 macOS 菜单栏应用(Windows 版已在开发中)。安装后它会常驻在你的菜单栏,像一个安静的小助手随时待命。但它最核心的能力不是坐在那里等——而是它能看见你在干什么。
❌ 传统方式学软件: 遇到问题 → 打开浏览器搜索 → 筛选教程 → 对照着文字描述在界面上找 → 找不到对应的位置 → 再搜一遍 → 循环崩溃
✅ 用 Clicky 的方式: 按下快捷键 → 对着电脑说出你的问题 → Clicky 截取你的当前屏幕发给 AI 分析 → AI 直接告诉你”你现在看到的界面里,那个按钮在第几行第几个”→ 甚至用一个 蓝色半透明光标 帮你指着目标位置

▲ 你有没有这种经历:打开一个新软件,界面密密麻麻全是按钮和菜单,看了三遍教程还是不知道该点哪里……
区别在哪?传统方式是你去适应教程,Clicky 是让 AI 来适应你眼前的具体画面。
技术栈:Swift 开发 / Claude API 驱动智能 / MIT 完全开源 / macOS 10.15+ 支持。作者是 Farzaa,一位专注于 AI 工具链的独立开发者。项目地址:github.com/farzaa/clicky
🛠️ 它到底能做什么?(5大能力逐一拆解)
(每个能力我都先说”没有它时”的问题,再说”有了它之后”的效果,方便你感受差距)
① 实时屏幕观察 —— AI 终于”看见”你在看什么了
没有它时:你问 ChatGPT “Prisma 里怎么设置渐变填充”,它给你一堆步骤:”点击左侧工具栏第三个图标→选择填充选项→调整渐变参数……” 但你盯着自己的屏幕——左侧工具栏哪来的第三个图标?你的界面跟它描述的根本不一样。
有了 Clicky:当你按下快捷键提问时,Clicky 会自动截取你当前屏幕的真实画面,连同你的语音问题一起发送给 Claude API。AI 回复的内容是基于它亲眼看到的你的界面生成的——不再是凭空想象的通用步骤。
💡 这解决了一个根本性的痛点:所有软件都有多个版本、多种皮肤布局、不同的语言设置。传统教程只能描述一种情况。但 Clicky 的 AI 看到的是你这台电脑上、这个版本、这套配置下的真实界面。一步到位,不用翻译。r> 这就像以前你需要跟客服描述”我的电脑出了个问题”(对方完全靠猜),现在你可以直接把屏幕转给对方说”你看就是这个”。
② 蓝色光标指引 —— “你要找的东西就在这里”
没有它时:AI 费劲地描述”在顶部菜单栏找到 File 旁边的 Edit 选项,然后下拉到第五个 Preferences……” 你在屏幕上一行一行地数,眼睛都快花了。
有了 Clicky:AI 不只是用文字告诉你——它会生成一个蓝色的半透明光标,直接出现在你的屏幕上,精准指向目标 UI 元素。就像有一个真人站在你身后,伸出手说”就是这里”。
这个设计太聪明了。人类的大脑处理视觉定位的速度远快于处理文字描述。与其让 AI 用50个字描述一个按钮在哪里,不如让它直接把光标移过去——零歧义,零误解。
③ 语音交互 —— 动嘴不动手
没有它时:遇到问题时你需要:切换窗口 → 打开浏览器 → 输入搜索关键词 → 筛选结果 → 切回软件 → 尝试操作 → 不对再切回去搜。光是上下文切换就已经消耗了大量精力。
有了 Clicky:按一下快捷键,直接对着电脑说话。”这个表格怎么筛选出上个月的数据?” “这个图层的透明度在哪调?” Clicky 录下你的语音 + 当前屏幕截图,一起发给 AI 处理。全程不需要打字,不需要切换窗口,你的视线始终保持在正在操作的软件上。
💡 为什么这很重要:当你在一个复杂的软件里工作时,每一次窗口切换都会打断你的心流(Flow State)。Clicky 的设计哲学是把 AI 帮助变成一个不打断你工作流的动作——按一下、说一句、得到答案、继续干活。整个过程不超过10秒。
④ 上下文记忆 —— 它记得你之前在干嘛
没有它时:每次问 AI 问题都是全新的对话。”刚才那个筛选条件怎么设来着?” AI 完全不知道你在说什么,你得从头再描述一遍背景。
有了 Clicky:因为它始终在你的屏幕旁边,它可以维护一个持续的工作会话。它记得你5分钟前在做表格筛选,记得你刚才问了关于图层的问题。当你追问”那如果我想同时应用到其他 sheet 呢?”,它知道”其他 sheet”是什么意思——因为它一直在看着你的操作历史。
⑤ 多场景适配 —— 不只是一个软件老师
Clicky 的能力不限于”教你怎么用软件”。基于屏幕观察+AI分析的架构,它可以应用于:
🎨 设计审查 — “我这个配色方案有没有对比度不够的地方?” AI 直接看你的设计稿给出反馈 📊 数据分析 — “这张图表里的异常数据是什么原因?” AI 看着你的 Excel 图表做解读 🐛 代码 Debug — “这个报错信息是什么意思?」AI 看着你的 IDE 终端错误输出给方案 📝 写作校对 — 「这段文案读起来通顺吗?」AI 看着你文档编辑器里的内容提修改建议 🌐 外语界面 — 遇到全英文/日文软件看不懂?直接问「这个页面是干什么的」,AI 帮你翻译并解释每个区域的功能

▲ Clicky的工作方式:住在你光标旁边,实时看你的屏幕,你问什么它答什么,甚至能用蓝色光标帮你指出该点的按钮在哪
⚖️ 学软件的方式对比
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
⚠️ 一个绕不开的问题:它在看你的屏幕,安全吗?
说到这里,一定有人在想:“等等,这个东西一直在截我的屏?那我的密码、聊天记录、银行账户岂不都被它看见了?”
这个问题非常重要,也是 Clicky 作为开源项目的核心优势所在——所有东西都是透明的,没有任何黑箱。
🔒 本地优先设计 — 截图和录音首先在你的设备上处理,只有在你主动按下快捷键发起提问时才会发送到 AI API 🔒 开源可审计 — MIT 协议完全开源,任何人都可以查看源码确认它到底在收集什么、发送什么。闭源的同类产品你做不到这一点 🔒 API Key 自管理 — 你使用自己的 Claude API Key(或自建的 API 中转),数据流向完全由你自己控制 🔒 可控的触发机制 — 它不会偷偷截屏。只有在你主动触发(按下快捷键)时才会捕获画面和声音
⚠️ 不过需要诚实说明:如果你使用官方 Claude API,你的截图数据确实会经过 Anthropic 的服务器。如果你对隐私极其敏感,可以考虑:(1) 使用本地部署的 LLM 替代 Claude;(2) 只在非敏感场景下使用。开源的好处就是你如果有能力,完全可以自己魔改后端。对比闭源竞品:很多商业化的”AI 助手”软件也在截屏上传,但你根本不知道它们的后端在干什么、数据存了多久、谁有权限访问。Clicky 至少让你知道一切。
💡 怎么用起来?(3步搞定)
前提条件:一台 Mac(macOS 10.15+) + 一个 Claude API Key
# 第一步:克隆项目git clone https://github.com/farzaa/clicky.gitcd clicky# 第二步:安装依赖并用 Xcode 构建# 如果你没有 Xcode,可以从 App Store 免费下载xcodebuild -project Clicky.xcodeproj -scheme Clicky build# 第三步:配置你的 Claude API Key# 在设置中填入你的 API Key# 访问 console.anthropic.com 获取 Key# 第四步:启动!# Clicky 会出现在你的菜单栏中# 设置一个全局快捷键(建议 Cmd+Shift+K)# 完成!现在打开任意软件,遇到不会的操作:# 按下快捷键 → 说话 → 等 AI 回答 → 看蓝色光标指引
不想自己编译?项目 Release 页面可能提供预编译版本(.app 文件),直接下载拖入 Applications 即可。
💡 关于 Windows 用户: 作者明确表示 Windows 版本已在开发路线图中(部分社区 fork 已经开始移植)。目前 Mac 用户可以抢先体验,Windows 用户可以先 Star 关注更新。 💰 费用说明:Clicky 本身免费开源。但调用 Claude API 需要付费(按用量计费)。轻度使用每月花费大约在 $2-$5 左右。也可以考虑接入第三方 Claude API 中转服务降低成本。
🎯 谁最需要 Clicky?
👩💻 设计师 / 产品经理 每天都在 Figma、Sketch、Prism 这些工具之间切换,每个软件的界面都不一样,每次更新都要重新适应。 📊 数据分析 / 运营人员 Excel 公式、Tableau 可视化、SQL 查询器……工具多且杂,经常遇到”我知道这个功能存在但找不到在哪”的情况。 🧑💻 开发者(尤其是换语言/框架时) 新接手一个项目,IDE 配置、构建脚本、部署流程……老鸟带新人最痛苦的就是这些环境问题,Clicky 可以充当”虚拟导师”的角色。 👨🏫 教父母/长辈用手机电脑的人 这是我个人最看好的场景。想象一下:以后爸妈遇到不会的操作,不再需要你远程视频指导(”不对不是那个按钮!往右一点!再往右!」),而是他们自己对着 Clicky 说一句就能得到答案。光是这个场景就值得一个 Star。 🔄 频繁换软件的人 自由职业者、创业者、数码爱好者——你们的生活就是不断接触新工具。Clicky 能大幅缩短每一个新工具的上手时间。
🙋♂️ 我的看法:这不是一个工具,是一种新的交互范式
过去十年,我们与 AI 的交互方式经历了三次进化:第一代:在网页聊天框里打字问问题第二代:集成到各个 App 内部的 Copilot/Assistant 功能第三代(正在发生):AI 不再等待你来找它,而是主动存在于你的工作空间中,随时准备响应
Clicky 属于第三代的早期代表。它的本质创新不在”屏幕识别”技术本身(OCR 和视觉模型早就有了),而在于交互范式的转变——从”你去找 AI”变成”AI 就在你身边”。
但我也有三个诚实的评价:
⚠️ 目前只支持 Mac — Windows 和 Linux 用户暂时无法体验。考虑到全球 PC 市场份额 Windows 占 70%+,这是一个明显的限制。但 Windows 版已经在路上了。 ⚠️ 依赖 Claude API — 目前后端绑定 Claude,意味着你需要 Anthropic 的 API Key 且网络通畅。对于国内用户来说这可能是一个障碍(虽然有各种中转方案)。未来如果能支持更多 LLM 后端(比如本地模型)会更友好。 ⚠️ 仍在快速迭代中 — 作为一个 10 天的新项目,它肯定还有 bug、边界情况和性能问题。早期 adopter 需要有一定的折腾心理准备。但这也意味着你有机会影响它的开发方向(开源项目的魅力)。
我对这个方向的预测:
🎯 今年内会出现更多”常驻式 AI 伴侣”类应用,覆盖更多平台和场景 🎯 操作系统层面可能会原生集成类似的”AI 观察者”能力(macOS / Windows 都在往这个方向走) 🎯 “屏幕理解”会成为 AI Agent 的基础能力之一,类似现在的”文本理解”和”图像理解” 🎯 隐私保护技术(本地化处理、联邦学习)会成为这类产品的核心竞争力 🎯 企业培训场景会大量采用此类技术——新员工入职不用再看几十页手册,AI 导师跟着他操作即可
以后的 AI 不是你去打开的一个网页 而是一直坐在你旁边的那个人
💬 来聊聊
你有没有过被某个软件搞得怀疑人生的经历? 最后是怎么解决的?找了教程?问了朋友?还是干脆放弃了? 如果有一个 AI 一直坐在你旁边看着你的屏幕,你最想让它帮你做什么?👇评论区聊聊你的想法
🔔 每天挖掘一个 GitHub 上真正值得用的开源神器
AI 工具实测 · 开源项目深挖 · 科技圈前沿动态 · 效率提升干货
↓ 点「关注公众号」,下一个爆款工具不错过
夜雨聆风