每次学新软件都看教程看到头大?这个AI工具直接看你屏幕,你卡在哪它就知道,还手把手教你-夜雨聆风

每次学新软件都看教程看到头大?这个AI工具直接看你屏幕,你卡在哪它就知道,还手把手教你

🎯 我先问你一个问题：你上一次打开一个新软件，完全靠自己摸索学会它，花了多长时间？

😤 打开Figma/Prisma/Notion，界面像飞机驾驶舱一样复杂 😤 看了三遍图文教程还是不知道那个功能藏在哪个菜单下面 😤 视频教程里演示的版本跟你装的不一样，按钮位置全变了 😤 问ChatGPT”XXX软件怎么导出PDF”，它给你的步骤是两年前的旧版界面 😤 让远程的朋友帮忙看屏幕教你操作，但不好意思总麻烦人家

这些问题的根源只有一个：现有的所有”教我用软件”的方式，都无法理解你此刻眼前看到的到底是什么。 教程是通用模板，视频是别人录的截图，ChatGPT连你的屏幕长什么样都不知道——它们都在”盲人摸象”。

前天我在 GitHub 上刷到了一个叫 Clicky 的开源项目，看完它的演示视频后我愣了整整十秒钟。因为它做的事情听起来太疯狂了——一个AI老师，就住在你的鼠标光标旁边，实时看着你的屏幕，你问什么它都能立刻回答，甚至会用一个蓝色的光标帮你指出”你要找的按钮就在这儿”。

更离谱的是：这个项目才上线 10 天，已经拿下了 3900+ 星。而且我在搜狗微信搜索里翻了三遍——目前公众号上没有任何一篇文章介绍过它。这意味着你是第一批知道这件事的人之一。

🔍 一句话解释：一个住在你光标旁边的AI老师

Clicky 是一个 macOS 菜单栏应用（Windows 版已在开发中）。安装后它会常驻在你的菜单栏，像一个安静的小助手随时待命。但它最核心的能力不是坐在那里等——而是它能看见你在干什么。

❌ 传统方式学软件： 遇到问题 → 打开浏览器搜索 → 筛选教程 → 对照着文字描述在界面上找 → 找不到对应的位置 → 再搜一遍 → 循环崩溃

✅ 用 Clicky 的方式： 按下快捷键 → 对着电脑说出你的问题 → Clicky 截取你的当前屏幕发给 AI 分析 → AI 直接告诉你”你现在看到的界面里，那个按钮在第几行第几个”→ 甚至用一个 蓝色半透明光标 帮你指着目标位置

▲ 你有没有这种经历：打开一个新软件，界面密密麻麻全是按钮和菜单，看了三遍教程还是不知道该点哪里……

区别在哪？传统方式是你去适应教程，Clicky 是让 AI 来适应你眼前的具体画面。

技术栈：Swift 开发 / Claude API 驱动智能 / MIT 完全开源 / macOS 10.15+ 支持。作者是 Farzaa，一位专注于 AI 工具链的独立开发者。项目地址：github.com/farzaa/clicky

🛠️ 它到底能做什么？（5大能力逐一拆解）

（每个能力我都先说”没有它时”的问题，再说”有了它之后”的效果，方便你感受差距）

① 实时屏幕观察 —— AI 终于”看见”你在看什么了

没有它时：你问 ChatGPT “Prisma 里怎么设置渐变填充”，它给你一堆步骤：”点击左侧工具栏第三个图标→选择填充选项→调整渐变参数……” 但你盯着自己的屏幕——左侧工具栏哪来的第三个图标？你的界面跟它描述的根本不一样。

有了 Clicky：当你按下快捷键提问时，Clicky 会自动截取你当前屏幕的真实画面，连同你的语音问题一起发送给 Claude API。AI 回复的内容是基于它亲眼看到的你的界面生成的——不再是凭空想象的通用步骤。

💡 这解决了一个根本性的痛点：所有软件都有多个版本、多种皮肤布局、不同的语言设置。传统教程只能描述一种情况。但 Clicky 的 AI 看到的是你这台电脑上、这个版本、这套配置下的真实界面。一步到位，不用翻译。r> 这就像以前你需要跟客服描述”我的电脑出了个问题”（对方完全靠猜），现在你可以直接把屏幕转给对方说”你看就是这个”。

② 蓝色光标指引 —— “你要找的东西就在这里”

没有它时：AI 费劲地描述”在顶部菜单栏找到 File 旁边的 Edit 选项，然后下拉到第五个 Preferences……” 你在屏幕上一行一行地数，眼睛都快花了。

有了 Clicky：AI 不只是用文字告诉你——它会生成一个蓝色的半透明光标，直接出现在你的屏幕上，精准指向目标 UI 元素。就像有一个真人站在你身后，伸出手说”就是这里”。

这个设计太聪明了。人类的大脑处理视觉定位的速度远快于处理文字描述。与其让 AI 用50个字描述一个按钮在哪里，不如让它直接把光标移过去——零歧义，零误解。

③ 语音交互 —— 动嘴不动手

没有它时：遇到问题时你需要：切换窗口 → 打开浏览器 → 输入搜索关键词 → 筛选结果 → 切回软件 → 尝试操作 → 不对再切回去搜。光是上下文切换就已经消耗了大量精力。

有了 Clicky：按一下快捷键，直接对着电脑说话。”这个表格怎么筛选出上个月的数据？” “这个图层的透明度在哪调？” Clicky 录下你的语音 + 当前屏幕截图，一起发给 AI 处理。全程不需要打字，不需要切换窗口，你的视线始终保持在正在操作的软件上。

💡 为什么这很重要：当你在一个复杂的软件里工作时，每一次窗口切换都会打断你的心流（Flow State）。Clicky 的设计哲学是把 AI 帮助变成一个不打断你工作流的动作——按一下、说一句、得到答案、继续干活。整个过程不超过10秒。

④ 上下文记忆 —— 它记得你之前在干嘛

没有它时：每次问 AI 问题都是全新的对话。”刚才那个筛选条件怎么设来着？” AI 完全不知道你在说什么，你得从头再描述一遍背景。

有了 Clicky：因为它始终在你的屏幕旁边，它可以维护一个持续的工作会话。它记得你5分钟前在做表格筛选，记得你刚才问了关于图层的问题。当你追问”那如果我想同时应用到其他 sheet 呢？”，它知道”其他 sheet”是什么意思——因为它一直在看着你的操作历史。

⑤ 多场景适配 —— 不只是一个软件老师

Clicky 的能力不限于”教你怎么用软件”。基于屏幕观察+AI分析的架构，它可以应用于：

🎨 设计审查 — “我这个配色方案有没有对比度不够的地方？” AI 直接看你的设计稿给出反馈 📊 数据分析 — “这张图表里的异常数据是什么原因？” AI 看着你的 Excel 图表做解读 🐛 代码 Debug — “这个报错信息是什么意思？」AI 看着你的 IDE 终端错误输出给方案 📝 写作校对 — 「这段文案读起来通顺吗？」AI 看着你文档编辑器里的内容提修改建议 🌐 外语界面 — 遇到全英文/日文软件看不懂？直接问「这个页面是干什么的」，AI 帮你翻译并解释每个区域的功能

▲ Clicky的工作方式：住在你光标旁边，实时看你的屏幕，你问什么它答什么，甚至能用蓝色光标帮你指出该点的按钮在哪

⚖️ 学软件的方式对比

维度	看图文教程	问 ChatGPT/Claude	用 Clicky
能看到你的真实界面？	❌ 不能	❌ 不能	✅ 实时截屏分析
回答针对你的具体版本？	⚠️ 取决于教程新旧	❌ 给的是通用步骤	✅ 基于你的实际界面
需要切换窗口？	❌ 要来回切	❌ 要切换到浏览器	✅ 快捷键一键唤起
输入方式	阅读文字	手动打字	✅ 语音直接说
能否直观指出位置？	❌ 只能用文字描述	❌ 同左	✅ 蓝色光标直接指
有上下文记忆？	❌ 无	⚠️ 需要在同一对话内	✅ 持续观察你的操作

⚠️ 一个绕不开的问题：它在看你的屏幕，安全吗？

说到这里，一定有人在想：“等等，这个东西一直在截我的屏？那我的密码、聊天记录、银行账户岂不都被它看见了？”

这个问题非常重要，也是 Clicky 作为开源项目的核心优势所在——所有东西都是透明的，没有任何黑箱。

🔒 本地优先设计 — 截图和录音首先在你的设备上处理，只有在你主动按下快捷键发起提问时才会发送到 AI API 🔒 开源可审计 — MIT 协议完全开源，任何人都可以查看源码确认它到底在收集什么、发送什么。闭源的同类产品你做不到这一点 🔒 API Key 自管理 — 你使用自己的 Claude API Key（或自建的 API 中转），数据流向完全由你自己控制 🔒 可控的触发机制 — 它不会偷偷截屏。只有在你主动触发（按下快捷键）时才会捕获画面和声音

⚠️ 不过需要诚实说明：如果你使用官方 Claude API，你的截图数据确实会经过 Anthropic 的服务器。如果你对隐私极其敏感，可以考虑：(1) 使用本地部署的 LLM 替代 Claude；(2) 只在非敏感场景下使用。开源的好处就是你如果有能力，完全可以自己魔改后端。对比闭源竞品：很多商业化的”AI 助手”软件也在截屏上传，但你根本不知道它们的后端在干什么、数据存了多久、谁有权限访问。Clicky 至少让你知道一切。

💡 怎么用起来？（3步搞定）

前提条件：一台 Mac（macOS 10.15+） + 一个 Claude API Key

# 第一步：克隆项目git clone https://github.com/farzaa/clicky.gitcd clicky# 第二步：安装依赖并用 Xcode 构建# 如果你没有 Xcode，可以从 App Store 免费下载xcodebuild -project Clicky.xcodeproj -scheme Clicky build# 第三步：配置你的 Claude API Key# 在设置中填入你的 API Key# 访问 console.anthropic.com 获取 Key# 第四步：启动！# Clicky 会出现在你的菜单栏中# 设置一个全局快捷键（建议 Cmd+Shift+K）# 完成！现在打开任意软件，遇到不会的操作：# 按下快捷键 → 说话 → 等 AI 回答 → 看蓝色光标指引

不想自己编译？项目 Release 页面可能提供预编译版本（.app 文件），直接下载拖入 Applications 即可。

💡 关于 Windows 用户： 作者明确表示 Windows 版本已在开发路线图中（部分社区 fork 已经开始移植）。目前 Mac 用户可以抢先体验，Windows 用户可以先 Star 关注更新。 💰 费用说明：Clicky 本身免费开源。但调用 Claude API 需要付费（按用量计费）。轻度使用每月花费大约在 $2-$5 左右。也可以考虑接入第三方 Claude API 中转服务降低成本。

🎯 谁最需要 Clicky？

👩‍💻 设计师 / 产品经理 每天都在 Figma、Sketch、Prism 这些工具之间切换，每个软件的界面都不一样，每次更新都要重新适应。 📊 数据分析 / 运营人员 Excel 公式、Tableau 可视化、SQL 查询器……工具多且杂，经常遇到”我知道这个功能存在但找不到在哪”的情况。 🧑‍💻 开发者（尤其是换语言/框架时） 新接手一个项目，IDE 配置、构建脚本、部署流程……老鸟带新人最痛苦的就是这些环境问题，Clicky 可以充当”虚拟导师”的角色。 👨‍🏫 教父母/长辈用手机电脑的人 这是我个人最看好的场景。想象一下：以后爸妈遇到不会的操作，不再需要你远程视频指导（”不对不是那个按钮！往右一点！再往右！」），而是他们自己对着 Clicky 说一句就能得到答案。光是这个场景就值得一个 Star。 🔄 频繁换软件的人 自由职业者、创业者、数码爱好者——你们的生活就是不断接触新工具。Clicky 能大幅缩短每一个新工具的上手时间。

🙋‍♂️ 我的看法：这不是一个工具，是一种新的交互范式

过去十年，我们与 AI 的交互方式经历了三次进化：第一代：在网页聊天框里打字问问题第二代：集成到各个 App 内部的 Copilot/Assistant 功能第三代（正在发生）：AI 不再等待你来找它，而是主动存在于你的工作空间中，随时准备响应

Clicky 属于第三代的早期代表。它的本质创新不在”屏幕识别”技术本身（OCR 和视觉模型早就有了），而在于交互范式的转变——从”你去找 AI”变成”AI 就在你身边”。

但我也有三个诚实的评价：

⚠️ 目前只支持 Mac — Windows 和 Linux 用户暂时无法体验。考虑到全球 PC 市场份额 Windows 占 70%+，这是一个明显的限制。但 Windows 版已经在路上了。 ⚠️ 依赖 Claude API — 目前后端绑定 Claude，意味着你需要 Anthropic 的 API Key 且网络通畅。对于国内用户来说这可能是一个障碍（虽然有各种中转方案）。未来如果能支持更多 LLM 后端（比如本地模型）会更友好。 ⚠️ 仍在快速迭代中 — 作为一个 10 天的新项目，它肯定还有 bug、边界情况和性能问题。早期 adopter 需要有一定的折腾心理准备。但这也意味着你有机会影响它的开发方向（开源项目的魅力）。

我对这个方向的预测：

🎯 今年内会出现更多”常驻式 AI 伴侣”类应用，覆盖更多平台和场景 🎯 操作系统层面可能会原生集成类似的”AI 观察者”能力（macOS / Windows 都在往这个方向走） 🎯 “屏幕理解”会成为 AI Agent 的基础能力之一，类似现在的”文本理解”和”图像理解” 🎯 隐私保护技术（本地化处理、联邦学习）会成为这类产品的核心竞争力 🎯 企业培训场景会大量采用此类技术——新员工入职不用再看几十页手册，AI 导师跟着他操作即可

以后的 AI 不是你去打开的一个网页而是一直坐在你旁边的那个人

💬 来聊聊

你有没有过被某个软件搞得怀疑人生的经历？最后是怎么解决的？找了教程？问了朋友？还是干脆放弃了？如果有一个 AI 一直坐在你旁边看着你的屏幕，你最想让它帮你做什么？👇评论区聊聊你的想法

🔔 每天挖掘一个 GitHub 上真正值得用的开源神器

AI 工具实测 · 开源项目深挖 · 科技圈前沿动态 · 效率提升干货

↓ 点「关注公众号」，下一个爆款工具不错过