今天看到一个数据,挺扎心。
科技行业74%的CEO已经冻结或缩减入门级招聘。理由很直接:这些活AI已经能干了。
但你仔细想想,今天的AI能干的"入门级活",绝大多数还停留在写文档、写代码、回邮件。一个真正的实习生上手第一周要做的事——打开Figma截一张设计图发到Slack、在Notion里建个表把数据填进去、登录后台导出报表——AI能干吗?
不能。
因为这些事都发生在GUI里。AI会写10种语言的代码,却不会点屏幕上的一个按钮。
直到我看到了今天要介绍的这个Skill。

一个4490 star的开源项目,把macOS变成了AI的"键盘鼠标"
它叫 Peekaboo,发布在 ClawdHub 和 GitHub 上,作者是 Peter Steinberger——iOS圈知名开发者,前 PSPDFKit 创始人,做过苹果平台上最难的SDK之一。
这个人为什么去做这个工具?
因为他想明白了一件事:今天所有的AI Agent,本质上都是"键盘的延伸"——它们能在终端里跑命令,能写代码,能调API,但是一旦遇到只有GUI的应用(Photoshop、Figma、Excel、企业内部系统),它们就废了。
而Mac上99%的工作,都在GUI里。
Peekaboo做的事,简单粗暴:把macOS的每一个UI元素,都变成一个CLI命令。AI只需要会用命令行,就能驱动你的Mac。
它能做什么?看一段命令就懂了
举个例子,让AI"打开Safari,重新加载页面",传统方案要么写AppleScript(AI不会写),要么用复杂的Accessibility API(AI看不懂)。Peekaboo怎么干?
# 让AI先"看"一眼Safari
peekaboo see --app Safari --json
# AI从返回的JSON里找到"Reload this page"按钮的ID
peekaboo click --on "Reload this page" --snapshot $SNAPSHOT
# 想在文本框里填字?
peekaboo set-value --on T1 --value "hello" --snapshot $SNAPSHOT
# 想跑一个完整的自然语言任务?
peekaboo agent "打开备忘录,新建一个TODO列表,写三个项目"
注意最后一条命令——它直接接受自然语言。你不用告诉AI怎么做,它自己看屏幕、找按钮、点击、输入,一气呵成。
这才是Agent该有的样子。
横向比一比:Peekaboo凭什么赢?
我把同赛道的工具排了一下:
| 工具 | 能控原生App? | 跨App协作? | AI友好度 |
|---|---|---|---|
| AppleScript | ✅ | ✅ | ❌ AI不会写 |
| Selenium/Playwright | ❌ 只能控浏览器 | ❌ | ✅ |
| Hammerspoon | ✅ | ✅ | ❌ Lua门槛高 |
| Anthropic Computer Use | ✅ | ✅ | ✅ 但封闭loop |
| Peekaboo | ✅ | ✅ | ✅ CLI+MCP |
最关键的差别在最后一栏。
Peekaboo同时是CLI和MCP server。意思是:你可以让任何AI——Claude Code、Codex、Cursor,甚至本地的Ollama——都通过MCP协议直接调用它。AI不需要重新训练,不需要适配特定模型,只要支持MCP,就能开始操作你的Mac。
这就是为什么社区已经自发出现了 PeekabooWin(Windows版)和 PeekabooX(Linux版)—— 这套方法论可以复制到任何操作系统。
纵向看:Peekaboo怎么走到今天的
这个项目的演化路径,特别能说明一件事——最好的工具往往是"长"出来的,不是"设计"出来的。
1.0版本,它只是个截屏CLI。Peter Steinberger做这个工具的初衷,仅仅是想让AI能"看见"屏幕。
2.0版本,加入了Visual Question Answering——截完图扔给Claude或GPT-5.5问问题,"这个按钮在哪里?"
3.0版本,质变发生了。Peter发现,AI能"看见"还不够,还得能"动手"。于是加入了完整的UI操作命令树:click、type、scroll、hotkey、menu、window、app、dock、space……
每一个动作都是一个原子CLI,每一个原子CLI都能被MCP暴露出去。
这才是关键:他没有试图做一个"全能AI助手",他做的是给AI准备的"工具箱"。AI才是大脑,Peekaboo是手。

真正的"AI代替入门级工作",从今天开始
回到开头那个74%的数字。
为什么之前AI替代不了入门级工作?因为入门级工作大部分是GUI操作——打开应用、点按钮、复制粘贴、截图发群。AI写代码再厉害,遇到一个非程序员任务就傻眼。
Peekaboo填上了这最后一公里。
你可以让Claude Code直接:
- 打开Figma → 截屏 → 发到飞书群里
- 登录公司后台 → 导出报表 → 转成Excel → 发邮件
- 监控某个App的UI变化 → 出问题自动截屏 → 创建Jira工单
这些都是过去要靠人手动做的"零碎事"。现在,一句话+一个MCP配置,AI就能跑通整条流水线。
现在就能用,3分钟上手
安装方式有两种:
# 方式一:原生CLI(macOS 15+)
brew install steipete/tap/peekaboo
# 方式二:MCP server(让Claude Code/Cursor直接调用)
npx -y @steipete/peekaboo
如果你用的是Claude Code,把下面这段加到MCP配置里:
{
"mcpServers": {
"peekaboo": {
"command": "npx",
"args": ["-y", "@steipete/peekaboo"],
"env": {
"PEEKABOO_AI_PROVIDERS": "openai/gpt-5.5,anthropic/claude-opus-4-7"
}
}
}
}
接下来在Claude Code里输入"帮我打开Figma然后截屏发到Slack"——你会看到AI真的在你的Mac上动手做事。
⚠️ 需要授予macOS的"屏幕录制"和"辅助功能"权限。这两个权限确实敏感——它意味着AI能看到你屏幕上的一切,也能点击屏幕上的一切。装之前,建议用你信任的skill-vetter先扫一遍。
写在最后
每个时代都有它的"AI最后一公里"。
2023年是"AI能不能写出能跑的代码"——解决了。
2024年是"AI能不能记住你"——解决了一半。
2026年的最后一公里,是"AI能不能直接操作你的电脑"。
Peekaboo不是这个赛道唯一的玩家——Anthropic有Computer Use,OpenAI有Operator,但它们都是云端封闭loop,价格贵、隐私差、不可控。
而Peekaboo是开源的、本地跑的、所有AI都能用的、社区已经在自发rewrite的。
这才是开发者真正想要的样子。
最关键的——它今天就能装,今天就能用,不用排队。
📦 项目信息
- GitHub: github.com/steipete/peekaboo (⭐ 4490)
- ClawdHub: clawhub.ai/skills/peekaboo
- 作者: Peter Steinberger(@steipete)
- License: MIT
- 要求: macOS 15.0+ (Sequoia),需要屏幕录制+辅助功能权限
🛠️ 一行命令安装
brew install steipete/tap/peekaboo
🔐 安全提醒
任何能控制你屏幕的工具,权限给出去之前都要三思。Peekaboo是开源的、代码可审计的,但你装它之前,建议先用skill-vetter做一遍背调——AI圈最近的供应链投毒事件还历历在目。
*这里是AI思维训练营,AI每天都在出新东西,但真正能让你工作效率翻倍的没几个。我帮你筛掉99%的噪音,每天只讲一个值得装的。*
夜雨聆风