【导读】一个叫 TipTour 的开源 macOS 项目火了:按住快捷键说话,AI 就能看屏幕、点按钮、打字、改代码,圈哪改哪。它把 Gemini Live、computer-use driver 和 macOS 系统权限串成一条桌面执行链。与此同时,Google 正在用 Gemini Intelligence 把"主动替你处理琐事"推向手机、手表和笔记本——AI 的下一个入口,可能就在你鼠标旁边。
"我在逆向 Google 的 AI 鼠标,我要把它开源"
开发者 Milind S(@milindlabs)在 X 上发了一条帖子,开头就甩出一个大动作:
"I'm reverse-engineering the Google AI mouse pointer and making it Open Source!"
「我在逆向 Google 的 AI 鼠标指针,而且我要把它开源!」
他列出了这个项目的关键能力:看屏幕、理解窗口和应用、自由圈选区域让 AI 修改、点击、打字、编辑、导航,甚至写代码和执行代码。
"A tiny cursor becoming a real computer-use agent."
「一个小小的光标,正在变成真正的 computer-use agent。」
帖子里也提到了@trycua的 computer-use 开源基础设施和@BuildwithOmkarr的协作,并直接对 Google 喊话:
"Sorry @GoogleDeepMind but I had to do this."
「对不起 GoogleDeepMind,但我必须这么干。」


▲ 开发者 Milind S 在 X 上宣布逆向 Google AI 鼠标指针并开源
这个项目叫TipTour,已经在 GitHub 上开源。
TipTour 到底能干什么?
先看定位。项目 README 第一句就亮明身份:
"TipTour is a macOS menu bar companion that understands your screen, listens to your voice, and controls your computer for you."
「TipTour 是一个 macOS 菜单栏 companion——能理解你的屏幕、听你说话,并替你控制电脑。」
它驻留在 Mac 菜单栏上。用户按住快捷键Ctrl+Option开始说话,TipTour 就能执行操作:点击屏幕上的按钮、打字输入内容、打开 app和 URL、编辑选中的文字,以及对你用Ctrl+Shift+拖拽圈出的任意区域执行动作。
README 给了一组示例指令:
"Open Apple Notes and write a short essay"(打开备忘录写篇短文) "Change this word."(改这个词) "Move this over there."(把这个挪过去) "Click the Blank document."(点击空白文档) "Make this line sound softer."(让这句话语气更柔和) "Guide me through exporting this."(带我走一遍导出流程)
最后一条值得注意——TipTour 有一个Tour Guide 模式,打开后 AI 会像导游一样一步步教你操作,不会直接接管鼠标。

▲ TipTour GitHub 仓库页面,底部展示了实际操作效果
四层技术栈:语音→理解→定位→执行
TipTour 的架构拆开看是四个模块:
Gemini Live:负责实时语音识别、屏幕理解、转写和工具调用。用户说的每一条指令,Gemini Live 都能听懂并匹配当前屏幕上下文。
CUA Driver Core:负责真正的电脑控制——点击、打字、热键、打开 app、打开 URL、滚动、浏览器坐标定位,都由这个 driver 来执行。
macOS Accessibility:读取原生 app 的 UI 结构,做精确的文本和元素定位。这是它知道"这个按钮在哪、那段文字是什么"的关键一层。
Focus Highlight:处理"this part"式的局部指令。你用快捷键在屏幕上圈出一块区域,说"改这里",Focus Highlight 负责把"这里"翻译成具体坐标和内容上下文。
Gemini Live 提供理解力,CUA Driver 提供执行力,macOS Accessibility 提供结构感知,Focus Highlight 解决指代。四层串在一起,才能让"指着屏幕开口就能执行"变成现实。
底层的 driver 来自另一个开源项目CUA(trycua/cua)。CUA 的定位是 computer-use agent 的基础设施:
"Build, benchmark, and deploy agents that use computers."
「构建、测试和部署能操作电脑的 agent。」
Cua Driver 的目标是让 agent 在 macOS 上进行后台控制——点击、打字、验证,同时尽量不抢占用户的鼠标焦点。

▲ CUA 项目:computer-use agent 的开源基础设施
Google 也在推同一个方向
TipTour 不是 Google 官方项目。但它被叫做"开源版 Google AI 鼠标指针",背后有一个原因:Google 自己正在把 Gemini 往同一条路上推。
Gemini Intelligence官方页面这样写:
"Gemini Intelligence handles the busywork so you can focus on what matters to you."
「Gemini Intelligence 替你处理琐事,让你专注于真正重要的事。」
覆盖范围包括手机、手表、笔记本和汽车。Google 把方向摆在了台面上:AI 应该从对话框走出来,变成设备级别的主动执行层。

▲ Google 官方 Gemini Intelligence 页面:"The best of Gemini on our most advanced devices."
科技媒体 Smartprix 更进一步,把 Google 在 Android Show: I/O Edition 上展示的指针功能称为Magic Pointer,标题直接写:"Google's 'Magic Pointer' Just Killed the 50-Year-Old Cursor."
报道用了两个关键概念:Semantic Hover(语义悬停)和Visual Intent(视觉意图)。你用指针指着屏幕上的某个东西,说 "Fix this"、"Move that there"、"What does this mean?"——系统理解的是你指着的具体内容和上下文,不再是一个 x/y 坐标。

▲ Smartprix 报道:Google 的 Magic Pointer 正在重新定义鼠标指针
指针,正在从坐标工具变成理解视觉上下文和用户意图的 AI 入口。
AI cursor 正在变成一个小生态
TipTour 不是孤例。另一个产品Clicky的定位几乎一模一样:
"clicky sits right next to your cursor and sees everything you see."
「Clicky 就坐在你鼠标旁边,看你看到的一切。」
Clicky 也是 Mac 端的 AI companion,用户可以让它操作 Figma、After Effects、PDF、邮件,甚至在后台起一个 agent 帮你做 research 或 build 项目。

▲ Clicky:另一个"住在鼠标旁边"的 AI buddy
从 TipTour 到 Clicky,从 Google Gemini Intelligence 到 CUA 的开源 driver,一条线索越来越清晰:AI 正在从聊天框走向鼠标旁边的执行层。
兴奋归兴奋,权限问题绕不过去
这类工具有一个必须正面回答的问题:权限。
TipTour 要求的系统权限包括:麦克风、屏幕录制、辅助功能(Accessibility)、屏幕内容访问。源码编译还需要提供自己的Gemini API key,存在 macOS Keychain 里。
四项高敏权限全开。它能听你说话、看你屏幕、读 UI 结构、控制你的电脑。
开源降低了一部分黑箱问题——代码可审计、可自编译、数据流向可追溯。但开源本身无法自动解决所有安全边界。
还有一个容易忽略的风险:误操作。AI 在桌面上执行点击和输入,一旦理解错了指令——删错文件、发错消息、点错按钮——当 AI 离操作系统越近,犯错的代价就越高。
TipTour 提供了Autopilot 模式(默认开启,AI 自主执行)和Tour Guide 模式(AI 带你走,不自动执行),后者提供了一定程度的人工确认。但对于一个能控制电脑的 agent 来说,权限提示、可撤销机制和本地/云端边界,每一项都需要继续打磨。
鼠标指针 50 年来最大的一次身份转变
从 1973 年施乐 Alto 上第一次出现鼠标指针开始,这个箭头在屏幕上跑了超过 50 年。功能始终只有一个:表达位置,传递点击。
现在,箭头旁边多了一个 AI。它能看见屏幕内容,听懂语音,理解你圈出的区域,然后替你点击、打字、编辑、打开 app、改代码。
TipTour 让这个方向在开源桌面上有了一个可以跑的形态。Google 的 Gemini Intelligence 让这条路有了大厂在铺。
AI 的下一个入口,可能真的就在你鼠标旁边——你指着屏幕说"改这里",它就动手了。
— END —
夜雨聆风