别再用文字描述界面了,Appshots让Codex直接看现场
你有没有过这种时刻,浏览器上明明就是一个很小的 UI bug,想让 Codex 修一下,结果你写了五行字还没讲清楚那个按钮在哪、是什么颜色、旁边还有哪几个字。
图也截了,还得补一句:
「就是右上角那个红色按钮,不是左边那个。」
更尴尬的是,写完以后 Codex 回你一句,它没看到图。
你忘了粘贴。
这事听起来很蠢,可用 AI 写代码的人大多都吃过这个亏。写代码有时候不难,难的是把当前现场交代清楚。5 月 21 号那次 Codex 更新里,OpenAI 放了一个小功能,名字叫 Appshots。
它的答案很简单:
在 Mac 上打开你要给 Codex 看的窗口,同时按下左右两个 Command 键,把前台窗口的截图和可用文字一起送进 Codex。
你可以先把它理解成「给 AI 拍一张工作现场照」。
以前你让 AI 帮你修一辆车,得先口述发动机在左边、排气管在右边、前灯有点歪。现在你把车推进车库,它自己先看一眼。
一、先说清楚:Appshots 到底抓什么
Appshots 不是普通截图工具。
普通截图只是图片。Appshots 发给 Codex 的,是当前最前面的那个窗口。里面通常有两样东西:
窗口可见部分的截图。 这个窗口能提供出来的文字,包括屏幕上看得见的文字,以及部分应用在滚动区域外也能提供的文字。
注意,我这里用了「能提供出来」这几个字。不是所有软件都能把隐藏文字完整交出来。比如 Google Docs、Gmail、Google Sheets、Google Slides 这类网页应用,有时候 Codex 可能只拿到可见截图,拿不到完整文档文本。这个地方不要吹太满。
但就算只拿到一张前台窗口截图,对修 UI、看设计稿、查报错来说,也已经比你干巴巴描述强很多。
以前你说:「页面左上角有个卡片,里面有个按钮,颜色不太对。」
Codex 心里想:哪个卡片?哪个按钮?颜色哪里不对?
现在你说:「看这个窗口,把按钮改成和其他主按钮一致。」
现场已经在那儿了,它至少不用先猜你在说谁。

过去靠嘴巴描述,现在把窗口直接递给 Codex。
二、第一次用,照这 6 步走
如果你是第一次用 Appshots,不要一上来就拿公司后台、客户数据、密钥页面测试。先找一个不涉及隐私的窗口,比如自己的本地预览页、一个公开文档页面,或者一个练手项目。
按这个流程来:
打开 Codex for Mac。 打开你要分享给 Codex 的应用窗口,比如浏览器、Figma、VS Code、Xcode 或终端。 确认这个窗口在最前面,不要被微信、邮件、聊天记录盖住。 如果你想让 Appshot 进到当前对话,先在这个 Codex 线程里随便发一句任务说明,然后在 60 秒内按快捷键。 同时按下左右两个 Command 键。 看到 Appshot 出现在 Codex 线程里以后,直接发任务,不要再复述一遍界面长什么样。
官方默认是「左右两个 Command 同时按」。如果你改过快捷键,就按你自己设置的 Appshots hotkey。
第一次触发时,macOS 可能会要权限。你重点看两个地方:
Screen & System Audio Recording,用来截取前台窗口画面。 Accessibility,用来读取前台窗口能提供的文字。
路径也给你写清楚:
System Settings → Privacy & Security → Screen & System Audio Recording / Accessibility → 打开 Codex Computer Use → 重启 Codex 再试这里很多人会卡住。不是 Appshots 不工作,而是权限没开,或者开了以后没重启 Codex。

先更新版本,再开权限,最后用短指令让 Codex 看现场。
三、实操一:让 Codex 先看懂 UI bug,再动手改
最适合练手的场景,就是修一个页面小毛病。
比如你有一个本地页面,按钮颜色不统一,移动端布局也有点挤。以前你可能会写:
「首页右上角按钮颜色应该改成白色,然后下面那个弹窗居中,移动端不要贴边。」
这句话不是不能用,但它太依赖你的描述。你说的右上角,Codex 不一定知道是哪个层级;你说的白色,它也不知道项目里有没有对应的 CSS 变量。
用 Appshots 的做法是这样:
浏览器打开本地页面 → 保持页面在最前面 → 左右 Command 同时按 → Appshot 进 Codex → 发下面这段 Prompt可以直接复制:
这张 Appshot 是当前页面状态。 先不要改代码。请你先做三件事: 1. 用 3 句话描述你看到了哪些主要 UI 区域。 2. 找出最可能影响按钮样式和弹窗位置的组件或 CSS 文件。 3. 给我一个最小修改方案,尽量沿用项目现有变量和组件写法。为什么先让它描述?
因为这一步像让维修师傅先复述故障。它如果连现场都没看对,后面改得再快也容易跑偏。
等 Codex 说清楚以后,你再发第二句:
按你刚才的最小修改方案开始改。 改完以后运行现有检查命令。 如果需要我再给你一张新的 Appshot 验收,请先停下来告诉我。这就比「帮我修一下这个页面」稳很多。
四、实操二:把 API 文档窗口直接递给 Codex
第二个场景,是看文档写代码。
以前你看一个 API 文档,要么复制一大段参数说明,要么把链接丢给 Codex,让它自己打开。问题是有些文档要登录,有些文档页面结构很复杂,还有些内容你只想让它看当前这一页。
Appshots 的用法就很顺:
打开 API 文档页面 → 滚到你关心的接口位置 → 左右 Command 同时按 → 把文档窗口给 CodexPrompt 可以这样写:
这张 Appshot 是我正在看的 API 文档。 请你只基于当前窗口里的信息,帮我整理: 1. 这个接口的用途。 2. 必填参数和可选参数。 3. 返回值里最关键的字段。 4. 一个 TypeScript 封装函数草稿。 如果 Appshot 里的信息不够,请明确告诉我缺哪一段,不要猜。最后一句很重要。
很多人用 AI 最大的问题,不是不会问,而是没有要求它「信息不够就停」。一停下来,你再补一张 Appshot,或者补一段文档,就行了。别让它一路猜到代码里。
如果你用 Hermes、Claude Code 或其他 Agent 工具,也是一样的思路。工具名字不同,核心动作没变:不要逼自己写长篇现场描述,先把现场给出去。
五、实操三:给长任务补一张现场照
我最建议老用户练的,是这个场景:长任务中途补现场。
Codex 现在有 /goal 这类长任务能力。你给它一个目标,它可能会跑很久。长任务麻烦的地方,不一定是模型不聪明,而是它跑到一半,看到的现场和你脑子里的现场已经不是同一个了。
页面刷新过。
数据库多了一条记录。
终端里起了另一个服务。
浏览器控制台又冒出一个新错误。
你如果还靠文字补一句「现在页面状态变了」,很容易漏掉关键东西。
这时 Appshots 像工地照片。以前包工头只能拿对讲机说,左边那堵墙歪了三厘米。现在拍一张照片过去,干活的人至少先知道现场长什么样。
长任务里可以这么用:
任务开始前:给 Codex 一张目标页面 Appshot,让它知道现在长什么样。 任务中途报错:给 Codex 一张终端或浏览器错误 Appshot,让它看现场。 任务快结束:给 Codex 一张新页面 Appshot,让它对照验收。配套 Prompt 也给你:
这是当前最新现场,不是任务开始时的状态。 请你对比你刚才的判断,重新确认: 1. 当前页面/终端里最重要的变化是什么。 2. 原计划里有没有需要调整的地方。 3. 下一步只做最小必要动作,不要扩大改动范围。这句话里的「不是任务开始时的状态」很关键。
Agent 很容易沿着旧上下文继续往下跑,你要明确告诉它:现场更新了,先重新看。

修 UI、看设计稿、补长任务现场,这三个场景最能体现 Appshots 的价值。
六、几个坑,先替你踩在纸上
第一个坑,前台窗口发错。
Appshots 抓的是前台窗口,不是你脑子里以为的那个窗口。按之前先看一眼,最上面是不是你要给 Codex 的页面。微信、邮件、客户后台、密钥页面,不该发就先切走。
第二个坑,权限只开了一半。
只开 Screen & System Audio Recording,可能能抓图,但文字读取不完整。只开 Accessibility,也不够。两个权限都检查,开完重启 Codex。
第三个坑,快捷键冲突。
如果你装了截图工具、窗口管理工具、键盘增强工具,左右 Command 可能会被别的软件抢走。没反应时,先去 Codex Settings 里看 Appshots hotkey,再看 macOS 权限。
第四个坑,在 CLI 里等它出现。
Appshots 是 Codex app 的 macOS 功能。你在 CLI 里恢复一个已经带 Appshot 的线程,历史附件还在;但 CLI 不能新建 Appshot。要新拍现场,回到 Codex app 里按快捷键。
第五个坑,把它当成万能读屏。
它能读取窗口可用文字,但不是所有 app、所有网页、所有隐藏区域都能完整读取。尤其是复杂网页应用,不够就补图、补文字、补链接。别把「能看现场」理解成「什么都能自动看全」。
七、学会它以后,你的 Prompt 会变短
Appshots 真正有意思的地方,不是按两下键盘多酷。
它提醒我们一件很朴素的事:AI 编程的输入,不会一直停在 prompt 上。过去一年大家都在琢磨怎么把提示词写得更细,怎么让模型更听话。可程序员每天卡住的现场,往往不是一句 prompt 能写清的。
页面长什么样。
终端报了什么错。
设计稿哪里对不上。
设置面板现在开到哪一层。
这些东西本来就该让机器自己看。
以后类似的能力肯定还会继续往前走。今天是前台窗口,明天也许会带上浏览器控制台、网络请求、Git diff、上一次运行结果,甚至自动对比你上次给它看的版本和现在实际跑出来的版本。
到那时,很多 prompt 的写法都会变短。
你不用再憋半天描述「当前页面长什么样」,只要把现场递过去,再说:
先看现场,再告诉我最小修改方案。如果你已经在用 Codex for Mac,现在就挑一个不涉及隐私的页面试一次。
打开页面,按左右 Command,发给 Codex 这句话:
请先描述你从这张 Appshot 里看到了什么,再判断我下一步最应该修哪里。不难。试完你会明显感觉到,最省的不是那几行字,而是少了一大截误会。
作品声明,个人观点,仅供参考。
#探寻人工智能# #技能改变生活#
新版发布包生成时间:2026-05-23。仅用于公众号草稿保存,不代表公开发布时间。
夜雨聆风