Codex App 进阶使用:让 AI 打开浏览器,也操作电脑

最新版 Codex App 在 Windows 下为符合条件的用户支持了电脑操作能力。结合已有的浏览器操作能力，Codex 可以打开网页、检查页面、点击按钮、填写表单、查看截图，也可以在桌面应用里操作窗口、菜单和输入框。再加上 ChatGPT 手机 App 对电脑端 Codex 的连接能力，用户离开电脑后也能继续查看进度、回复提示和批准下一步。

浏览器自动化、RPA、远程桌面、Computer Use 和各种 Agent 框架都能覆盖其中一部分能力。Codex App 的进阶用法，是把“打开浏览器”和“操作电脑”放回同一个任务过程里：先理解文件和上下文，再进入页面或桌面应用执行操作，最后根据结果继续修正。

先看这两项能力的更新脉络

从 OpenAI 官方发布信息看，浏览器操作和电脑操作并不是一次性补齐，而是沿着“进入 Codex App、增强交互验证、扩展到跨设备和 Windows”的路径逐步展开。

时间	主要更新
2026 年 2 月 2 日	Codex App 面向 macOS 发布，形成多 agent、本地项目、终端、文件、技能、自动化和沙箱权限管理的产品底座。
2026 年 3 月 4 日	OpenAI 在 Codex App 发布公告中更新说明：Codex App 已可用于 Windows。
2026 年 4 月 16 日	“Codex for almost everything” 发布。Codex App 加入 in-app browser；Computer Use 在 macOS 上出现，Codex 可以通过自己的光标看、点、输入并操作应用。
2026 年 5 月 14 日	Codex 进入 ChatGPT 手机 App 预览版，手机端可以连接正在运行 Codex 的 Mac host，继续线程、审批动作、查看输出和调整方向。
2026 年 5 月 21 日	浏览器能力增强，支持 in-app browser annotations 和 browser-use improvements；电脑操作增强为 Mac locked computer use。
2026 年 5 月 29 日	Codex App 面向符合条件用户支持 Windows 下的 Computer Use；用户也可以从 ChatGPT iOS、Android 或 Mac 继续跟进 Windows 工作流；in-app browser 的速度、稳定性和网页兼容性同步提升。

进阶用法：从给出结果到验证结果

很多人已经习惯让 Codex 读文件、改代码、跑命令。进阶使用的区别在于，不把任务停在“改完了”这一步，而是继续要求它进入结果现场。

一个更完整的任务可以这样交给 Codex：

1. 先根据文件、终端输出和上下文判断要改哪里。
2. 修改代码、配置、文案或数据。
3. 启动服务、运行脚本，确认基础检查通过。
4. 打开浏览器验证页面、流程和视觉状态。
5. 必要时进入桌面应用检查生成文件或 GUI 行为。
6. 把截图、测试结果、变更说明和仍需人工判断的部分一起交回来。

关键不在于多跑几个步骤，而是让 Codex 负责“验证闭环”。它改完之后要去看结果；看见问题要继续修；遇到权限、敏感数据、发布、删除这类高风险动作，再停下来问人。

浏览器操作：让 Codex 进入真实网页

浏览器操作适合发生在 Web 页面里的任务。Codex 的 in-app browser 适合本地开发页面、文件预览和不需要登录的公开页面。如果页面依赖登录态、浏览器扩展或你自己的浏览器资料，则需要改用常规浏览器或 Codex Chrome extension。

有了浏览器操作，Codex 可以做这些事：

• 打开 localhost 上的本地服务。
• 进入指定页面或功能模块。
• 点击按钮、切换标签、填写表单。
• 检查页面是否报错、空白或布局错乱。
• 截图并根据页面状态继续调整。
• 在页面上针对某个区域留下视觉反馈。
• 验证修改后的交互流程是否真的可用。

这对开发者有用，也不只对开发者有用。产品经理可以让 Codex 检查后台流程；运营可以核对活动页；测试同学可以复现用户路径；数据同学可以检查报表页面；内容团队可以确认发布效果。

浏览器操作的重点，是让 Codex 看到真实页面结果。页面有没有打开、按钮能不能点、表格有没有溢出、图表有没有刷新，都可以回到浏览器里确认。

电脑操作：让 Codex 走出浏览器

浏览器之外，很多真实工作发生在桌面应用里。比如 Windows 应用、办公软件、数据库客户端、配置工具、模拟器、安装器、内部系统客户端，以及一些没有 API 的老系统。

电脑操作能力让 Codex 可以观察屏幕、移动鼠标、点击、输入、切换窗口，并根据界面变化继续执行任务。它补上的是浏览器之外的那部分工作。使用前通常需要安装 Computer Use plugin，并允许 Codex 使用目标应用。

适合使用电脑操作的场景包括：

• 检查一个 Windows 桌面应用是否正常启动。
• 在办公软件里打开文档、表格或演示稿做视觉检查。
• 操作一个只能通过图形界面配置的工具。
• 复现只在 GUI 里出现的问题。
• 使用没有插件、没有 API、没有命令行入口的数据源。
• 完成跨多个应用的流程，例如网页下载文件后用本地软件打开检查。

在 Windows 下要注意一点：电脑操作运行在当前活动桌面上。也就是说，当 Codex 操作电脑时，它会接管前台鼠标和键盘输入，并不是后台静默运行。它更适合执行明确、范围可控的 GUI 任务；如果你还要同时使用电脑，可以考虑让它在虚拟机或另一台设备里运行。Windows Computer Use 发布初期也有地区和账号资格限制，实际以 Codex App 内的可用状态为准。

手机连接电脑端：离开电脑后继续盯任务

ChatGPT 手机 App 中的 Codex 入口，可以连接正在运行 Codex 的电脑端或远程环境。手机端更像一个移动控制台。

项目文件、终端、浏览器、桌面应用、凭据和本地环境仍然留在电脑端。手机端负责查看任务进展、继续对话、补充说明、批准动作和调整方向。

典型流程是：

1. 在电脑端打开 Codex，并启动一个任务。
2. Codex 在电脑上读文件、跑命令、开浏览器或操作桌面应用。
3. 用户离开电脑后，在手机上查看实时状态。
4. 如果 Codex 需要确认，用户直接在手机上回复。
5. 回到电脑前，再查看完整结果和本地环境。

这对长任务很有价值。比如 Codex 正在打开多个页面检查问题，或者正在桌面应用里核对生成文件，你不用一直坐在电脑前盯着。手机端让你在关键节点介入。

怎么做到的

可以把 Codex 操作浏览器和电脑的过程理解成四个连续动作：看见、理解、行动、验证。

第一步是看见。
Codex 可以读取文件、终端输出、页面状态、截图或桌面画面。对于浏览器，它可以看到页面结构和渲染结果；对于电脑操作，它可以看到屏幕上的窗口、按钮、菜单和输入框。

第二步是理解。
Codex 会把当前看到的内容和用户目标放在一起判断：现在在哪个页面，目标是什么，哪个按钮可能相关，当前结果是否符合预期，下一步应该继续、重试，还是停下来问人。

第三步是行动。
行动可以是改文件、运行命令、点击按钮、输入文字、切换窗口、下载文件，也可以是打开某个应用或进入某个 GUI 流程。

第四步是验证。
行动之后，Codex 会重新观察结果：页面是否变了，报错是否消失，文件是否生成，按钮是否可点击，文档是否打开。如果结果不对，它可以继续修正；如果涉及高风险动作，它应该停下来等用户确认。

所以，浏览器操作和电脑操作的价值，不只是“会点”，而是把点击、输入、观察和修正放进同一个任务闭环里。

几个更具体的应用场景

打开浏览器检查活动页

假设运营团队要上线一个促销活动页，页面里有倒计时、优惠券按钮、商品卡片、跳转链接和移动端适配。过去通常要人工在浏览器里一项项点：按钮能不能点，链接有没有跳错，移动端会不会横向溢出，价格和文案有没有挡住。

可以这样交给 Codex：

“打开本地活动页预览，分别用桌面和移动端视口检查首屏、优惠券区域和商品列表。重点看按钮是否可点击、文案是否溢出、跳转链接是否正常。发现问题后截图说明，并给出需要修改的位置。”

这里主要用浏览器操作。Codex 可以先跑一轮基础检查，把明显的页面问题、交互问题和视觉问题找出来。

注意点是：涉及价格、库存、优惠规则这类业务口径，仍然需要人最终确认。

从网页后台导出数据，再操作 Excel 核对

很多团队每天都要从后台导出订单、客户、库存或投放数据。这个流程通常横跨网页后台和本地表格软件：先进入后台，选择日期，导出文件，再用 Excel 打开检查列名、行数、汇总金额或异常值。

可以这样交给 Codex：

“打开订单后台，筛选昨天的数据并导出 CSV。下载后用 Excel 打开，检查是否包含订单号、支付金额、退款状态三列，统计总行数和支付金额合计，最后把结果整理成一段日报摘要。”

这个场景会同时用到浏览器操作和电脑操作。浏览器负责后台筛选和下载，电脑操作负责打开本地文件、检查表格呈现或辅助核对。

注意点是：如果后台涉及敏感数据、客户信息或生产操作，应该让 Codex 停在导出或提交前，由人确认权限和范围。

在浏览器里复现一个界面问题

很多问题不是看日志就能发现的。比如用户反馈：“点击保存后页面没有反应”“筛选条件切换后图表不刷新”“弹窗关闭后页面卡住”。这类 bug 往往需要按照真实路径走一遍。

可以这样交给 Codex：

“打开客户管理页面，按用户反馈的路径复现问题：进入客户详情，修改备注，点击保存，再回到列表检查备注是否更新。记录每一步看到的页面状态，如果复现成功，截图并定位可能相关的前端或接口代码。”

这里先用浏览器操作复现问题，再结合文件和命令能力去查代码、跑测试或修复。Codex 可以把“用户描述”变成“可复现步骤”，这对测试、客服、产品和开发之间的协作很有用。

注意点是：不要让 Codex 在真实客户数据上随意修改。最好使用测试账号、测试环境或可回滚的数据。

打开桌面应用检查报告、PPT 或 PDF

AI 很擅长生成内容，但交付物常常还需要最后一轮格式检查。比如 Word 报告分页乱了，PPT 标题压住图表，PDF 里的表格超出页面，Excel 图表显示不完整。

可以这样交给 Codex：

“打开刚生成的季度经营分析 PPT，逐页检查标题、图表、表格和页脚是否重叠。重点看第 3、5、8 页的数据图是否完整显示。发现问题后截图，并直接修改源文件直到预览正常。”

这个场景主要用电脑操作，也可能结合文件编辑能力。它适合内容团队、运营、咨询顾问、项目经理和数据分析同学。

注意点是：Codex 可以检查版式和明显错误，但对结论是否准确、表达是否符合组织口径，仍然需要人审核。

操作一个没有命令行入口的本地工具

很多工具必须靠图形界面配置，比如数据库客户端、浏览器插件、证书工具、模拟器、VPN/代理工具、企业内部客户端。它们可能没有好用的 API，也没有稳定脚本入口。

可以这样交给 Codex：

“打开这个数据库客户端，进入连接设置，检查当前连接是否指向测试环境。只读取配置，不要修改。把主机、端口、数据库名截图并总结出来。”

这个场景适合电脑操作。需要给它一个明确窗口、明确目标和明确禁止事项。

注意点是：涉及密钥、密码、生产地址时，要提前说明不要复制、不要提交、不要保存敏感信息。

让电脑继续跑，手机端接力盯进度

有些任务不是一步完成的。比如 Codex 要检查十几个页面，修一组 UI 问题，跑完整测试，再打开浏览器确认结果；或者要打开多个文件做视觉核对。你不可能一直坐在电脑前等。

可以这样使用：

“检查后台里这 10 个页面的移动端布局问题，能修的直接修，修完逐页截图验证。如果中途需要安装依赖、访问外网或执行高风险命令，先停下来问我。”

任务开始后，电脑端继续执行。你离开工位后，可以在手机 App 里查看进度、回复问题、批准低风险动作，或者让它调整方向。

这个场景的关键是手机让你在关键节点继续参与：电脑负责执行，手机负责判断。

使用建议

第一，把目标说成流程，而不是一句模糊要求。
不要只说“看看这个页面”，可以说“打开订单列表，筛选今天的数据，检查导出按钮是否可用，并截图说明结果”。

第二，把范围限制清楚。
告诉 Codex 只操作哪个页面、哪个应用、哪个文件夹、哪个流程。范围越清晰，结果越可靠。

第三，先用结构化工具，再用视觉操作补缺口。
如果 API、命令行、脚本或插件能稳定完成任务，优先用它们。浏览器操作和电脑操作更适合没有接口、需要视觉判断或必须走 GUI 的环节。

第四，要求它验证结果。
进阶使用要强调结果检查，例如截图、运行测试、打开生成文件、重新走一遍流程。

第五，高风险动作必须人工确认。
涉及付款、删除、发布、权限变更、生产数据、敏感系统时，让 Codex 停在确认前。它可以准备材料、展示上下文、说明风险，但最终决策应该由人来做。

第六，善用手机端续航。
手机端适合看进度、补充说明、批准低风险操作；复杂审查、视觉细节和高风险操作，最好回到电脑前处理。

边界和风险

Codex App 的浏览器操作和电脑操作很有用，但它不是万能自动化。

页面可能加载慢，按钮可能变化，桌面应用可能弹窗，截图可能不完整，某些流程也可能因为权限或登录态无法继续。尤其是电脑操作，它会真实影响当前桌面状态，所以不能把它当成无风险的后台脚本。

更好的使用方式是：让 Codex 做繁琐、重复、可观察、可回退的工作，把关键授权、业务判断和最终交付确认留给人。

可以把一部分“我知道该怎么做但很耗时间”的工作，交给一个可以观察、执行和反馈的本地 agent。

结语

判断 Codex App 是否值得进阶使用，可以先看自己的日常工作里有没有这几类任务：

• 每天都要重复打开同一批页面检查状态。
• 改完东西后，总要手动刷新页面、截图、确认布局。
• 资料生成后，还要打开 Word、Excel、PPT 或 PDF 检查格式。
• 某些工具只能靠图形界面点进去看。
• 长任务跑到一半，经常只是等一个确认或补一句说明。

如果答案是有，浏览器操作和电脑操作就值得试一试。你不需要一开始就让 Codex 接管复杂流程，可以先从一个很小的任务开始：打开页面看一眼、复现一个路径、检查一份导出的表、确认一个 PPT 有没有错位。

用得好的关键也很简单：目标说清楚，范围收窄，结果要验证，高风险动作停下来问人。让 Codex 先跑完那些“明知道怎么做，但很耗时间”的步骤。

参考资料

• OpenAI，《Introducing the Codex app》，2026 年 2 月 2 日；包含 Codex App 首次发布信息，以及 2026 年 3 月 4 日 Windows 可用性的更新说明：https://openai.com/index/introducing-the-codex-app/
• OpenAI，《Codex for (almost) everything》，2026 年 4 月 16 日；说明 Codex App 加入 in-app browser，并在 macOS 上引入 Computer Use：https://openai.com/index/codex-for-almost-everything/
• OpenAI，《Work with Codex from anywhere》，2026 年 5 月 14 日；说明 ChatGPT 手机 App 中 Codex 的移动端连接、实时状态、审批和远程接续能力：https://openai.com/index/work-with-codex-from-anywhere/
• OpenAI Help Center，《ChatGPT Release Notes》，2026 年 5 月 21 日和 2026 年 5 月 29 日；说明 in-app browser annotations、browser-use improvements、Mac locked computer use，以及 Windows Computer Use 和 Windows 远程跟进：https://help.openai.com/en/articles/6825453-chatgpt-release-notes
• OpenAI Developers，《In-app browser - Codex app》；说明 in-app browser 的适用范围、登录限制、Browser use 能力和网站 allow/block 设置：https://developers.openai.com/codex/app/browser
• OpenAI Developers，《Computer Use - Codex app》；说明 Computer Use 的适用场景、Windows 前台接管、插件安装、应用授权、安全建议和 macOS locked use：https://developers.openai.com/codex/app/computer-use