最新版 Codex App 在 Windows 下为符合条件的用户支持了电脑操作能力。结合已有的浏览器操作能力,Codex 可以打开网页、检查页面、点击按钮、填写表单、查看截图,也可以在桌面应用里操作窗口、菜单和输入框。再加上 ChatGPT 手机 App 对电脑端 Codex 的连接能力,用户离开电脑后也能继续查看进度、回复提示和批准下一步。
浏览器自动化、RPA、远程桌面、Computer Use 和各种 Agent 框架都能覆盖其中一部分能力。Codex App 的进阶用法,是把“打开浏览器”和“操作电脑”放回同一个任务过程里:先理解文件和上下文,再进入页面或桌面应用执行操作,最后根据结果继续修正。
先看这两项能力的更新脉络
从 OpenAI 官方发布信息看,浏览器操作和电脑操作并不是一次性补齐,而是沿着“进入 Codex App、增强交互验证、扩展到跨设备和 Windows”的路径逐步展开。
进阶用法:从给出结果到验证结果
很多人已经习惯让 Codex 读文件、改代码、跑命令。进阶使用的区别在于,不把任务停在“改完了”这一步,而是继续要求它进入结果现场。
一个更完整的任务可以这样交给 Codex:
1. 先根据文件、终端输出和上下文判断要改哪里。 2. 修改代码、配置、文案或数据。 3. 启动服务、运行脚本,确认基础检查通过。 4. 打开浏览器验证页面、流程和视觉状态。 5. 必要时进入桌面应用检查生成文件或 GUI 行为。 6. 把截图、测试结果、变更说明和仍需人工判断的部分一起交回来。
关键不在于多跑几个步骤,而是让 Codex 负责“验证闭环”。它改完之后要去看结果;看见问题要继续修;遇到权限、敏感数据、发布、删除这类高风险动作,再停下来问人。
浏览器操作:让 Codex 进入真实网页
浏览器操作适合发生在 Web 页面里的任务。Codex 的 in-app browser 适合本地开发页面、文件预览和不需要登录的公开页面。如果页面依赖登录态、浏览器扩展或你自己的浏览器资料,则需要改用常规浏览器或 Codex Chrome extension。
有了浏览器操作,Codex 可以做这些事:
• 打开 localhost上的本地服务。• 进入指定页面或功能模块。 • 点击按钮、切换标签、填写表单。 • 检查页面是否报错、空白或布局错乱。 • 截图并根据页面状态继续调整。 • 在页面上针对某个区域留下视觉反馈。 • 验证修改后的交互流程是否真的可用。
这对开发者有用,也不只对开发者有用。产品经理可以让 Codex 检查后台流程;运营可以核对活动页;测试同学可以复现用户路径;数据同学可以检查报表页面;内容团队可以确认发布效果。
浏览器操作的重点,是让 Codex 看到真实页面结果。页面有没有打开、按钮能不能点、表格有没有溢出、图表有没有刷新,都可以回到浏览器里确认。
电脑操作:让 Codex 走出浏览器
浏览器之外,很多真实工作发生在桌面应用里。比如 Windows 应用、办公软件、数据库客户端、配置工具、模拟器、安装器、内部系统客户端,以及一些没有 API 的老系统。
电脑操作能力让 Codex 可以观察屏幕、移动鼠标、点击、输入、切换窗口,并根据界面变化继续执行任务。它补上的是浏览器之外的那部分工作。使用前通常需要安装 Computer Use plugin,并允许 Codex 使用目标应用。
适合使用电脑操作的场景包括:
• 检查一个 Windows 桌面应用是否正常启动。 • 在办公软件里打开文档、表格或演示稿做视觉检查。 • 操作一个只能通过图形界面配置的工具。 • 复现只在 GUI 里出现的问题。 • 使用没有插件、没有 API、没有命令行入口的数据源。 • 完成跨多个应用的流程,例如网页下载文件后用本地软件打开检查。
在 Windows 下要注意一点:电脑操作运行在当前活动桌面上。也就是说,当 Codex 操作电脑时,它会接管前台鼠标和键盘输入,并不是后台静默运行。它更适合执行明确、范围可控的 GUI 任务;如果你还要同时使用电脑,可以考虑让它在虚拟机或另一台设备里运行。Windows Computer Use 发布初期也有地区和账号资格限制,实际以 Codex App 内的可用状态为准。
手机连接电脑端:离开电脑后继续盯任务
ChatGPT 手机 App 中的 Codex 入口,可以连接正在运行 Codex 的电脑端或远程环境。手机端更像一个移动控制台。
项目文件、终端、浏览器、桌面应用、凭据和本地环境仍然留在电脑端。手机端负责查看任务进展、继续对话、补充说明、批准动作和调整方向。
典型流程是:
1. 在电脑端打开 Codex,并启动一个任务。 2. Codex 在电脑上读文件、跑命令、开浏览器或操作桌面应用。 3. 用户离开电脑后,在手机上查看实时状态。 4. 如果 Codex 需要确认,用户直接在手机上回复。 5. 回到电脑前,再查看完整结果和本地环境。
这对长任务很有价值。比如 Codex 正在打开多个页面检查问题,或者正在桌面应用里核对生成文件,你不用一直坐在电脑前盯着。手机端让你在关键节点介入。
怎么做到的
可以把 Codex 操作浏览器和电脑的过程理解成四个连续动作:看见、理解、行动、验证。
第一步是看见。
Codex 可以读取文件、终端输出、页面状态、截图或桌面画面。对于浏览器,它可以看到页面结构和渲染结果;对于电脑操作,它可以看到屏幕上的窗口、按钮、菜单和输入框。
第二步是理解。
Codex 会把当前看到的内容和用户目标放在一起判断:现在在哪个页面,目标是什么,哪个按钮可能相关,当前结果是否符合预期,下一步应该继续、重试,还是停下来问人。
第三步是行动。
行动可以是改文件、运行命令、点击按钮、输入文字、切换窗口、下载文件,也可以是打开某个应用或进入某个 GUI 流程。
第四步是验证。
行动之后,Codex 会重新观察结果:页面是否变了,报错是否消失,文件是否生成,按钮是否可点击,文档是否打开。如果结果不对,它可以继续修正;如果涉及高风险动作,它应该停下来等用户确认。
所以,浏览器操作和电脑操作的价值,不只是“会点”,而是把点击、输入、观察和修正放进同一个任务闭环里。
几个更具体的应用场景
打开浏览器检查活动页
假设运营团队要上线一个促销活动页,页面里有倒计时、优惠券按钮、商品卡片、跳转链接和移动端适配。过去通常要人工在浏览器里一项项点:按钮能不能点,链接有没有跳错,移动端会不会横向溢出,价格和文案有没有挡住。
可以这样交给 Codex:
“打开本地活动页预览,分别用桌面和移动端视口检查首屏、优惠券区域和商品列表。重点看按钮是否可点击、文案是否溢出、跳转链接是否正常。发现问题后截图说明,并给出需要修改的位置。”
这里主要用浏览器操作。Codex 可以先跑一轮基础检查,把明显的页面问题、交互问题和视觉问题找出来。
注意点是:涉及价格、库存、优惠规则这类业务口径,仍然需要人最终确认。
从网页后台导出数据,再操作 Excel 核对
很多团队每天都要从后台导出订单、客户、库存或投放数据。这个流程通常横跨网页后台和本地表格软件:先进入后台,选择日期,导出文件,再用 Excel 打开检查列名、行数、汇总金额或异常值。
可以这样交给 Codex:
“打开订单后台,筛选昨天的数据并导出 CSV。下载后用 Excel 打开,检查是否包含订单号、支付金额、退款状态三列,统计总行数和支付金额合计,最后把结果整理成一段日报摘要。”
这个场景会同时用到浏览器操作和电脑操作。浏览器负责后台筛选和下载,电脑操作负责打开本地文件、检查表格呈现或辅助核对。
注意点是:如果后台涉及敏感数据、客户信息或生产操作,应该让 Codex 停在导出或提交前,由人确认权限和范围。
在浏览器里复现一个界面问题
很多问题不是看日志就能发现的。比如用户反馈:“点击保存后页面没有反应”“筛选条件切换后图表不刷新”“弹窗关闭后页面卡住”。这类 bug 往往需要按照真实路径走一遍。
可以这样交给 Codex:
“打开客户管理页面,按用户反馈的路径复现问题:进入客户详情,修改备注,点击保存,再回到列表检查备注是否更新。记录每一步看到的页面状态,如果复现成功,截图并定位可能相关的前端或接口代码。”
这里先用浏览器操作复现问题,再结合文件和命令能力去查代码、跑测试或修复。Codex 可以把“用户描述”变成“可复现步骤”,这对测试、客服、产品和开发之间的协作很有用。
注意点是:不要让 Codex 在真实客户数据上随意修改。最好使用测试账号、测试环境或可回滚的数据。
打开桌面应用检查报告、PPT 或 PDF
AI 很擅长生成内容,但交付物常常还需要最后一轮格式检查。比如 Word 报告分页乱了,PPT 标题压住图表,PDF 里的表格超出页面,Excel 图表显示不完整。
可以这样交给 Codex:
“打开刚生成的季度经营分析 PPT,逐页检查标题、图表、表格和页脚是否重叠。重点看第 3、5、8 页的数据图是否完整显示。发现问题后截图,并直接修改源文件直到预览正常。”
这个场景主要用电脑操作,也可能结合文件编辑能力。它适合内容团队、运营、咨询顾问、项目经理和数据分析同学。
注意点是:Codex 可以检查版式和明显错误,但对结论是否准确、表达是否符合组织口径,仍然需要人审核。
操作一个没有命令行入口的本地工具
很多工具必须靠图形界面配置,比如数据库客户端、浏览器插件、证书工具、模拟器、VPN/代理工具、企业内部客户端。它们可能没有好用的 API,也没有稳定脚本入口。
可以这样交给 Codex:
“打开这个数据库客户端,进入连接设置,检查当前连接是否指向测试环境。只读取配置,不要修改。把主机、端口、数据库名截图并总结出来。”
这个场景适合电脑操作。需要给它一个明确窗口、明确目标和明确禁止事项。
注意点是:涉及密钥、密码、生产地址时,要提前说明不要复制、不要提交、不要保存敏感信息。
让电脑继续跑,手机端接力盯进度
有些任务不是一步完成的。比如 Codex 要检查十几个页面,修一组 UI 问题,跑完整测试,再打开浏览器确认结果;或者要打开多个文件做视觉核对。你不可能一直坐在电脑前等。
可以这样使用:
“检查后台里这 10 个页面的移动端布局问题,能修的直接修,修完逐页截图验证。如果中途需要安装依赖、访问外网或执行高风险命令,先停下来问我。”
任务开始后,电脑端继续执行。你离开工位后,可以在手机 App 里查看进度、回复问题、批准低风险动作,或者让它调整方向。
这个场景的关键是手机让你在关键节点继续参与:电脑负责执行,手机负责判断。
使用建议
第一,把目标说成流程,而不是一句模糊要求。
不要只说“看看这个页面”,可以说“打开订单列表,筛选今天的数据,检查导出按钮是否可用,并截图说明结果”。
第二,把范围限制清楚。
告诉 Codex 只操作哪个页面、哪个应用、哪个文件夹、哪个流程。范围越清晰,结果越可靠。
第三,先用结构化工具,再用视觉操作补缺口。
如果 API、命令行、脚本或插件能稳定完成任务,优先用它们。浏览器操作和电脑操作更适合没有接口、需要视觉判断或必须走 GUI 的环节。
第四,要求它验证结果。
进阶使用要强调结果检查,例如截图、运行测试、打开生成文件、重新走一遍流程。
第五,高风险动作必须人工确认。
涉及付款、删除、发布、权限变更、生产数据、敏感系统时,让 Codex 停在确认前。它可以准备材料、展示上下文、说明风险,但最终决策应该由人来做。
第六,善用手机端续航。
手机端适合看进度、补充说明、批准低风险操作;复杂审查、视觉细节和高风险操作,最好回到电脑前处理。
边界和风险
Codex App 的浏览器操作和电脑操作很有用,但它不是万能自动化。
页面可能加载慢,按钮可能变化,桌面应用可能弹窗,截图可能不完整,某些流程也可能因为权限或登录态无法继续。尤其是电脑操作,它会真实影响当前桌面状态,所以不能把它当成无风险的后台脚本。
更好的使用方式是:让 Codex 做繁琐、重复、可观察、可回退的工作,把关键授权、业务判断和最终交付确认留给人。
可以把一部分“我知道该怎么做但很耗时间”的工作,交给一个可以观察、执行和反馈的本地 agent。
结语
判断 Codex App 是否值得进阶使用,可以先看自己的日常工作里有没有这几类任务:
• 每天都要重复打开同一批页面检查状态。 • 改完东西后,总要手动刷新页面、截图、确认布局。 • 资料生成后,还要打开 Word、Excel、PPT 或 PDF 检查格式。 • 某些工具只能靠图形界面点进去看。 • 长任务跑到一半,经常只是等一个确认或补一句说明。
如果答案是有,浏览器操作和电脑操作就值得试一试。你不需要一开始就让 Codex 接管复杂流程,可以先从一个很小的任务开始:打开页面看一眼、复现一个路径、检查一份导出的表、确认一个 PPT 有没有错位。
用得好的关键也很简单:目标说清楚,范围收窄,结果要验证,高风险动作停下来问人。让 Codex 先跑完那些“明知道怎么做,但很耗时间”的步骤。
参考资料
• OpenAI,《Introducing the Codex app》,2026 年 2 月 2 日;包含 Codex App 首次发布信息,以及 2026 年 3 月 4 日 Windows 可用性的更新说明:https://openai.com/index/introducing-the-codex-app/ • OpenAI,《Codex for (almost) everything》,2026 年 4 月 16 日;说明 Codex App 加入 in-app browser,并在 macOS 上引入 Computer Use:https://openai.com/index/codex-for-almost-everything/ • OpenAI,《Work with Codex from anywhere》,2026 年 5 月 14 日;说明 ChatGPT 手机 App 中 Codex 的移动端连接、实时状态、审批和远程接续能力:https://openai.com/index/work-with-codex-from-anywhere/ • OpenAI Help Center,《ChatGPT Release Notes》,2026 年 5 月 21 日和 2026 年 5 月 29 日;说明 in-app browser annotations、browser-use improvements、Mac locked computer use,以及 Windows Computer Use 和 Windows 远程跟进:https://help.openai.com/en/articles/6825453-chatgpt-release-notes • OpenAI Developers,《In-app browser - Codex app》;说明 in-app browser 的适用范围、登录限制、Browser use 能力和网站 allow/block 设置:https://developers.openai.com/codex/app/browser • OpenAI Developers,《Computer Use - Codex app》;说明 Computer Use 的适用场景、Windows 前台接管、插件安装、应用授权、安全建议和 macOS locked use:https://developers.openai.com/codex/app/computer-use
夜雨聆风