最近 Codex App 的表现,确实有点让我惊喜。
我先说清楚,这篇不是工具站队,也不是要证明谁替代谁。我自己也不是 Claude Code 的重度用户,所以不会硬写成“Claude 输了、Codex 赢了”这种对比文。
这篇更像是一篇真实体验笔记:最近我在用 Codex App 跑一些实际任务时,明显感觉它的工作方式变了。
以前用 AI 写代码,很多时候还是人在盯着 AI 干活。你让它改一个地方,它改完;你再让它修一个问题,它继续;中间还要不断提醒它项目结构、上下文、不要乱改文件、记得跑验证。
但最近用 Codex App,我的感受开始不一样了。
它越来越不像一个普通的聊天式代码助手,而更像一个 AI 开发工作台。你不是在一句一句问它,而是在给它派任务。你给它一个目标,它会自己阅读项目、拆解任务、修改文件、运行命令、检查结果,必要时还会拉起多个 agent 一起推进。
这就是我最近觉得 Codex App 最有价值的变化:它不是单次回答变聪明了,而是开始具备“围绕目标持续干活”的感觉。
真正变了的不是写代码,而是工作方式

如果只是写一个函数、补一段代码,今天很多 AI 工具都能做到。
真正做项目时,麻烦的往往不是“写代码”本身,而是它要先理解项目,再拆解任务,再修改文件,再跑命令,再看报错,再继续修复。
这个过程如果每一步都需要人盯着,那 AI 其实还是一个高级补全工具。
但 Codex App 最近让我感觉,它正在往“长期执行型 Agent”这个方向走。
尤其是最近 /goal 这类命令出来之后,这个趋势更明显了。它不是让 AI 简单回答你一句话,而是让 AI 围绕一个目标持续推进。这个变化,对真实开发和真实工作都很重要。
因为对我们这种做项目、做方案、做产品的人来说,最需要的不是 AI 偶尔惊艳一下,而是它能不能稳定地把一件事往前推。
以前我更关心 AI 会不会写代码。
现在我更关心的是:它能不能自己把活干完一部分,减少我盯它的时间。
多 agent 最有价值的地方,是省掉“盯工时间”

我这次最直观的一次体验,是 Codex App 在一个任务里直接拉起了 6 个 agent。

有的在 running,有的在 review,有的等待下一步指令,有的继续处理子任务。整个过程看起来不像一个 AI 在单线程回答我,而更像一个小型任务队列在持续推进。
这件事给我的触动挺大。
以前我用 AI 做复杂任务,最累的不是等它输出,而是要一直盯着它有没有跑偏。它改了哪些文件?有没有乱动无关代码?报错有没有继续修?测试有没有跑?这些都要人反复检查。
但多 agent 工作流的意义就在这里:它省的不是单纯的计算时间,而是人盯它的时间。
当一个 agent 负责理解结构,一个 agent 负责执行修改,一个 agent 负责检查结果,主线程再做汇总时,整个过程就更接近真实团队里的分工协作。
当然,它还不是完全自动驾驶,也不是你丢给它任务就可以彻底不管。关键节点还是要人来判断方向,尤其是涉及架构调整、业务逻辑、数据安全、生产环境变更时,不能放任它乱跑。
但至少在开发辅助、旧项目整理、功能补全、Bug 修复、测试验证这些场景里,它已经比传统聊天式 AI 更接近“可持续干活”的状态了。
我现在常用的三种提示词分级

这段不是教程,更像是我最近用下来沉淀的一套简单方法。
第一种,是读项目级。
当我新打开一个项目,或者隔了很久重新接手一个项目时,我不会一上来让它改代码,而是先让它读项目。
我一般会这样写:
先阅读这个项目,告诉我整体架构、启动方式、主要模块,以及你建议我优先关注的 3 个问题。
这一步的目的不是立刻产出代码,而是先看它能不能理解项目。它能不能说清楚入口文件、核心模块、依赖关系和启动方式,基本决定了后面任务能不能跑顺。
第二种,是修明确问题级。
当我已经知道要修什么问题时,我会给它一个边界很清楚的任务。
比如:
请只修改必要文件,修复当前登录接口报错。改动前先说明计划,改动后运行测试或启动命令验证。
这里最重要的是三句话:只修改必要文件,改动前说明计划,改动后运行验证。
这能避免它一上来大改,也能让它在动手之前先把思路亮出来。对真实项目来说,这个习惯很重要。
第三种,是目标推进级。
当我要它完成一个稍微完整一点的任务时,我会这样写:
目标:完成设备运维 Agent 的最小 MVP。要求:保留现有架构,先完成故障输入、知识库检索、维修建议输出、结果记录四个核心能力。每一步都要验证,不要做无关重构。
这种写法的重点不是“描述得很长”,而是把目标、边界和完成标准说清楚。
我现在越来越觉得,用 AI 干活不是提示词越复杂越好,而是任务颗粒度要对齐。
简单任务,就让它快速处理。
明确问题,就给它边界和验证要求。
复杂目标,就让它围绕目标持续推进。
我推荐大家试 Codex App,但不要把它当成普通聊天工具

我推荐大家最近认真试试 Codex App,不是因为它适合所有人,也不是因为它能替代所有工具。
而是因为它已经值得被放进你的 AI 工作流里,认真跑一次真实项目。
不要只拿它问几个小问题,也不要一上来就让它“重构整个项目”。最好的方式,是拿一个真实项目,从读项目、修问题、推目标这三步开始试。
你会很快感受到它和普通聊天式 AI 的区别。
普通聊天式 AI 更像一个随叫随到的问答助手。
而 Codex App 最近给我的感觉,更像一个可以被派活的开发工作台。
它能不能完全放手?还不能。
它会不会犯错?一定会。
但它能不能减少你在重复开发、项目整理、问题修复上的消耗?我最近的答案是:可以,而且越来越明显。
还有一个很现实的点,是它目前给我的使用感比较放得开。相比那种每次长任务都要担心额度、担心跑到一半不够用的体验,Codex App 最近让我更敢把任务交给它跑久一点。
这一点对真实工作很重要。
因为长任务最怕的不是慢,而是你不敢让它持续跑。
不是替代谁,而是分工正在重写

Claude、Cursor、Codex、OpenClaw,每个工具都有自己的适合场景。有些适合讨论方案,有些适合快速补全,有些适合做项目级开发,有些适合构建长期工作流。
我最近真正想清楚的是另一件事:
AI 工具的竞争,正在从“谁回答得更好”,变成“谁更能进入真实工作流”。
谁能理解目标,谁能稳定执行,谁能少让人盯着,谁就更接近真正的生产力工具。
Codex App 最近打动我的地方,正是在这里。
它不是简单变成了一个更会写代码的 AI,而是开始像一个能长期干活的 AI 工作台。
最后用一句话总结我的体验:
Codex App 最近最让我惊喜的地方,不是它更会写代码了,而是它开始能围绕目标持续干活了。
这对个人开发者、小团队、产品经理、技术方案人员来说,都是一个很值得关注的变化。
你最近用 AI 写代码,最大的痛点是什么?
是上下文容易丢,还是它经常乱改文件?
如果你也试过 Codex App,可以聊聊你的真实体验。
夜雨聆风