AI 编程工具变了:从写代码,到推进任务

过去的几周里，围绕 AI 编程的工具更新明显多了起来。

这里说的 AI 编程工具，主要指的是 Codex 和 Claude Code 这类产品：它们不是单纯的代码补全插件，而是能读项目、改文件、运行命令、调用工具，并参与一段开发流程的 Agent 型编程工具。

如果只看单个功能，你大概会觉得这只是又一轮版本迭代。Codex 新增了 /goal 这类任务目标功能，让工具可以围绕一个明确目标持续推进；Claude Code 推出了 Routines，让一些重复任务可以按照时间、API 调用或 GitHub 事件自动触发。除此之外，Codex 还在加强权限配置和插件工作流，Claude Code 则在加强代码审查、执行钩子和多 Agent 协作。

这些变化看起来分散，但摊开对比以后，会看到一个更明显的趋势：

AI 编程工具正在从"帮你写代码"，变成"帮你持续推进一段开发任务"。

这也延续了我最近几篇文章里的判断。4 月 28 日那篇讲的是，模型竞争正在从回答能力转向任务交付能力；4 月 30 日那篇讲的是，当 Agent 开始执行真实任务，工程约束和 Harness 就会变得更重要。

今天这篇文章想继续看具体产品层面的变化：Codex 和 Claude Code 最近到底更新了什么，又为什么都在往工作流方向走。

更新不只是功能点

Codex CLI 稳定版已经到 0.128.0。单独看某个功能，可能只是一次普通的迭代；但把这几个功能放在一起看，Codex 的定位正在发生变化。

先看 /goal 这个功能。这是 Codex 里用来记录和推进任务目标的功能。表面上看，它像是一个目标管理命令，但它背后实际的变化是：AI 编程正在从"这一轮对话里你让我做什么"，走向"这个项目里我持续要完成什么"。

一次 prompt 通常只对应当前这轮对话，而 Codex 的 /goal 是把一个任务目标固定下来，让工具围绕它持续跟踪进展、组织后续动作。这已经不只是对话式交互了。

举个例子，过去你可能会这样问：

> 帮我修一下登录页刷新后会丢失会话的问题。

这更像一次普通请求。Codex 做完一轮修改以后，任务是不是已经完成、测试有没有跑、相关边界有没有检查，仍然需要用户继续追问。

但如果把它写成一个 /goal，表达方式就会更像：


/goal 修复登录页刷新后丢失会话的问题。
要求：
1. 找到会话丢失的原因；
2. 修改前端和后端相关代码；
3. 补充或更新测试；
4. 运行相关测试；
5. 最后给出改动说明和验证结果。

这时，重点不只是“让模型回答一次”，而是让工具围绕这个目标持续推进，直到它能说明自己做了哪些修改、跑了哪些验证、还有哪些风险没有处理。

再看权限 profiles、插件工作流、外部 agent 会话导入、MultiAgentV2。这里的权限 profiles，可以理解成不同任务场景下的权限配置；插件工作流，是让外部插件参与到 Codex 的执行过程里；外部 agent 会话导入，则是把其他 agent 做过的事情接入当前任务上下文。

这些概念本身并不陌生，但被放进 Codex 以后，说明它已经不满足于做一个"命令行里的 AI 助手"了。它要处理的问题开始变多：任务怎么持续存在？权限怎么分层？插件怎么参与流程？不同 agent 的结果怎么汇入？用户怎么在多个执行单元之间切换？

Claude Code 这边，变化同样密集。Routines 是定时或事件触发的自动任务；/ultrareview 是更深入的代码审查命令；session recap 是长会话的摘要和续接能力。

再往下看，hooks 是把团队规则接入执行过程的钩子机制；MCP 是让 Claude Code 连接外部工具和数据源的协议；worktree 则用于隔离不同并行任务的工作目录。这些功能看起来分散，但放在一起看，Claude Code 也不再只是一个本地开发会话了。

Routines 让任务可以被定时或事件触发。/ultrareview 强化审查深度。recap 让长会话不至于在中途断掉。hooks 和 MCP 把外部规则和工具接入执行过程。worktree 用来隔离并行任务。/usage 则让成本变得透明。

这些能力加在一起，并不是单纯为了让模型更会写代码，而是在给 Agent 接手任务之前，先把周围的脚手架搭好。

只会写代码已经不够

早期 AI 编程工具最容易展示的能力是写代码。你给需求，它生成函数；你贴报错，它帮你修。这些当然有价值，但都只是局部能力。

进入真实项目以后，一个任务往往是另一种形态：先理解项目结构，再判断改动边界，然后拆解步骤，修改多个文件，运行测试，根据失败结果调整，最后总结改动、提交或等待审查。整条链路跑下来，比的不只是模型能不能写出正确代码，而是工具能不能把这条链路稳住。

所以 Codex 和 Claude Code 都在围绕工作流继续完善产品。代码生成只是其中一环，更难的是任务持续推进时，工具能不能帮 Agent 记住目标、管理上下文、控制权限、调用工具、验证结果，并处理执行失败。

反过来想，如果这些能力跟不上，Agent 写代码越强，用户反而越不踏实。它能改更多文件、运行更多命令、调用更多工具，也就意味着它能影响更多状态。这时候用户真正在意的问题会变成：它知道该改哪里吗？会不会越过任务边界？改完以后验证了吗？失败以后会不会一路乱试？中间过程看得到吗？做错了以后能回退吗？

这些问题，靠模型本身解决不了。还需要产品设计、工程机制和 Harness 一起承担。

Codex：让任务持续推进

Codex 这轮更新里，我最关注的不是某个具体命令，而是它在让任务更容易被"托管"。

这里说的托管，不是把任务丢给 AI 就不管了。更准确地说，是用户不用把每一步都盯死，而是可以把一段任务交出去，让工具在明确边界里继续推进。

这和普通对话式 AI 不一样。对话里，你问一句它答一句；你不继续追问，任务就停在那里。但开发工作天然不是一轮问答就能收尾的。

比如修一个复杂 bug。Agent 需要先阅读 issue 里的问题描述，再查看日志，定位相关代码，修改实现，运行测试，最后根据测试结果继续调整。中间任何一步都可能出岔子。如果每一步都要用户手动推动，AI 不过是换了个人敲键盘而已。

/goal 功能的价值就在这里。它把任务从"对话里的临时请求"变成"工具持续跟踪的目标"。Codex 不只是等你下一句 prompt，而是围绕目标组织后续动作。

权限 profiles 同样关键。这里的 profile 可以理解成一套预设的权限方案。当 Agent 只负责生成建议时，权限不是大问题。但一旦它开始执行命令、修改文件、接入外部工具，权限就不能只靠一句"请谨慎操作"了。读代码、写文档、运行测试、安装依赖、访问外部服务、修改配置，这些动作的风险等级完全不同，不该被放在同一个权限层里。

权限 profiles 不是个小功能。它意味着 Codex 已经开始把 Agent 的操作边界当成一个产品问题来认真处理。

Claude Code：把开发过程串成链

Claude Code 这边，我更关注的是它怎么把开发过程组织起来。

它一直有一个很强的特质：本地开发现场感。它知道项目结构，能读文件、改代码、运行命令，也能通过 hooks 接入规则，通过 MCP 接入外部工具。hooks 可以理解成工具执行前后的拦截点，MCP 则是把外部工具和数据源接进 Claude Code 的协议。你把它放进真实项目，它不是在旁边聊天，而是真的参与开发过程。

但这也带来一个新问题：它越能参与开发过程，就越不能只管"动手改"这一件事。

Routines 是一个明确的信号。它让任务不再只发生在"你打开终端的那一刻"。每天的代码审查、依赖检查、测试巡检、文档更新、PR review，都可以配置成定时或事件触发。Claude Code 正在接近一种"开发自动化代理"的形态。

具体怎么配置？Routines 不是写在项目里的某个普通配置文件，而是 Claude Code 的云端任务配置。你可以在网页端进入 claude.ai/code/routines，点击 New routine 创建；也可以在 Claude Code 命令行里用 /schedule 创建一个定时任务，比如 /schedule daily dependency check at 8am。如果你想让 routine 通过 API 调用或 GitHub 事件触发，通常需要到网页端继续编辑触发器。

桌面端也可以创建，但要注意选择 New remote task。如果选的是 New local task，那是本机定时任务，不是运行在 Anthropic 云端的 Routine。

比如你可以创建一个每天早上自动检查项目的 Routine。创建时，需要填三类东西：它要执行的 prompt，要关联的代码仓库，以及触发方式。prompt 可以写成这样：


每天早上 8 点运行：
检查这个仓库最近 24 小时的改动。
重点看三件事：
1. 是否有明显的安全风险；
2. 是否有测试缺口；
3. 是否有依赖版本或配置变更需要人工确认。
最后输出一份简短报告，并在需要时创建 issue 或评论到对应 PR。

触发方式可以选定时，比如每天早上 8 点；也可以加 GitHub 触发器。比如每次有新 PR 创建时，让 Claude Code 按团队自己的 checklist 先做一轮审查，检查权限、数据库迁移、外部 API 调用和测试覆盖，再把结果留在 PR 评论区。

但自动跑只是第一步。自动跑的任务最怕两件事：方向跑偏，以及跑完以后没人知道质量怎样。

所以 /ultrareview 要提高代码审查质量，recap 要让长会话在中断后仍然能够继续，/usage 要让成本可见，hooks 要让团队把规则写进执行过程，worktree 要给并行任务划出隔离带。

这些功能合在一起，回答的是一个很实际的问题：如果 AI 真的开始替团队跑任务，怎么保证它不是"跑了就算"，而是过程能被看见，结果也能被审查？

路线不同，难题相同

两家的路线并不完全重合。

Codex 更像是在搭一个更大的工作台：命令行工具、桌面端、浏览器控制、computer use、任务侧栏、PR review、memories、remote connections、多终端。这里的 computer use，指的是让工具能够操作图形界面和浏览器；PR review 指的是参与代码合并前的审查；memories 则是让工具保留一些长期偏好或项目记忆。

这些能力放在一起，说明 Codex 的扩张方向，是围绕开发任务提供一个更完整的工作环境。

Claude Code 更像是从终端往外扩展：先把代码现场吃透，再通过 Agent Teams、Routines、hooks、MCP、worktree，把本地开发组织成更复杂的执行流。Agent Teams 解决的是多个 agent 如何分工协作；Routines 解决的是任务如何自动触发；worktree 解决的是并行任务之间的文件隔离。

一个从平台走向工作流，一个从开发现场走向自动化。

但走到最后，它们都会遇到同一道难题：Agent 越能执行任务，越需要明确的规则和边界。

这不是抽象概念，而是非常具体的工程问题：谁定义任务目标？谁决定工具能不能调用？谁限制高风险动作？谁验证执行结果？谁保存和清理记忆？谁处理失败和回退？谁审查最终交付？

如果这些问题没有答案，AI 编程工具就会一直卡在"很聪明但不太放心"的阶段。

所以我越来越觉得，AI Coding 的竞争不会只发生在模型层面。模型重要，但工具最终能不能进入真实项目，取决于它能不能把模型能力放进一套可控的工作流。

用法也该跟着变

过去聊 AI 编程的最佳实践，基本都在讲 prompt，也就是我们给模型的任务指令：需求写清楚，约束写明确，让模型先解释再动手，改完让它总结。这些依然有用，但已经不够了。

如果今天重新谈 Codex 和 Claude Code 的最佳实践，我会更在意这几件事：

任务要有锚点。 不要只说"帮我优化一下这个模块"。写清楚目标、边界、验收标准、不该碰的地方。Codex 的 /goal、Claude Code 的 /plan 和 recap，都在强化这一点。/plan 是让 Claude Code 先生成执行计划，recap 则是让长会话在暂停之后还能恢复上下文。

权限要分层。 读文件、生成 patch、运行测试、安装依赖、修改配置、访问外部系统，风险完全不同。这里的 patch 指的是代码改动建议。别把所有动作都丢给一个全权限 Agent。能只读就只读，能建议就先建议，高风险动作必须确认。

验证要嵌进流程，不是事后补救。 写代码要跑测试，改配置要检查影响，生成文档要能追溯来源。Agent 越能自动执行，越不能让它自己宣布"我完成了"就算数。

长任务要有中断点。 同一类错误反复出现、同一批文件被连续修改、验证连续失败，这些都是该停下来交给人看的信号。别让 Agent 一路猜下去。

并行任务要隔离。 Claude Code 的 worktree、Codex 的多会话和多终端，都在处理这个问题。多个任务并行时，不能挤在同一个工作目录、同一个上下文里。

过程要可回溯。 AI 编程麻烦的地方不是它改错一次，而是你不知道它从哪一步开始改错。任务日志、review、recap、commit 粒度、变更说明，这些不是形式主义，而是后面能不能接管和回退的基础。

这些已经不是"怎么把 prompt 写好"的问题了，而是"怎么把 Agent 放进一套工程流程里"的问题。

用 AI 编程，也得开始管流程了

这轮变化里还有一个容易被忽略的点：当 Codex 和 Claude Code 都开始支持更长任务、更复杂工作流、更多自动化以后，AI 编程就不只是"使用一个工具"，而更接近"运营一套流程"。

你得决定哪些任务适合交给 Agent，哪些必须由人处理；哪些可以自动跑，哪些必须审批；哪些结果可以直接合并，哪些只能作为建议；哪些记忆应该长期保留，哪些需要及时清理。

这会让 AI 编程变得更复杂。但所有进入生产环境的技术，最后都会走这条路。

一开始大家关注它能不能跑。然后关注它跑得快不快。再后来，就会关注它能不能稳定运行、能不能被管理、出了问题能不能查清楚。

AI 编程走到今天也到了这一步。当它只是补全工具时，我们只关心速度；变成 Agent 以后，我们开始关心边界；等它开始承接一段工作流，规则、权限和责任就都要跟上。

写在最后

Codex 和 Claude Code 都不想只做一个写代码工具了。

它们正在变成两套不同形态的 AI 编程工作流。

Codex 在强化任务托管：目标、权限、插件、多会话、桌面端、浏览器和计算机控制，让用户可以把更大的任务交出去。

Claude Code 在强化开发流程：计划、执行、审查、复盘、定时任务、hooks、MCP、worktree，让 AI 更深地切入开发现场。

路线不同，但它们关注的问题越来越接近：AI 编程的重心，正在从"模型能不能写代码"转向"工具能不能稳定交付任务"。

接下来值得关注的，不只是 Codex 又多了哪个命令、Claude Code 又多了哪个功能，而是这些功能有没有被组织成一套可靠的工程工作流。

好用的 AI 编程工具，不会只是一个更聪明的聊天窗口。它会是一套能被托管、能被验证、也能被约束的执行系统。

这大概才是 Codex 和 Claude Code 这轮更新背后，更值得认真看的信号。

如果这篇对你有用，建议点个关注。

我会持续把 AI 编程领域的工具、方法和趋势拆成「最短上手闭环 + 坑点清单 + 复用配置」，让你少走弯路。

公众号 · 智享科技社