Codex 的自我优化 Prompt:AI 助手开始学会积累经验

最近 Greg Brockman 转发了一段面向 Codex 的自我优化 prompt，标题很短：self improvement prompt for codex。

这段 prompt 本身不复杂。它要求 Codex 回看最近一段时间的工作记录，找出反复出现、耗时、容易出错、上下文很重的流程，然后把这些流程沉淀成最小可复用资产：skill、子 agent，或者自动化任务。

我觉得它值得单独拿出来写，不是因为这是一段“神奇提示词”，而是因为它指出了 AI agent 使用方式里的一个重要变化。

过去我们更多是在问：这次任务怎么让 AI 做好？

现在问题开始变成：如果类似任务会反复出现，能不能让 AI 把这类工作变成系统能力？

这就是从一次性助手，到可积累工作系统的转变。

AI 很会做事，但不一定会积累

今天的 Codex、Claude Code、Cursor 已经能完成很多具体工作：读代码、修 bug、写测试、查文档、生成脚本、整理文章、分析日志。

但很多人的使用方式仍然停留在“一次性会话”里。

你让它做一次，它完成了。下周遇到相似问题，你再解释一遍。换个项目、换个上下文，又从头开始。

这里真正浪费的，不是模型能力，而是流程没有被沉淀。

很多高频工作其实有固定结构。比如排查某类线上错误、整理某类技术资讯、发布某个平台内容、做代码审查、生成周报、分析竞品动态。

这些任务每次细节不同，但输入、步骤、判断标准和输出格式往往很稳定。

如果每次都重新解释，本质上是在把可以复用的工作，当成临时劳动来处理。

Greg 转发的这段 prompt，就是在提醒我们：AI agent 不只可以执行任务，也可以观察你反复执行的任务，并把它们变成下次可直接调用的能力。

它真正解决的不是 prompt，而是工作复利

这段 prompt 的核心不是“怎么写出一个更强的提示词”，而是给 Codex 一个自我审计流程。

它要求 Codex 先看证据，再决定要不要封装流程。

证据来自最近的会话、任务摘要、Memory、Chronicle，以及已经存在的 skills、custom agents 和 automations。也就是说，它不是让 AI 凭空想象“用户可能需要什么”，而是从真实工作记录里提取模式。

这点非常关键。

很多自动化失败，不是因为技术做不到，而是因为过早封装了错误的东西。一个只出现过一次的任务、一个输入不稳定的流程、一个输出标准不清晰的操作，都不适合马上做成 skill。

否则最后会得到一堆看起来很专业，实际没人复用的工具。

好的 agent 系统不是越自动化越好，而是把真正重复、真正稳定、真正有收益的流程沉淀下来。

这就是工作复利的起点。

先问这个流程值不值得封装

这段 prompt 里最有工程味的地方，是它没有鼓励 Codex 什么都创建。

它给了一组筛选标准：这个任务是否至少出现过两次，或者明显会再次出现且重复成本高；它是否有稳定输入、可复现步骤、清晰输出或停止条件；它是否能明显提升速度、质量、一致性或可靠性；它是否已经被现有能力覆盖。

这些标准看起来很保守，但很重要。

因为 agent 的能力越强，越容易让人产生一种错觉：只要能自动化，就应该自动化。

实际不是这样。

一次性的事情不值得封装。边界模糊的事情不值得封装。证据不足的事情不值得封装。涉及敏感信息、判断责任或高风险操作的事情，也不能轻易交给自动化。

真正成熟的自我优化，不是让 AI “不断创造新工具”，而是让它学会判断：哪些事情应该沉淀，哪些事情应该跳过。

跳过本身也是能力。

Skill、子 agent、自动化不是同一件事

这段 prompt 还有一个很好的地方：它没有把所有复用都叫做“自动化”。

不同类型的重复工作，应该沉淀成不同形态。

Skill 适合稳定流程。 比如“查询 AI 热点并整理成中文简报”“按项目规范做代码审查”“把技术文章发布成微信公众号草稿”。它更像一份可执行 SOP，强调步骤、边界和输出格式。

子 agent 适合专门角色。 比如“安全审查员”“性能瓶颈分析员”“竞品研究员”。它不一定是固定流程，而是一个边界清楚、可以委派的专业任务。

自动化适合定时触发。 比如每天早上抓取 AI 新闻、每周生成项目状态报告、定期检查某个网页或指标变化。它的重点不是“现在帮我做”，而是“到时间自动做”。

Skip 也应该被认真记录。 因为很多任务看起来能封装，实际上还没有足够证据。把它们放进“暂不创建”的清单，比急着做一个半成品更好。

这个分类很实用。它让 agent 的自我改进不再是抽象口号，而变成一套资产管理机制。

最小可用，胜过宏大系统

这段 prompt 反复强调一个原则：选择最小合适形态。

能扩展已有 skill，就不要新建一个重叠 skill。能写一个窄流程，就不要设计一个大平台。能先做一个小自动化验证价值，就不要一上来设计完整 agent 生态。

这和好的工程习惯是一致的。

系统能力不是靠堆概念堆出来的，而是从高频、稳定、可验证的小流程里长出来的。

一个真正有用的 skill，应该窄、清楚、可执行。它应该告诉 AI 在什么场景下使用，先看哪些证据，如何处理异常，什么时候必须停下来问人，以及最后应该产出什么。

如果一个 skill 什么都想管，它很快就会变成另一个需要维护的大问题。

所以这段 prompt 最值得借鉴的，不是“创建更多能力”，而是“克制地创建能力”。

对个人和团队意味着什么

如果你长期使用 Codex，这类自我优化 prompt 可以变成一个周期性维护动作。

比如每两周让 Codex 回顾一次最近工作，输出一份候选清单：哪些流程重复出现了，证据是什么，频率如何，推荐做成 skill、子 agent、自动化，还是应该跳过。

然后只落地最明确的一两个。

对个人来说，这会让 AI 使用从“临时帮忙”变成“持续建设”。你不再只是让 AI 完成眼前任务，而是在逐步搭建自己的工作系统。

对团队来说，它也很有价值。

团队里很多隐性流程，其实散落在聊天记录、PR 评论、项目复盘和个人经验里。让 agent 定期从这些记录里寻找重复模式，可以帮助团队发现哪些工作值得标准化，哪些操作容易出错，哪些经验应该写成 playbook。

但前提是要有边界。

自我优化不应该变成无节制的工具生成，也不应该让 AI 擅自处理高风险事项。它更适合做发现、建议、初步封装和低风险流程沉淀。涉及权限、对外发布、资金、合同、隐私和安全的流程，仍然需要明确的人类审查节点。

真正的变化：AI 开始参与维护工作系统

过去我们评价 AI 编程工具，主要看单次任务能力：它能不能修 bug，能不能写测试，能不能理解代码库。

但下一阶段，更重要的可能是工作记忆和流程复利。

如果一个 agent 能持续观察你的工作模式，它就可以逐渐理解：你经常怎么写文章，怎么查资料，怎么做代码变更，怎么验收结果，哪些流程总是需要同样的上下文，哪些错误你已经重复踩过。

当这些模式被沉淀下来，agent 就不再只是每次都很聪明，而是开始变得越来越懂你的系统。

这才是 Codex 这类工具最有想象力的方向。

它不是单纯替你写更多代码，而是把你的工作方法逐步产品化。

最后

Greg 转发的这段 prompt，看起来只是一小段提示词，但它指向的是一个更大的变化：AI agent 不再只是任务执行器，而是在逐渐成为工作系统的维护者。

它会观察、归纳、封装、跳过，并在必要时把经验变成可复用能力。

对开发者和知识工作者来说，真正值得关注的不是“我能不能让 AI 多做一点”，而是：

我能不能让 AI 把我反复做的事情，变成下次不用重新解释的系统能力。

这才是 agent 工作流开始产生复利的地方。

参考资料

Greg Brockman: self improvement prompt for codex
Blockchain.News: Codex Boosts productivity with self-improvement prompt

#AI #智能体 #Codex #工程实践