＂Loop 工程＂:顶级AI工程师从执行者到系统设计者

2026，我们继续同行

----------------------

导读： 过去一年半，AI编程经历了从"写代码"到"写Prompt"的跃迁。但现在，一场更深刻的范式革命正在发生——Anthropic和OpenAI的顶级工程师们已经停止手动提示Agent，转而设计自主运行的"Loop"。本文深度拆解Loop架构的五大核心模块、Codex与Claude Code的实战差异，以及在这场变革中，工程师为什么不可替代。

一条推文，500万次浏览

2026年6月，OpenClaw创始人Peter Steinberger发了一条推文，24小时内获得了500万次浏览。

内容只有一句话：

"你不应该再提示编码Agent了。你应该设计提示你的Agent的Loop。"

这句话在全球开发者社区炸开了锅。不是因为它在描述一个遥远的未来，而是因为它在描述一个正在发生的现实——一批顶级工程师的工作方式，已经悄悄发生了根本性的改变。

Anthropic的Claude Code之父Boris Cherny随后分享了他自己的工作状态：

"我不再提示Claude了。我有循环在运行，它们是提示Claude并弄清楚该做什么的那个。我的工作是写循环。"

谷歌云AI工程总监Addy Osmani给出了一个更清晰的定义：Loop Engineering，就是用你设计的系统替代你本人去提示Agent。 你不再是那个不断输入指令的人，你是那个设计循环结构的人。

这不是一个技术细节的迭代，而是软件工程师身份认知的一次根本性重塑。

已关注

关注

重播分享赞

视频详情

两次跃迁，一条清晰的演化路径

要理解Loop工程的意义，需要先看清楚这条演化路径。

起点：直接编写源代码（执行者时代）

在传统软件工程时代，工程师是绝对的"执行者"。从需求分析到架构设计，再到每一行代码的编写和调试，都高度依赖人类的直接参与。工具是被动响应的，软件的质量和数量直接等于工程师个人能力的总和。

第一次跃迁：与Agent对话，Agent生成代码（约1.5年前）

大约在2024年底，随着大语言模型能力的突破，工程师迎来了第一次认知跃迁。不再需要亲自编写每一行源代码，而是通过"提示工程"与AI Agent对话，由Agent来生成代码。

这次跃迁极大地提高了编码效率，但也暴露了新的瓶颈：工程师的注意力成为了系统的上限。 你能做多少工作，取决于你能维持多少个对话回合，而不是你能写多少代码。

第二次跃迁：与Loop交互，Loop调度Agent（正在发生）

工程师不再直接与Agent对话，而是设计并与"Loop"交互。由Loop调度Agent，Agent再去写代码。工程师从"提示者"升级为"系统设计者"。

这次跃迁的本质是：人类从代码生产的指挥者，变成了自动化系统的架构师。 工具从被动执行，变成了自主迭代。

这条演化路径揭示了一个规律：AI工程的每一次认知跃迁，都是将人类从更低层次的执行工作中解放出来，同时要求人类在更高层次的系统设计上投入更多智识。

Loop是什么？它和"自动化脚本"有什么本质区别？

在深入拆解架构之前，有一个概念必须澄清：Loop和传统的Automation（自动化）不是一回事。

Automation（自动化） 执行一系列预定义的步骤，遵循配方，不做任何决策。相同的输入总是产生相同的输出。它是确定性的。

Loop（循环） 内部包含决策逻辑。Agent在主动判断是否已达到目标，不只是执行，而是在评估、循环和根据发现进行调整。它是目标导向的。

一个更直观的比喻：Automation是流水线工人，按照固定动作重复操作；Loop是一个有判断力的工程师，他知道什么叫"完成"，并且会持续工作直到真正完成为止。

这个区别至关重要：Loop能够处理不确定性、适应变化，并在遇到障碍时自主寻找替代路径。这是它与传统脚本自动化的根本分野。

拆解Loop架构：五大模块与一个隐形骨架

目前，OpenAI的Codex和Anthropic的Claude Code在Loop架构上已经达成了高度共识。一个完整的Loop系统由五大模块和一个记忆机制构成。

模块一：自动化调度——Loop的心脏

自动化调度使Loop成为真正的循环，而非一次性任务。它负责在不需要人类干预的情况下，根据时间表或事件触发任务。

在Claude Code中，/goal指令是核心：它不是按固定频率运行，而是持续运行，直到用户定义的条件为真（例如："test/auth下所有测试通过且lint干净"）。每一轮结束后，一个独立的小模型负责判断是否已完成——写代码的Agent不是给自己打分的那个。

这个设计细节，是Loop质量保证的核心机制。

模块二：工作树隔离——解决并行冲突

当Loop同时调度多个Agent并行工作时，文件冲突是首要问题。两个Agent修改同一个文件，就如同两个工程师在没有沟通的情况下向同一行代码提交更改。

通过利用Git的特性（git worktree），系统为每个Agent创建一个在独立分支上的独立工作目录。一个Agent的改动在物理上无法触碰另一个Agent的检出。

但这里有一个重要的洞察：虽然工具解决了物理冲突，但人类工程师的Review带宽才是并行Agent数量的真正上限。 你能同时跑多少个Agent，取决于你有多少时间看它们的输出，而不是工具本身的限制。

模块三：Skill——消除意图债务

Agent每次启动时都是"空白"的（无状态）。如果没有上下文，它会用自己的推断来填补空白，这往往会导致错误或不符合项目规范的代码。

Skill模块（通常是SKILL.md文件）将项目约定、构建步骤、踩过的坑等意图固化下来。Agent每次运行都能读到，不再需要重新解释。

没有Skill的Loop每轮都在从零推导；有了Skill，Loop可以在前人的经验基础上复利增长。这是Loop工程中"意图债务"管理的核心工具。

模块四：插件与连接器——触达真实工作环境

一个只能看到文件系统的Loop能力非常有限。基于MCP（Model Context Protocol）协议的连接器，使Loop能够读取Linear票据、查询数据库、向Slack发送消息、访问staging API。

这是Agent说"这是修复方案"和Loop"自动开PR、关联Linear票、CI绿了自动通知频道"之间的差距。没有Connectors的Loop是一个孤岛；有了Connectors，Loop才能成为开发生态系统的有机组成部分。

模块五：子Agent——Maker与Checker的分离

如果让写代码的模型给自己打分，往往会产生过度自信的幻觉。这是AI系统的一个普遍弱点。

Loop中最具价值的结构设计是将"写代码（Maker）"和"检查代码（Checker）"的职责分离。验证Agent在独立的上下文窗口中运行，能更客观地抓取执行Agent忽略的问题。可以为不同的子Agent配置不同的模型和推理力度——安全审查Agent用强模型跑高强度推理，探索Agent用快速的只读模式。

隐形骨架：记忆机制

Loop还有一个经常被低估的组成部分：记忆机制。

核心洞察是：模型会遗忘，仓库不会（Models forget, Repositories remember）。 每次Agent运行结束，其上下文窗口中的所有信息都会消失。如果没有外部记忆，下一次运行的Agent将从零开始。

将任务状态、已尝试的方案、发现的问题记录在Markdown文件中，存储在仓库里，是Loop跨越多次运行保持连贯性的关键。这也是"仓库是团队的长期记忆"这一理念的具体实践。

实战对决：Codex vs Claude Code，谁更适合你？

在2026年的今天，Codex和Claude Code已经成为Loop工程的两大主流平台。两者在五大模块上的设计高度一致，但在执行哲学和适用场景上存在显著差异。

Codex的哲学是"委托执行"。 它是云原生的，你描述任务，它在云端沙箱后台工作，你半小时后回来审查结果。适合有明确规格的任务，允许工程师在等待期间处理其他工作。

Claude Code的哲学是"交互式协作"。 它是终端优先的，在每个关键决策点展示推理过程，请求确认后再执行。适合复杂的、需要人类判断的任务，特别是多文件重构或架构决策。

在实际项目中，差异更加具体：

Figma设计克隆任务： Claude Code保留了极高的设计保真度，消耗了620万个Token；Codex生成了功能正常的页面，视觉还原度较低，但只消耗了150万个Token——效率是前者的4倍。

任务调度器构建： Codex在逻辑错误检测上表现更强，能够识别竞态条件和边缘情况；Claude Code生成了更完整的生产级文档和架构设计。

大型React代码库迁移（200+组件）： Codex的并行沙箱高效处理重复性迁移；Claude Code的Agent Teams在处理复杂的跨组件依赖时提供了更好的控制力。

目前，越来越多的成熟团队采用混合工作流：用Claude Code进行高保真度的功能开发，然后将生成的代码交给Codex进行深度审查，利用两个平台的互补优势。

Loop的边界：工程师为什么不可替代

这是整篇文章最重要的部分。

如果Loop可以自动发现任务、分配任务、执行任务、验证结果，那么工程师的价值在哪里？这个问题不是杞人忧天，而是每一个认真对待自己职业的工程师都应该思考的问题。

答案是：Loop改变了工作，但不会把你从工作里删掉。 在Loop的边界内，存在三个Loop永远无法替代的工程师责任。

第一重责任：验证者（Verifier）

"完成"是声明，不是证明。

Loop可以声称任务已完成，但这只是一个声明，不是证明。"无人看守 = 无人看守地犯错"——当没有人监督时，错误会在无人察觉的情况下积累。

验证不只是"测试通过"。工程师需要进行三个层次的验证：

功能验证——确认代码在功能上是正确的，包括测试没有覆盖的边缘情况。

意图验证——确认代码实现了正确的需求。代码可能在功能上正确，但实现的是错误的需求。

系统验证——确认代码在整个系统上下文中是安全的。一个局部正确的变更可能引入性能回归、安全漏洞或与其他模块的不兼容。

你确认它能用，才能发。 这不是可选的步骤，而是工程师对代码质量的最终承诺。

第二重责任：理解者（Understander）

Loop产出越快，理解债积累越快。

这是Loop工程中最隐蔽、最危险的风险。Addy Osmani将其称为"理解债"（Comprehension Debt）：代码存在 ≠ 你理解。除非你读它，否则债只会累积。

理解债的危险性在于它是不可见的。你的速度指标看起来很好，测试覆盖率很高，代码审查也通过了。但没有任何指标能捕捉到"没有人真正理解这段代码"这一事实。直到某天需要修改这段代码，或者出现了一个意外的bug，理解债才会以最糟糕的方式暴露出来。

Anthropic的一项研究数据更为直接：使用AI辅助完成任务的工程师，在后续理解测试中得分比对照组低17%（50% vs 67%）。被动委托（"让它工作"）对技能发展的损害，远大于主动询问式的AI使用。

除非你读它，否则债只会累积。

第三重责任：决策者（Decision Maker）

不作为也是一种风险。

这是三重责任中最微妙、也最容易被忽视的一个。当Loop在高速运转时，工程师面临一种心理诱惑：接受Loop给出的任何结果，停止做自己的判断。

这种"不作为"本身就是一种风险，有三种典型表现：

停止独立判断——无条件接受Loop的输出，不再质疑其合理性。这会导致Loop的系统性偏差被放大。

拿到什么就接受什么——不再主动定义高质量的标准，将Loop的输出作为质量的基准。这是质量标准的下沉。

设计Loop时缺乏判断力——Loop的设计本身需要深厚的工程背景。一个设计糟糕的Loop不只是低效的，它可能是危险的。

三重责任共同构成了工程师在Loop时代的核心价值：验证者确保质量，理解者确保知识，决策者确保方向。 这三个维度缺一不可。

如何开始你的第一个Loop？

理解了架构和责任，接下来是最实际的问题：如何开始？

第一步，建立项目知识基础（Phase 0）。 在运行任何Loop之前，创建CLAUDE.md或AGENTS.md文件，将项目的技术栈、构建命令、代码规范和已知问题记录下来。这是消除"Agent冷启动"问题的关键。同时创建ERRORS.md，记录团队踩过的坑和解决方案。

第二步，从CI失败监控开始（推荐起点）。 这是最适合作为第一个Loop的场景：目标明确可验证（测试通过/失败）、失败代价低（最坏情况是什么都没修复）、反馈快速（CI结果即时可见）。

第三步，引入Maker/Checker分离。 当基础Loop稳定后，引入独立的验证Agent。让一个Agent负责实现，另一个Agent负责验证，显著提高输出质量。

第四步，连接真实工具链。 通过MCP连接器将Loop与GitHub、Linear、Slack集成，实现全链路自动化。

第五步，建立监控与熔断机制。 这是最容易被忽视但最重要的一步。每个Loop都必须有：连续失败次数上限（通常3次）、运行时间上限（通常30-45分钟）、Token预算上限（防止"Token螺旋"）。

一个真实的数据参考：一个中型SaaS团队在引入CI失败监控Loop后的两周内，自动处理了47次CI失败，其中31次（66%）成功自动修复，节省了约22小时工程师时间，总Token成本约56美元。

写在最后

AI工程的竞争，正在从"模型参数"转向"工程外骨骼"。未来的领先者不是那些拥有最强模型的人，而是那些能够通过权限、工具、记忆和评测，将模型封装成可靠系统的架构师。

Loop工程不是一个遥远的技术趋势，它正在发生，而且发生的速度比大多数人预期的要快。

但有一点需要清醒认识：Loop有边界，也有隐藏风险（自主操作的风险），工程师不可替代。 工程师的价值不再体现在"写了多少行代码"，而是体现在"设计了多好的系统、验证了多严格的输出、保持了多清醒的判断"。

放下你手中的Prompt，开始设计你的第一个Loop。

你所在的团队，有没有在尝试Loop工程？遇到了哪些挑战？欢迎在评论区分享你的实践经验。

完

2026，我们继续同行

职业：大厂高级AI产品经理（腾讯、金山办公）

业务：ToB行业，服务：硬件、政务、金融、教育、康养等行业，基于多智能体+深度搜索+RAG等，提供行业解决方案；

爱好：户外、摄影、旅行、网球、羽毛球、慢跑、游泳、潜水、看纸质书

微信号：楼外楼

微信：可扫码下图

Hermes Agent：自进化 AI 智能体调研与实战全书

深度剖析 Claude Code：线束工程——超级智能体背后的架构哲学与未来范式转移

Claude Code Agent Teams：从单体助手到数字研发团队

桌面级 AI Agent 落地全景与竞争洞察深度报告

迈向Agent时代的控制论-智能体式思考 × Harness Engineering 全景深度解析

智能体计算机操作系统争夺战：Manus Computer Use 与 OpenClaw 深度产品分析

DeerFlow 2.0 超级智能体框架-技术架构与工程化深度解析

OpenClaw × Paperclip × 企业龙虾馆-企业级 AI 团队落地实施方案

Claude Agent Skills 与 Plugin 机制深度解析-OpenClaw的灵魂

Seedance 2.0 全面深度调研分析报告

WebMCP深度产品调研与分析报告：开启Agent-Native Web新纪元

Clawdbot与AI Agent趋势深度调研测评分析报告

2025复盘：写了50篇AI深度长文后，年底15天拿下4个Offer，对抗“35岁危机”

Anthropic Agent Skills成为AI应用开发的行业标准

Manus 1.6 -从通用Agent到高可靠性全栈 AI 交付平台

ima.copilot-腾讯智能工作台的产品设计和技术实现

腾讯ima 2.0：从“效率工具”到“共事伙伴”

Palantir Technologies Inc. 全景产品分析

通用AI智能体架构产品深度调研分析

AI智能体与大模型创业行动建议

Cherry Studio 深度调研分析报告

LLM框架深度对比分析：Langchain 、 Langgraph 、Qwen Agent 、LlamaIndex

Prompt工程指南和17种常见提示词框架