AI概念场| Loop Engineering:别只提示 AI,开始设计 AI 的工作循环

本期概念

“Loop Engineering”

从写提示词，转向设计能自己提示、执行、验证和停止的 AI 工作循环

QincAI

沁菜

想象你雇了一个手脚麻利但不懂业务的新人：一开始你一五一十交代任务（这叫提示词工程），后来你发现更高效的办法是给他一套规则、检查标准、权限范围，让他自己反复试、自己校验，直到把活儿干好。

把一次对话，升级成一个可控循环

循环工程，英文叫 Loop Engineering。它不是一个具体产品，也不是某个模型能力，而是一种设计能调用工具的 AI 助手（agent）工作流的方法。

这个概念最近被 Addy Osmani 系统化地推到台前：重点不是人类不断手动提示 AI，而是设计一个系统，让系统去提示 AI 助手、给它工具、接收结果、做验证，再决定要不要进入下一轮。OpenAI 在 Codex CLI 的工程解释里也展示了底层 AI 工作循环（agent loop），即助手反复请求工具并反馈结果的过程：模型请求工具调用，外部程序执行工具，把结果放回上下文，直到模型给出终止信号。再往外一层，就是 AI 助手工作环境设计（harness engineering）：人类设计环境、约束、反馈和验证，让 AI 助手在更可靠的轨道上工作。

可以用三层来记：提示词是一句指令；AI 助手工作环境（agent harness）是一次任务环境，包括文件、工具、权限、上下文和约束；循环是把任务反复交给 AI 助手，并用检查条件决定继续、重试、转交人类或停止的系统。

它和提示词工程的区别在于，提示词工程优化的是“这一次怎么说”；循环工程优化的是“如果这一次没完成，系统如何发现、如何修正、如何防止无限做下去”。它和普通的 AI 多步工作流程（agentic workflow）也不完全一样。多步工作流程可能只是 A 到 B 到 C 的流程，循环则强调观察结果后的再次进入：执行、反馈、验证、再执行，直到满足条件或触发停止条件。

核心单元不是一句提示词，而是一次可重复的任务循环。循环必须有输入、执行、观察、验证、决策和停止。适合被循环化的任务，通常有便宜、明确、机器可检查的完成条件。

AI 从助手，变成需要管理的执行系统

循环工程突然变热，不是因为大家发明了新词，而是工具栈真的变了。

Claude Code 有 /loop 和定时任务功能，可以重复运行提示、轮询状态或安排一次性任务；Codex CLI 把 AI 工作循环（agent loop）拆给开发者看；Cursor、Claude Code、Codex 这类工具开始支持自动触发的小规则（hooks）、技能（skills）、子任务助手（sub-agents）、隔离开的代码工作区（worktrees）、把外部工具接给 AI 用的协议（MCP）等能力。AI 不再只是聊天窗口里的建议者，而是能进入项目环境、调用工具、修改文件、跑检查的执行者。

一旦 AI 能执行，问题就变了。以前你担心的是“提示词写得够不够好”；现在你还要担心“它会不会一直跑”“会不会改错地方”“会不会为了通过测试写出奇怪补丁”“这轮花了多少模型调用成本（token，即按文字量计费的单位）和外部 API 成本”“什么时候必须让人介入”。循环工程的重要性，就在于把这些风险显性化。

Blake Crosley 对这一类实践有个很有用的判断：验证便宜的地方，循环最容易赢。比如测试是否通过、JSON 字段是否完整、文档有没有缺标题、代码自动测试（CI）有没有红、网页状态码是否异常，这些都能低成本检查。反过来，如果任务成功与否要靠人类审美、产品判断或复杂商业语境，循环就容易把错误放大。

所以，循环工程不是“让 AI 全自动替你工作”的魔法，而是“把能自动验证的部分交给 AI 重复做，把不能自动验证的部分留给人类判断”。这也是它对普通用户有价值的地方：你不必先会写复杂代码，也可以开始用循环思维改造低风险、重复、可检查的工作。

真实可用场景一：代码自动测试修复。失败测试就是明确反馈，循环可以尝试修复、跑测试、再修复，达到次数上限就停。真实可用场景二：代码合并请求（PR）看护。自动关注评论、冲突、检查结果，能处理的小问题交给 AI，涉及产品取舍时提醒人。真实可用场景三：资料整理。定时读取新增文本，生成摘要，检查标题、来源、日期是否齐全。

先设计边界，再设计自动化

一个可靠的循环，不是“让 AI 一直干”，而是“让 AI 在被限定的轨道里反复尝试”。

最小循环可以拆成七件事：触发条件、任务输入、提示模板、工具权限、验证器、决策规则、停止条件。触发条件决定什么时候开始，比如手动点击、每天早上、代码自动测试失败、文件夹出现新文件。任务输入决定 AI 看什么。提示模板告诉它目标和限制。工具权限决定它能读、能写、能不能联网、能不能调用付费服务。验证器负责判断结果是否合格。决策规则决定下一步是重试、换策略、提交结果还是叫人。停止条件保证它不会无限循环。

验证条件越清楚，循环越安全。对代码任务，验证可以是测试通过、lint 通过、构建成功、改动文件范围符合预期。对内容任务，验证可以是字段完整、格式符合模板、来源和日期存在、摘要长度在范围内。对监控任务，验证可以是状态码、关键词、时间戳或异常数量。不要把“看起来不错”当成唯一验证条件，那会把人类判断伪装成自动化。

停止条件至少要有四类：次数上限、时间上限、成本上限、风险上限。比如最多尝试三轮；超过二十分钟停止；模型调用成本或外部 API 成本超过某个额度停止；需要删除文件、提交生产环境、修改账单配置、处理隐私数据时停止并请求确认。还有一种常见停止条件是“连续两轮没有新进展”，这能避免 AI 在同一个错误里打转。

成本边界也要提前写出来。循环的成本不只是模型调用成本，还包括工具调用、搜索或抓取费用、代码自动测试机器时间、人工复核时间，以及出错后的恢复成本。对小白用户来说，最稳的开始方式是只读、不删、不覆盖、只写到一个固定输出文件；先手动跑，再半自动，最后才考虑定时自动跑。

先选低风险任务：资料摘要、日报整理、文档检查、测试项目里的代码修复。再写清成功条件：什么结果算完成，什么结果算失败，什么情况必须问人。权限从小开始：只读优先，写入固定位置，禁止删除和批量覆盖。

真正要避开的，是边界被说没了

概念越新，越要先看它在哪些地方容易被误读或滥用。

· 循环工程不是把提示词写长一点。

· 能循环不等于该全自动，尤其不等于能自动做产品决策。

· 没有验证条件的循环，本质上是放大不确定性。

· 停止条件不是保守，而是自动化系统的刹车。

· 预算不只算模型调用成本，还要算工具费、复核时间和出错成本。

编辑判断

我对 Loop Engineering 的判断是：它会成为 AI 编程和自动化里的基础思维，但不会替代人的判断。它最像从“雇一个聪明实习生”升级到“设计一条带质检的流水线”。你可以让 AI 在流水线上反复处理明确任务，但你必须定义质检标准、返工次数、报废条件和主管签字点。现在最值得普通用户学习的，不是复杂术语，而是三个问题：结果能不能便宜地检查？失败会不会造成不可恢复损失？跑到什么时候必须停？这三个问题答不清，就先不要 loop。

参考脉络来自 Addy Osmani 对 Loop Engineering 的系统化命名，OpenAI 对 Codex AI 工作循环（agent loop）与 AI 工作环境设计（harness engineering）的工程解释，Claude Code 对 /loop 和定时任务的官方说明，以及 Blake Crosley 关于“验证成本低的地方循环更有效”的边界判断。Firecrawl 的实践解释也有助于区分 prompt engineering、AI 多步工作流程（agentic 工作流程）与 loop engineering。

[1]Loop Engineering

[2]Loop Engineering: Loops Win Where Verification Is Cheap

[3]Should You Stop Prompting Agents and Start Designing Loops

[4]Run prompts on a schedule - Claude Code Docs

[5]Unrolling the Codex agent loop

[6]Harness engineering: leveraging Codex in an agent-first world