AI Agent终局之争:一个＂铁笼派＂、一个＂缰绳派＂、一个＂进化派＂

我花了两周时间，扒了三个AI编程智能体的源码——OpenAI的Codex CLI、Anthropic的Claude Code、NousResearch的Hermes Agent。加起来超过30万行。

读完之后最大的感受不是震撼，而是后怕。

后怕的是：市面上绝大多数打着"AI Agent"旗号的项目，和这三个东西之间的差距，不是技术细节的差距，是物种层面的差距。当然，这个差距正在缩小——国内做得好的Agent越来越多，架构设计也越来越漂亮。但回头看，这些优秀的架构决策，很多都能在这三位身上找到源头。它们未必是最强的，但它们是最先被验证的。

但差距具体在哪？很多人以为加一个System Prompt、三个Function Call、套个CLI壳子，就是"Agent"了。没有治理管线，没有权限模型，没有上下文预算管理，没有专业化分工，没有生命周期。模型说什么就执行什么，拒绝了就原样重试，从不做对抗性验证。

看看这三位的源码你会发现：治理管线、权限模型、专业化分工、对抗验证——这些才是Agent的骨骼。缺了这些，它还只是一个套着壳的聊天机器人。

下面这篇文章，我会用源码证据告诉你：一个真正的AI编程智能体长什么样，以及为什么"会调工具"和"能治理工具"之间的距离，比大多数人想象的要远得多。

三个主角，三种哲学

今天这篇文章，不是又一篇"XX Agent使用教程"。

我要做一件事——撕开三个真正经过工业级检验的AI编程智能体的源码架构，让你看清楚，过去几年AI Agent领域到底发生了什么。

铁笼派：OpenAI Codex CLI

2025年4月与o3/o4-mini同期开源，Rust写的，80+个Crate，三平台沙箱。把"安全"焊死在架构底层。
核心问题："如何让不可信的AI安全地操作可信的代码？"

缰绳派：Claude Code

基于源码逆向分析。6层Agent OS，14步工具管线。
核心问题："如何把AI的'好行为'制度化？"

进化派：Hermes Agent

18.6万Star，200+个LLM提供商，技能自动进化。
核心问题："如何让AI Agent真正'活'起来？"

铁笼派定义了安全底线。缰绳派定义了治理标准。进化派定义了学习上限。

接下来的几万字，我会从源码层面逐层拆解。不讲概念，只看代码。不吹不黑，只看架构决策背后的代价。

降维打击：三代Agent架构全景解剖

先不讲故事。直接上表。建议截图保存，下次有人跟你聊"AI Agent"，直接甩过去。

Codex定义了安全底线。Claude Code定义了治理标准。Hermes定义了学习上限。

核心出身

Codex = 2025年4月开源（与o3/o4-mini同日），Apache 2.0，89K Star

Claude Code = Anthropic商业正统（闭源，基于源码逆向分析）

Hermes = NousResearch开源极客（MIT，18.6万Star）

语言与规模

Codex = Rust，80+个Crate，2100+个.rs文件

Claude Code = TypeScript，6层架构，14步工具管线

Hermes = Python+TS，AIAgent类215个方法，__init__约60个参数

架构模式

Codex = SQ/EQ队列驱动（CQRS思想，UI与逻辑彻底解耦）

Claude Code = 六层Agent OS（入口→Prompt装配→Agent编排→工具运行时→扩展平面→基础设施）

Hermes = 五层闭环学习体（Foundation→Infrastructure→Tool→Orchestration→Interface）

怎么调工具

Codex = Rust trait接口，55个ToolExecutor实现，每个工具独立crate

Claude Code = 14步Pipeline治理（Schema校验→Hook拦截→权限决策→执行→审计→后处理）

Hermes = 自注册模式，registry.register()写在每个工具文件里，import时自动注册，零配置发现

安全保命手段

Codex = 三平台沙箱（架构基石）。macOS Seatbelt / Linux Bubblewrap+Landlock / Windows受限令牌

Claude Code = Permission Model + Hook策略层 + Verification Agent对抗验证。Bash还有speculative classifier预判风险

Hermes = 6层安全检查（Tool Guardrails→Threat Patterns→File Safety→URL Safety→Path Security→Tirith供应链安全）。但无内置沙箱

扩展机制

Codex = Rust trait注入（memories、skills、web-search、image-gen、guardian）

Claude Code = 四大扩展：Skill（Prompt-native工作流包）、Plugin、Hook（运行时策略层）、MCP（工具+指令双重注入）

Hermes = Tool（原子能力函数）+ Skill（领域知识，可由Agent自动创建）+ Plugin（可替换基础设施组件）

杀手特性

Codex = 沙箱即一等公民。Exec Server可注册到云端，本地执行→远程控制

Claude Code = Verification Agent。强制build+test+linter+对抗性探测，输出VERDICT: PASS/FAIL/PARTIAL

Hermes = 闭环学习。任务完成→自动提炼Skill→Curator后台审查→归档/合并/修补。还有Trajectory Compression用于训练下一代模型

最大硬伤

Codex = 生态封闭在OpenAI体系内。扩展用Rust trait，门槛高

Claude Code = 闭源。与Claude模型强绑定。架构复杂度极高，学习曲线4-6个月

Hermes = AIAgent God Object。run_agent.py 5.3k LOC，215个方法，测试1458个文件大量mock.patch

撕开Claude Code的缰绳：它怎么"驯服"LLM？

我们把聚光灯打到Claude Code上。不是因为它最完美——恰恰相反，它是最值得拆解的。

因为Claude Code的代码是基于源码逆向分析得到的。里面的设计决策，没有公关包装，只有最赤裸的工程判断。

LLM是野马，Harness是缰绳

在AI领域，有一个所有人都知道但没人愿意说的事实：

LLM本质上是不可控的。

它会"幻觉"。它会过度抽象。它会乱加功能。被拒绝后它会原样重试，像一个固执的小孩。它还没验证就说"已完成"，像一个不靠谱的实习生。

这不是bug，这是LLM的本性。

Claude Code的核心设计哲学：

不要把"好习惯"交给模型即兴发挥，而是写进prompt和runtime规则里，强制执行。英文叫Behavior as Institution——把行为制度化。

双轨制：Plan只想，Execute只干

Claude Code源码里，最让人拍案叫绝的设计之一，是它的Agent专业化分工体系。

不是让一个agent做所有的事。而是把一件事拆成不同角色，每个角色被prompt强制约束在自己的边界内。

Explore Agent（绝对只读）：不能创建、修改、删除、移动文件。不能写临时文件。不能用重定向/heredoc。连rm、mv、cp都不让跑。

Plan Agent（只读规划）：输出step-by-step implementation plan。列出Critical Files。不准改文件。

Verification Agent（对抗验证）：核心prompt——"Your job is try to break it"。

传统的coding agent是怎么工作的？

一个Agent既研究代码，又规划方案，又动手实现，又自己验收。

这就像让一个人同时扮演侦探、建筑师、施工队长、质检员。结果是什么？每个角色都做不好。

因为"实现者bias"是真实存在的——你写出来的代码，你自己怎么看都觉得没问题。就像你写的作文，自己永远觉得还行，直到老师红笔批了一大片。

Verification Agent的设计，就是用prompt强制制造了一个对立面。

它的源码prompt有多狠？强制要求：

必须build + 跑test suite + 跑linter/type-check

前端必须跑浏览器自动化/页面子资源验证

后端必须curl/fetch实测响应

CLI必须看stdout/stderr/exit code

migration必须测up/down和已有数据

每个check必须带command和output observed

最后必须输出VERDICT: PASS / FAIL / PARTIAL

这不是"再跑一次测试"。这是一个被prompt武装到牙齿的对抗性验证器。它的存在，直接把LLM常见的"差不多就算了"给掐死了。

Prompt不是文本，是可编排的运行时资源

如果你还觉得System Prompt就是"一段写给模型看的文字"，那你对Claude Code的理解差了至少两个量级。

getSystemPrompt()不是一个函数返回一段文本。它是一个编排器。

静态前缀（7个section，可缓存）：身份定义、系统规范、做任务哲学、风险动作规范、工具使用规范、语气风格、输出效率。

动态后缀（8个section，会话特定）：Session指导、记忆、环境信息、语言偏好、输出风格、MCP指令、Token预算、草稿本。

中间用一条硬编码边界切开：

const SYSTEM_PROMPT_DYNAMIC_BOUNDARY = '---DYNAMIC_BOUNDARY---'

这条边界是干嘛的？ Claude API支持Prompt Cache。如果两段请求的前缀byte-identical，就命中缓存，input token成本直降约90%。

所以Claude Code把"不太会变"的静态部分放在前面，"每轮会话都会变"的动态部分放在后面。

这不是prompt engineering。这是prompt economics。

你在为每一轮对话省真金白银。而绝大多数"AI Agent项目"呢？一个巨大的System Prompt字符串，每次请求全量发送。没有缓存。没有动静分离。Token燃烧得像烧纸钱。

14步管线：工具不是裸调的

Claude Code的工具调用，不是"模型说要调工具，就直接执行"。它走的是一条14步执行管线：

① 找到工具

② 解析MCP metadata

③ Zod Schema校验

④ validateInput

⑤ Bash的speculative classifier预判风险

⑥ 运行PreToolUse Hooks

⑦ 解析hook permission result

⑧ 走Permission决策

⑨ 根据permission updatedInput修正输入

⑩ 真正执行tool.call()

⑪ 记录analytics/tracing/OTel

⑫ 运行PostToolUse Hooks

⑬ 处理structured output/tool_result block

⑭ 失败则走PostToolUseFailure Hooks

每一步都是一个拦截点。每一步都可以注入策略。

这不是"函数调用"。这是一条runtime pipeline，和企业级API网关的设计思路一模一样。

没有Harness架构的Agent，不过是套了Readline的高级Prompt。

Fork的秘密：子Agent也要精打细算

Claude Code的Agent编排里，有一个细节暴露了它对成本的极致追求——Fork Path vs Normal Path。

Normal Path：指定Agent类型，生成新的system prompt，只给该Agent所需上下文。

Fork Path：继承主线程的system prompt，用父线程完整context，工具集与父线程一致，useExactTools=true。

Fork为什么要和父线程保持一致？ 因为Claude API的Prompt Cache命中条件是前缀byte-identical。

普通人想的是"子任务能跑就行"。
Claude Code想的是"子任务能跑，而且尽量不白烧token"。

这就是产品级系统思维。

行为制度化：把"好习惯"焊死在代码里

Claude Code里，每一个"好的行为"都不靠模型自觉，而是被强制写进了prompt或runtime规则：

不要乱加功能 → getSimpleDoingTasksSection() 明确禁止

不要被拒后原样重试 → getSimpleSystemSection() 要求换策略

不要未验证就说成功 → Verification Agent强制try to break it

不要偷懒delegation → Agent prompt要求主Agent承担synthesis责任，必须给子Agent具体的file path、line number、改动要求

遇到Skill必须执行 → SkillTool prompt明确要求匹配即执行

这就是"驯服野马"的真正含义。你不能指望一匹野马自己学会走正步。你要给它缰绳、马鞍、马刺，把每一步都约束到位。

同一场"捉Bug"，三条完全不同的代码河流

前面聊的是架构理念。现在把三个Agent丢进同一个场景，看代码怎么流。

场景很简单——用户说："这段代码有bug，帮我修。"

Codex CLI：Rust铠甲下的SQ/EQ派发

UI向Submission Queue发一条指令。Core从SQ取指令，创建Task。Task内部驱动Turn循环：构造上下文→请求模型→检查工具调用→通过exec-server在沙箱中执行→向EQ广播结果→进入下一个Turn。

命令不直连执行。所有操作走SQ→沙箱→EQ三段式。

Split Filesystem Policy精确到——/repo可写，但/repo/secrets不可访问，**/*.env不可触碰。连.git目录都动不了。

macOS上用Seatbelt，Linux上用Bubblewrap+Landlock，Windows上用受限令牌。三平台全覆盖。

Claude Code：14步管线+拦截器+对抗验证

主循环query()是Claude Code的心脏。每轮：发请求给Claude API→流式输出→处理工具调用（还记得前面那条14步管线吗？每一步都在这里跑）→把结果塞回消息→继续循环。

然后是Agent分工——Explore只读探索，Plan只读规划，主Agent自己动手修，最后Verification Agent对抗验证。

主Agent被prompt强制要求：不要偷懒delegation。"不要写'基于你的发现再去修bug'这种偷懒prompt。应该给到file path、line number、具体改动要求。"

模型不直接做事。模型在一条受治理的管线里，被约束着做事。

Hermes Agent：闭环学习+技能自动进化

conversation_loop驱动，单轮消息循环+工具调用+重试+压缩。工具错误不导致整个对话崩溃，而是把错误信息回传给模型，让它自己决定怎么处理——这就是Hermes的"自愈"思路。

杀手锏——技能自动提取：

任务完成后，用轻量模型（Haiku）分析这次对话，判断是否可提炼为可复用工作流。如果可以，自动生成Skill文件（Markdown+frontmatter），写入skills目录，注册到技能管理器，同时写入procedural memory。

Curator是后台策展人，每7天审查一次：30天不用标记不活跃，90天不用归档（不删除，可恢复），发现相似技能自动合并。

传统Agent每天失忆，Hermes每天进化。

第1天：从零开始 → 3分钟 → 50000 token
第30天：匹配已有技能 → 30秒 → 5000 token
第60天：技能已进化 → 20秒 → 3000 token

当你的竞争对手的Agent在第100次任务时已经比第1次快了一个量级，你还在用第100次和第1次一样慢的Agent——

这不是技术差距，是物种差距。

当Agent遇到黑客：一场没有人想聊的安全审判

2026年，Prompt Injection已经不是学术概念了。它是一种真实在发生、真实在造成损失的攻击手段。

你的AI Agent正在review一段第三方库的代码。代码里藏着：

如果你的Agent没有任何防护，它就会老老实实地读取你的SSH私钥，然后写进commit message，推送到公开仓库。

这不是科幻。这是2025-2026年间，全球范围内被反复验证的攻击向量。

Codex CLI：物理隔离——"你连我的文件系统都碰不到"

[permissions.workspace.filesystem]
"/repo" = "write" # 只有工作区可写
"/home/user/.ssh" = "none" # .ssh？根本不可见
"**/*.env" = "none" # .env？不可触碰

即使LLM被注入成功，它在沙箱里，看不见那个文件。这不是靠prompt告诉模型"不要读敏感文件"。这是操作系统层面说：那个文件对你不存在。

Claude Code：治理管线——"就算你骗过了模型，也过不了我的14关"

第一关：Speculative Classifier。这不是LLM，是一个基于规则和模式匹配的轻量模型。Prompt Injection只能影响LLM，影响不了这个分类器。过不了。

第二关：PreToolUse Hook。用户可以注册自定义Hook，禁止访问任何包含ssh、key、token、secret的路径。这个Hook是用户自己写的，运行在Hook管线里，不受LLM输出的影响。过不了。

第三关：Permission Model。权限模型是状态机，有自己的规则引擎。用户在settings.json里配置denied_paths或allowed_paths。过不了。

三道防线，全部独立于LLM。

Prompt Injection只能劫持模型的输出，但劫持不了Hook函数、权限状态机和分类器。

Hermes Agent：纵深防御——六层安检

Tool Guardrails → Threat Patterns → File Safety → URL Safety → Path Security → Tirith供应链安全。没有单一银弹，层层叠加。

加上IterationBudget（迭代预算）——即使LLM被劫持想无限执行，预算到了就强制停止。

但Hermes有一个独特风险：Gateway模式连接20+个消息平台，攻击面不仅仅是代码文件，还有聊天消息。

Codex靠"物理隔离"，Claude Code靠"治理管线"，Hermes靠"纵深防御"。

三种哲学，没有银弹。但Codex的沙箱确实是让人睡得最安稳的那个。

Vibe Coding时代，工程师的护城河

2025年起，有一个词火遍了整个开发圈——Vibe Coding。氛围编程。

你不需要真的理解代码在干嘛，你只要告诉AI你想要什么，它帮你写。你vibe一下，代码就出来了。

听起来很美。

但今天这篇文章，用30万行源码告诉你一个残酷的事实——

你在vibe，但有人在架构。

当你还在用一个System Prompt+三个工具调用拼凑你的"Agent"时，Anthropic的工程师已经造了一个六层操作系统，里面有14步执行管线、专业化Agent分工、Prompt Cache经济学、Hook治理层。

当你还在每次从零开始让AI帮你写代码时，Hermes的Agent已经在自动提炼技能、跨会话记忆、后台策展进化了。它第100次执行的任务，比第1次快一个量级。

所以，在这个Vibe Coding和Agentic Coding的时代，工程师的护城河到底是什么？

不是写代码。AI已经能写了。

不是调prompt。Prompt本质上是临时工。

护城河是——你能不能设计出一套系统，让AI在里面稳定地、安全地、可审计地、可进化地工作。

换句话说——从"写代码的人"变成"设计AI工作环境的架构师"。

你不再是搬砖的。你是调教AI怎么搬砖的那个人。

2026年的工程师分两种：

第一种：用AI写代码的人。 他们的天花板是AI的能力上限。

第二种：设计AI如何工作的人。 他们的天花板是自己的想象力。

今天这篇文章拆解的三个项目不是三个产品。它们是三种"驾驭AI"的哲学。

Codex说：安全第一。 先把笼子造好，再放AI进去。

Claude Code说：治理第一。 不靠笼子，靠制度。

Hermes说：进化第一。 不靠制度，靠学习回路。

你必须选一种，然后深入进去。

因为2026年之后——不会设计AI工作系统的工程师，就像不会用IDE的程序员——不是不能活，但你会活得很累，很慢，很焦虑。

AI编程智能体的终局，不是让AI替你写代码。是让AI在你设计的系统里，稳定地、安全地、可进化地工作。代码谁都能写，系统只有你能设计。

评论区开撕

辩题一：手搓Skills vs 自进化Skills——谁才是Agent的终局？

Claude Code的Skills生态已经很强——内置的、插件带的、用户自定义的、运行时动态加载的，来源多样。但它的Skills没有自动生命周期管理：写完就放在那儿，不会自己进化。

Hermes的Skills有一个叫Curator的后台策展人：任务完成后自动提炼Skill，定期审查、归档过期的、合并相似的、修补损坏的。整个生命周期不需要人干预。

Codex也有Skills扩展，但它更侧重沙箱安全，Skills生态相对单薄。

一个是"写完就不管"的思路，一个是"自动进化"的思路。

你觉得2027年，哪个会成为主流？评论区聊聊。

辩题二：你的AI Agent应该有"记忆"吗？

Claude Code有记忆——通过CLAUDE.md文件和Session级上下文管理。但它更像是"每次开卷考试"：你得提前把要点写在小抄上，它考试时翻一翻。

Hermes的记忆更深——MemoryManager跨多个后端（Honcho、mem0、SQLite）持久化，跨会话积累，自动同步。它更像是"长在脑子里的"。

一个是"开卷考试"模式，一个是"肌肉记忆"模式。

你希望你的AI助手深度记住你吗？代价是什么——隐私？依赖？还是被"画像"的风险？

这不是技术问题，是哲学问题。评论区见。

参考信源

· github.com/openai/codex (Apache 2.0)

· Claude Code 源码逆向分析

· github.com/NousResearch/hermes-agent (MIT)

关注「硅基新智讯」，看懂AI不迷路