AI 写的代码谁来管?我测了 5 个 Claude Code 治理框架

前阵子我用 Claude Code 做了一个美国工时计算器——覆盖各州加班规则、自动算薪资的那种，将近 2400 行代码。做是做出来了，发布到了 GitHub Pages 上用着也还行。

但过程中 Claude Code 干了几件让我后怕的事：它会自作主张地重构已经稳定的代码，会删掉它认为"冗余"但实际有用的逻辑，还会在没确认的情况下直接改核心计算模块。每次我都得停下来检查它到底改了什么。

你可能会说：你不会在 CLAUDE.md 里写好规则吗？我也写了。但说实话，它听不听全看心情。

后来我看到一组数据才明白为什么：根据 wow-harness 项目的测试，Claude Code 对 CLAUDE.md 指令的合规率，大概只有 20%。

20% vs 100%，一条分界线

这是 wow-harness 这个项目的作者做的测试。结论很残酷：

你在 CLAUDE.md 里写"不要做 A"，Claude Code 有 80% 的概率会做 A。但你用一个叫 PreToolUse 的 Hook 在它动手之前拦截，执行率是 100%。

区别在哪？

写文档是建议，Hook 是门禁。 一个是贴在墙上的"请勿触摸"，一个是真装了个锁。

这个发现直接把 Claude Code 的治理方案分成了两派：

Hook 派：用代码拦截，强制执行，接近 100% 合规
指令派：用文档引导，靠 agent 自觉，合规率随缘

我花了一个周末，把两派里最有代表性的 5 个框架都跑了一遍。

5 个框架，各有各的活法

先上一张总览：

框架	执行方式	定位	复杂度	适合谁
wow-harness	16 个 Hook	8 阶段流水线	中等	个人/小团队
claude-harness	47 个 Hook + 71 MCP 工具	企业全栈	很重	企业/大团队
claude-notary	15 个 Hook	合规审计层	轻量	需要审计的团队
OpenSpec	CLAUDE.md 规范	方法论指导	轻量	不想加锁的团队
Superpowers	CLAUDE.md 插件	能力扩展	轻量	想增强不约束

下面逐个说。

wow-harness：个人开发者的"够用就好"

GitHub 上 32 个 star，看着不多，但思路清晰。

它把整个开发流程拆成 8 个"门"——从编码、测试、到部署，每道门都有一个 Hook 卡着。Agent 想从"编码"阶段跳到"部署"？不好意思，中间的测试门没过，Hook 直接拦住。

最狠的一招是物理隔离：它不是告诉 agent"你别用这个工具"，而是直接从 agent 的工具清单里把工具删掉。想绕都绕不了。

适合个人开发者或两三个人的小团队，想要结构化流程但不想搞太复杂。

claude-harness：企业级的"杀鸡用牛刀"

这个是最夸张的。47 个 Hook、71 个 MCP 工具、63 个 Skills。

它有一套 HMAC 签名的证据链——agent 每做一步操作，都会生成一个签名记录。还有一个 claude-unlock 的双因素认证系统：agent 想做高危操作？你得像登录银行一样，输个验证码才行。

8 层防绕过保护。全局安装架构。

说实话，个人用有点杀鸡用牛刀了。但如果你是一个技术团队的主管，需要给老板证明"我们的 AI 编程是可控的"，这套东西能让你睡好觉。

claude-notary：给其他框架当"信任层"

这个框架的思路不太一样。它不是要管 agent，而是要验证 agent 说的话是不是真的。

它做了一个"独立重跑测试"的设计：agent 说"我跑了测试，全部通过"，claude-notary 会自己在沙箱里重新跑一遍，不信任 agent 的自报结果。

同时它对齐了 OWASP 安全标准和欧盟 AI 法案。如果你在做一个需要合规的项目，这个可以作为其他框架的底层信任层来用。

OpenSpec：不想加锁的温和派

OpenSpec 走的是另一条路：先写规范，再写代码。不是用 Hook 强制执行，而是用规范文档引导 agent 的行为。

好处是灵活、不侵入，可以和其他框架搭配使用。坏处是——回到那个数据——指令合规率只有 20%。你写了规范，它未必遵守。

适合对 agent 自主权有信任、或者觉得 Hook 太重的团队。

Superpowers：增强能力，不约束行为

这是 Anthropic 官方的 Skills/插件系统。原始社区仓库曾拿到 512 个 star，不过已经归档了。

它的定位是给 Claude Code 加能力——比如新工具、新技能——而不是约束它的行为。不防绕过、不强制执行，纯粹是功能扩展。

如果你只是想让 Claude Code 多会几招，可以用。但如果要治理，得搭配其他方案。

我的选择

跑完这 5 个框架，我的建议是按场景选：

个人开发者 — wow-harness。够用，上手快，8 道门覆盖了主要流程。一个人搞副业项目，不需要 HMAC 签名和双因素认证，但需要一道"别乱推代码"的门禁。

3-5 人小团队 — wow-harness + claude-notary。一个管流程，一个管审计。轻量组合，覆盖治理和信任。

企业团队 — claude-harness。该上的锁都上，该留的证据都留。复杂度换的是安全感。

不想加锁的团队 — OpenSpec。接受 20% 合规率的现实，用方法论指导代替强制执行。

治理不是刹车片

有人觉得给 AI 编程加治理是"踩刹车"，拖慢效率。

我倒觉得恰恰相反。

你开车系安全带，不是因为不想开快，是因为想开得更久。AI 编程的红利期才刚开始，能管住 agent 的团队才能把红利吃满，而不是天天擦屁股。

这 5 个框架都是开源的，周末花半天试一个，比出事后回滚代码便宜多了。

对治理框架有兴趣可以关注公众号并加星，方便后续交流

以上框架均为 Claude Code CLI 的治理方案，链接可在 GitHub 搜索对应名称找到。