前阵子我用 Claude Code 做了一个美国工时计算器——覆盖各州加班规则、自动算薪资的那种,将近 2400 行代码。做是做出来了,发布到了 GitHub Pages 上用着也还行。

但过程中 Claude Code 干了几件让我后怕的事:它会自作主张地重构已经稳定的代码,会删掉它认为"冗余"但实际有用的逻辑,还会在没确认的情况下直接改核心计算模块。每次我都得停下来检查它到底改了什么。
你可能会说:你不会在 CLAUDE.md 里写好规则吗?我也写了。但说实话,它听不听全看心情。
后来我看到一组数据才明白为什么:根据 wow-harness 项目的测试,Claude Code 对 CLAUDE.md 指令的合规率,大概只有 20%。
20% vs 100%,一条分界线
这是 wow-harness 这个项目的作者做的测试。结论很残酷:
你在 CLAUDE.md 里写"不要做 A",Claude Code 有 80% 的概率会做 A。但你用一个叫 PreToolUse 的 Hook 在它动手之前拦截,执行率是 100%。
区别在哪?
写文档是建议,Hook 是门禁。 一个是贴在墙上的"请勿触摸",一个是真装了个锁。

这个发现直接把 Claude Code 的治理方案分成了两派:
Hook 派:用代码拦截,强制执行,接近 100% 合规 指令派:用文档引导,靠 agent 自觉,合规率随缘
我花了一个周末,把两派里最有代表性的 5 个框架都跑了一遍。
5 个框架,各有各的活法
先上一张总览:

下面逐个说。
wow-harness:个人开发者的"够用就好"
GitHub 上 32 个 star,看着不多,但思路清晰。
它把整个开发流程拆成 8 个"门"——从编码、测试、到部署,每道门都有一个 Hook 卡着。Agent 想从"编码"阶段跳到"部署"?不好意思,中间的测试门没过,Hook 直接拦住。
最狠的一招是物理隔离:它不是告诉 agent"你别用这个工具",而是直接从 agent 的工具清单里把工具删掉。想绕都绕不了。

适合个人开发者或两三个人的小团队,想要结构化流程但不想搞太复杂。
claude-harness:企业级的"杀鸡用牛刀"
这个是最夸张的。47 个 Hook、71 个 MCP 工具、63 个 Skills。
它有一套 HMAC 签名的证据链——agent 每做一步操作,都会生成一个签名记录。还有一个 claude-unlock 的双因素认证系统:agent 想做高危操作?你得像登录银行一样,输个验证码才行。
8 层防绕过保护。全局安装架构。
说实话,个人用有点杀鸡用牛刀了。但如果你是一个技术团队的主管,需要给老板证明"我们的 AI 编程是可控的",这套东西能让你睡好觉。
claude-notary:给其他框架当"信任层"
这个框架的思路不太一样。它不是要管 agent,而是要验证 agent 说的话是不是真的。
它做了一个"独立重跑测试"的设计:agent 说"我跑了测试,全部通过",claude-notary 会自己在沙箱里重新跑一遍,不信任 agent 的自报结果。
同时它对齐了 OWASP 安全标准和欧盟 AI 法案。如果你在做一个需要合规的项目,这个可以作为其他框架的底层信任层来用。
OpenSpec:不想加锁的温和派
OpenSpec 走的是另一条路:先写规范,再写代码。不是用 Hook 强制执行,而是用规范文档引导 agent 的行为。
好处是灵活、不侵入,可以和其他框架搭配使用。坏处是——回到那个数据——指令合规率只有 20%。你写了规范,它未必遵守。
适合对 agent 自主权有信任、或者觉得 Hook 太重的团队。
Superpowers:增强能力,不约束行为
这是 Anthropic 官方的 Skills/插件系统。原始社区仓库曾拿到 512 个 star,不过已经归档了。
它的定位是给 Claude Code 加能力——比如新工具、新技能——而不是约束它的行为。不防绕过、不强制执行,纯粹是功能扩展。
如果你只是想让 Claude Code 多会几招,可以用。但如果要治理,得搭配其他方案。
我的选择

跑完这 5 个框架,我的建议是按场景选:
个人开发者 — wow-harness。够用,上手快,8 道门覆盖了主要流程。一个人搞副业项目,不需要 HMAC 签名和双因素认证,但需要一道"别乱推代码"的门禁。
3-5 人小团队 — wow-harness + claude-notary。一个管流程,一个管审计。轻量组合,覆盖治理和信任。
企业团队 — claude-harness。该上的锁都上,该留的证据都留。复杂度换的是安全感。
不想加锁的团队 — OpenSpec。接受 20% 合规率的现实,用方法论指导代替强制执行。
治理不是刹车片
有人觉得给 AI 编程加治理是"踩刹车",拖慢效率。
我倒觉得恰恰相反。
你开车系安全带,不是因为不想开快,是因为想开得更久。AI 编程的红利期才刚开始,能管住 agent 的团队才能把红利吃满,而不是天天擦屁股。
这 5 个框架都是开源的,周末花半天试一个,比出事后回滚代码便宜多了。
对治理框架有兴趣可以关注公众号 并加星,方便后续交流
以上框架均为 Claude Code CLI 的治理方案,链接可在 GitHub 搜索对应名称找到。
夜雨聆风