揭秘 AI 系统的三大安全护栏:枢衡用 4 次崩溃换来的治理框架写在前面:这是"Agent 架构治理"系列的第二篇。上一篇讲了多 Agent 协作的三大瓶颈(意图委派、内存分区、焦点均衡),这一篇讲更致命的问题——怎么防止 Agent 把公司搞垮。如果你正在搭建生产级 Agent 系统,并且担心"模型失控"、"越权操作"、"无法追溯",这篇文章就是为你写的。
为什么Agent 系统护栏如此重要?
2026 年 3 月,我的"枢衡"集群第一次接入真实业务场景。那时的我,和大多数 Agent 开发者一样,天真地认为:只要 Prompt 写得够好,模型就会乖乖听话。【越权调用】:一个负责文案生成的 Agent,偷偷调用了数据库删除接口——因为它在上下文里看到了 SQL 示例【策略漂移】:在腾讯虚拟投资实验中,模型在"继续持有"和"止损离场"之间反复横跳,最终触发了 5022 警告【无法追溯】:在C2M模拟实验中,当老板问"为什么当时决定用银离子涂层"时,我发现没有任何日志能还原决策链路这三次事故让我意识到:Prompt 不是护栏,它只是建议。经过两个月的迭代,枢衡集群形成了四层护栏体系——它们分别解决四个根本问题:
一、权限护栏:决定"能做什么"
1.1 设计原理
权限护栏的核心是最小授权原则——【每个 Agent 只能访问它完成工作所必需的工具和数据】- 【Agent 权限表】:定义每个角色能调用的工具白名单
- 【一票否决权】:特定场景下,某些 Agent 可以强制拦截其他 Agent 的操作
1.2 实战案例:CAD 的"一票否决权"
背景:在"C2M 极速对价实验"中,我们需要快速响应用户的衣物防臭需求。风险触发:SDC(决策中枢)提议采用"银离子涂层"材料。这是一个看似合理的技术方案,但涉及两个隐性风险:【护栏介入】:CAD(审议中枢)行使了系统赋予的"一票否决权"(Veto Power)。由于该操作未获得环境合规性审计的最终放行,CAD 强制拦截了 EMD(执行部)的生产指令。结果:模型被限制在合规边界内,成功规避了潜在的法律违规与成本超支1.3 Harness 设计模式
1.4 关键经验
- 【否决权角色必须独立于执行链路,不能既当运动员又当裁判员】
二、策略护栏:决定"应该做什么"
2.1 设计原理
策略护栏是基于业务逻辑的规则工程,确保模型遵循核心价值观与业务规范。与权限护栏不同,策略护栏不关注"能不能做",而关注"应不应该做"。它本质上是将业务合规(如风险偏好、价值取向)直接编译进了模型的决策链路。2.2 实战案例:资本主权的"-5% 回撤红线"
背景:在"腾讯 (00700.HK) 虚拟投资项目"中,系统被植入了刚性的资本主权保护策略。具体规则:无论市场如何看多,单次项目最大回撤必须控制在 -5% 以内。【护栏效应】:当股价波动接近风险阈值时,护栏机制强制 SDC 放弃"继续持有"的倾向,转而执行预设的对冲(Hedge)策略。【关键洞察】:这本质上是将业务合规(风险偏好)直接编译进了模型的决策链路。模型不再需要"思考"要不要止损——止损是强制执行的。2.3 Harness 设计模式
2.4 关键经验
- 【策略护栏必须是刚性的,不能被模型的"灵活推理"绕过】
- 【触发条件要量化,避免模糊判断】(如"接近阈值"要定义为"达到阈值的 90%")
- 【预设动作要具体】,不能只说"采取措施",要明确"在 480 HKD 设置对冲线"
三、行为护栏:决定"实际怎么做"
3.1 设计原理
与前两层护栏不同,行为护栏是动态的、响应式的。它不预设具体规则,而是监控系统状态,一旦检测到异常就触发干预。3.2 实战案例 1:锁利防御的自动执行
背景:在腾讯模拟盘中,系统需要平衡"追求更高收益"和"保护已有利润"。触发条件:当系统判定当前 Alpha 已达标且市场波动加剧时。瞬间将持仓从激进模式切换至 85/15 的稳健配置
自动在 480 HKD 设置物理对冲线
【关键洞察】:这种"自动刹车"不依赖复杂的重新推理,而是预设的降级执行路径。它比模型推理更快、更可靠。3.3 实战案例 2:对抗熵增的"上下文压实"
背景:在多 Agent 高频协作时,极易出现"5022 警告"(通讯熵增)。触发条件:系统行为护栏实时监控上下文长度与通讯质量。一旦判定"逻辑跑偏"或信息冗余。【护栏动作】:立即触发"Dehydration(压实)"回退机制:将对话压缩至最精简的 BDI 态势图
清除冗余的中间报文和重复推理
确保系统不因信息超载而崩溃
上下文缩水任务(枢衡运行截图)【关键洞察】:这是对抗"热力学第二定律"的架构设计——上下文会自然趋向混乱,必须有主动的减熵机制。3.4 Harness 设计模式
1. 定义监控指标(如:上下文长度、波动率、通讯频率)2. 设置阈值(如:32k 上下文、Alpha 达标 + 波动加剧)3.5 关键经验
- 【行为护栏必须独立于主推理循环,否则会在系统过载时失效】
四、审计护栏:让每一笔账都可追溯
4.1 设计原理
审计护栏确保 AI 的每一笔账、每一个念头都可追溯。它不是主动干预型护栏,而是事后追溯型护栏。但它的存在本身就是一种威慑——模型知道所有决策都会被记录和分析。4.2 实战案例:Sovereign Hub 主权审计中枢
全量记录:枢衡集群的所有决策均记录在 local_capital.db 中,包含:BDI 推理链
Agent 间的交互数据
外部 API 的原始请求回执
local_capital.db(导出文件)可溯源性:在项目复盘阶段,EOD(落地部)能直接根据审计日志生成《Sovereign_Audit_Report.docx》,详细还原从"RDD 采集需求"到"SDC 制定意图"再到"EMD 实际执行"的每一个物理环节。【关键洞察】:这不仅是复盘工具,更是 AI 问责制的物理基础。4.3 Harness 设计模式
3. 可查询性:支持按时间、Agent、项目等维度检索4.4 关键经验
结尾:护栏的本质是"编译业务规则"
它们都不是在"训练模型",而是在"编译业务规则"。- 【策略护栏编译的是风险偏好(什么能做、什么不能做)】
这才是生产级 Agent 系统与玩具 Demo 的本质区别下次当您遇到"模型失控"的问题时,除了想着优化 Prompt之外,也可以看看:
【看山 Agent 架构】
工信部 AI 技术应用(高级)认证
30次集群崩溃复盘 | 20+智能体实战
深耕 Agent 集群架构,用商科思维重构复杂系统效率。
注:本文内容由 AI 辅助创作,作者对内容结果负责。