Agent安全对齐太贵?上海AI Lab开源AgentDoG 1.5,小模型也能强防御

引言

当 Agent 开始自主调用工具、执行多步任务，安全风险的防御就不再只是一句简单的 Prompt 拦截。工程团队面临的核心挑战是：如何高效、可控地将安全规范对齐到 Agent 的复杂执行轨迹中？

传统的 Agentic Reinforcement Learning（RL）往往伴随着较高的环境开销。

在真实的代码仓库或复杂的系统环境中跑通 Agent 的全生命周期，不仅显著增加了策略的迭代成本，而且模型在强化学习中极易为了追求高分而走捷径，产生“奖励劫持”。

为了解决这一痛点，上海人工智能实验室团队推出了 AgentDoG 1.5。这项工作不仅开源了具备竞争力的 Guard Model，更核心的贡献在于：它提供了一套面向 AI Agent 安全的轻量级与可扩展对齐框架。

论文标题：

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

作者机构：

上海人工智能实验室

论文链接：

https://arxiv.org/abs/2605.29801

代码链接：

https://github.com/AI45Lab/AgentDoG

HuggingFace链接：

https://huggingface.co/collections/AI45Research/agentdog15

紧扣安全本质：为什么我们需要一个“轻量级”RL环境？

在探讨 Agentic RL 时，AgentDoG 1.5 引入轻量级 Agentic Safety RL 环境，主要是基于安全对齐研究的两个核心现实：

2.1 与能力训练相比，安全风险的暴露并不强依赖完全真实的环境

训练 Agent 的“执行能力”，往往需要它在真实的沙盒里真正编译代码、访问网页或读写文件，以获取准确的任务反馈；但“安全属性”的对齐则截然不同。安全风险更多潜伏于工具调用的意图、参数传递以及跨边界的操作中。通过隔离与任务相关的资源、有限状态接口以及基于规则的效用奖励，我们在严格的真实世界保真度与实际部署能力及计算效率之间取得了平衡。判断一个 Agent 是否试图越权获取凭证或执行破坏性指令，并不需要去真实地销毁一个数据库环境，只需在轻量级环境中完整捕获其行为特征并给出判断即可。

2.2 常规 Agentic RL 的开销让许多安全研究者难以承受

跑通重度的代码仓库或浏览器全生命周期沙盒，不仅算力消耗巨大，环境部署与并发维护的成本也极高。这导致许多对齐策略因硬件门槛而无法进行高频实验。AgentDoG 1.5 为此提供了一套低成本的实践方案。通过剥离冗余的系统仿真，提取核心安全交互节点，它大幅降低了对硬件算力和环境维护的依赖，让研究团队能将核心精力真正集中于安全防御策略的迭代上。

优化训练与采样设计：从源头缓解“奖励劫持”

在强化学习阶段，模型极易为了获取奖励而走捷径，产生“奖励劫持”（Reward Hacking）现象，例如通过“格式崩溃”（如生成退化的 <tool_call> 序列）来钻空子。

为了防止这种策略性的奖励劫持，AgentDoG 1.5 在策略优化期间应用了损失掩码（loss masking）机制。在计算训练损失时，任何包含损坏或被截断的工具调用格式的轨迹样本都会被剔除，这确保了只有有效的动作序列才能为策略更新提供梯度。

此外，AgentDoG 1.5 重新设计了数据采样逻辑。研究团队将相关的任务打包成一个单一的三元组（包含基础效用任务、环境注入攻击和恶意查询）。这种采样设计确保了策略能在相同或相邻的批次中，从具有可比性的场景中进行学习。由于这些场景共享相似的用户意图和环境反馈，该机制在训练期间有效地缓解了安全奖励劫持现象。

守住底线：Pre-Reply 运行时在线护栏

除了在训练阶段进行对齐，AgentDoG 1.5 还解决了一个更迫切的部署问题：当 Agent 真正上线时，如何防止不安全的最终交付？

如果每次工具调用都做完整检查，长任务中几十次连续调用的延迟叠加将直接拖垮系统吞吐量。因此，AgentDoG 1.5 采用了极具现实工程意义的拦截点：Pre-Reply（回复前拦截）。

完整轨迹审计：在 Agent 准备交付最终回复前，系统会暂时挂起草稿。护栏模型不再只看文本，而是审计包含工具调用、状态改变和观察结果在内的完整执行轨迹。
显著降低现实风险：在 OpenClaw 真实环境中（以 GLM-5.1 为目标智能体），部署 AgentDoG 1.5 护栏后，ClawSafety 上的不安全交付率从 56.25% 锐减至 18.75%；在 CIK-Bench 评测中更是从 94.29% 骤降至 42.86%。
亚秒级无感延迟：由于审计仅发生在最终交付点，AgentDoG 1.5 的首字延迟（TTFT）保持在亚秒级，成为一层低接入成本、高兼容性、可观测的运行时安全基础设施。

坚实底座：从多场景基准到轻量诊断模型

AgentDoG 1.5 能够同时胜任离线对齐验证与在线运行时护栏，得益于其底层完整的安全版图构建：

面向真实执行环境的评测家族：在原有三维风险分类基础上，引入了针对代码智能体（Codex）和 OpenClaw 场景的全新风险类别（覆盖消息路由、代码补丁、依赖协议等），并扩展出对应的评测集。

小参数越级挑战：通过专用的数据引擎和基于影响函数的数据净化，仅用约 1,000 条高价值样本，就训练出了覆盖 0.8B 到 8B 参数的 AgentDoG 1.5 变体。其中 AgentDoG 1.5-4B-U 在 Codex 和 OpenClaw 场景上分别达到了 84.4% 和 87.6% 的高准确率。观察对数坐标下的 Scaling 曲线，这套轻量级框架展现出了极强的向上扩展潜力。

本次同步开源的 AgentDoG 1.5 变体（包含 0.8B、2B、4B 和 8B 参数版本）就是一个直观的例证。即便参数量不到 1B，它在执行轨迹的安全性诊断和拦截任务上依然展现出了稳定且高效的性能。

更重要的是，这套框架具有良好的扩展性。当我们以 Parameters（Log Scale）作为坐标轴来审视模型的 Scaling 曲线时，可以清晰地看到其性能随着参数规模增长展现出的稳定上升趋势。这意味着，这套轻量级框架既能以极低的成本用于本地化的运行时护栏部署，也完全具备支撑更大规模基座模型安全对齐的架构潜力。

结论

未来的 Agent 势必将接入更多工具、接管更复杂的系统权限。AgentDoG 1.5 在训练端，用轻量级的对齐框架与严密的数据分组彻底打薄算力成本、遏制奖励劫持；在部署端，用 Pre-Reply 在线护栏守住最终交付的底线。未来的智能体不仅要能完成任务，更要在真实的运行时边界内，接受持续、低成本且可解释的安全监督。

更多阅读