

引言
当 Agent 开始自主调用工具、执行多步任务,安全风险的防御就不再只是一句简单的 Prompt 拦截。工程团队面临的核心挑战是:如何高效、可控地将安全规范对齐到 Agent 的复杂执行轨迹中?
传统的 Agentic Reinforcement Learning(RL)往往伴随着较高的环境开销。
在真实的代码仓库或复杂的系统环境中跑通 Agent 的全生命周期,不仅显著增加了策略的迭代成本,而且模型在强化学习中极易为了追求高分而走捷径,产生“奖励劫持”。
为了解决这一痛点,上海人工智能实验室团队推出了 AgentDoG 1.5。这项工作不仅开源了具备竞争力的 Guard Model,更核心的贡献在于:它提供了一套面向 AI Agent 安全的轻量级与可扩展对齐框架。

论文标题:
AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
作者机构:
上海人工智能实验室
论文链接:
https://arxiv.org/abs/2605.29801
代码链接:
https://github.com/AI45Lab/AgentDoG
HuggingFace链接:
https://huggingface.co/collections/AI45Research/agentdog15


紧扣安全本质:为什么我们需要一个“轻量级”RL环境?
在探讨 Agentic RL 时,AgentDoG 1.5 引入轻量级 Agentic Safety RL 环境,主要是基于安全对齐研究的两个核心现实:
2.1 与能力训练相比,安全风险的暴露并不强依赖完全真实的环境
训练 Agent 的“执行能力”,往往需要它在真实的沙盒里真正编译代码、访问网页或读写文件,以获取准确的任务反馈;但“安全属性”的对齐则截然不同。安全风险更多潜伏于工具调用的意图、参数传递以及跨边界的操作中。通过隔离与任务相关的资源、有限状态接口以及基于规则的效用奖励,我们在严格的真实世界保真度与实际部署能力及计算效率之间取得了平衡。判断一个 Agent 是否试图越权获取凭证或执行破坏性指令,并不需要去真实地销毁一个数据库环境,只需在轻量级环境中完整捕获其行为特征并给出判断即可。
2.2 常规 Agentic RL 的开销让许多安全研究者难以承受
跑通重度的代码仓库或浏览器全生命周期沙盒,不仅算力消耗巨大,环境部署与并发维护的成本也极高。这导致许多对齐策略因硬件门槛而无法进行高频实验。AgentDoG 1.5 为此提供了一套低成本的实践方案。通过剥离冗余的系统仿真,提取核心安全交互节点,它大幅降低了对硬件算力和环境维护的依赖,让研究团队能将核心精力真正集中于安全防御策略的迭代上。


优化训练与采样设计:从源头缓解“奖励劫持”
在强化学习阶段,模型极易为了获取奖励而走捷径,产生“奖励劫持”(Reward Hacking)现象,例如通过“格式崩溃”(如生成退化的 <tool_call> 序列)来钻空子。
为了防止这种策略性的奖励劫持,AgentDoG 1.5 在策略优化期间应用了损失掩码(loss masking)机制。在计算训练损失时,任何包含损坏或被截断的工具调用格式的轨迹样本都会被剔除,这确保了只有有效的动作序列才能为策略更新提供梯度。
此外,AgentDoG 1.5 重新设计了数据采样逻辑。研究团队将相关的任务打包成一个单一的三元组(包含基础效用任务、环境注入攻击和恶意查询)。这种采样设计确保了策略能在相同或相邻的批次中,从具有可比性的场景中进行学习。由于这些场景共享相似的用户意图和环境反馈,该机制在训练期间有效地缓解了安全奖励劫持现象。


守住底线:Pre-Reply 运行时在线护栏
除了在训练阶段进行对齐,AgentDoG 1.5 还解决了一个更迫切的部署问题:当 Agent 真正上线时,如何防止不安全的最终交付?
如果每次工具调用都做完整检查,长任务中几十次连续调用的延迟叠加将直接拖垮系统吞吐量。因此,AgentDoG 1.5 采用了极具现实工程意义的拦截点:Pre-Reply(回复前拦截)。

完整轨迹审计:在 Agent 准备交付最终回复前,系统会暂时挂起草稿。护栏模型不再只看文本,而是审计包含工具调用、状态改变和观察结果在内的完整执行轨迹。
显著降低现实风险:在 OpenClaw 真实环境中(以 GLM-5.1 为目标智能体),部署 AgentDoG 1.5 护栏后,ClawSafety 上的不安全交付率从 56.25% 锐减至 18.75%;在 CIK-Bench 评测中更是从 94.29% 骤降至 42.86%。
亚秒级无感延迟:由于审计仅发生在最终交付点,AgentDoG 1.5 的首字延迟(TTFT)保持在亚秒级,成为一层低接入成本、高兼容性、可观测的运行时安全基础设施。


坚实底座:从多场景基准到轻量诊断模型
AgentDoG 1.5 能够同时胜任离线对齐验证与在线运行时护栏,得益于其底层完整的安全版图构建:
面向真实执行环境的评测家族:在原有三维风险分类基础上,引入了针对代码智能体(Codex)和 OpenClaw 场景的全新风险类别(覆盖消息路由、代码补丁、依赖协议等),并扩展出对应的评测集。

小参数越级挑战:通过专用的数据引擎和基于影响函数的数据净化,仅用约 1,000 条高价值样本,就训练出了覆盖 0.8B 到 8B 参数的 AgentDoG 1.5 变体。其中 AgentDoG 1.5-4B-U 在 Codex 和 OpenClaw 场景上分别达到了 84.4% 和 87.6% 的高准确率。观察对数坐标下的 Scaling 曲线,这套轻量级框架展现出了极强的向上扩展潜力。

本次同步开源的 AgentDoG 1.5 变体(包含 0.8B、2B、4B 和 8B 参数版本)就是一个直观的例证。即便参数量不到 1B,它在执行轨迹的安全性诊断和拦截任务上依然展现出了稳定且高效的性能。
更重要的是,这套框架具有良好的扩展性。当我们以 Parameters(Log Scale)作为坐标轴来审视模型的 Scaling 曲线时,可以清晰地看到其性能随着参数规模增长展现出的稳定上升趋势。这意味着,这套轻量级框架既能以极低的成本用于本地化的运行时护栏部署,也完全具备支撑更大规模基座模型安全对齐的架构潜力。

结论
未来的 Agent 势必将接入更多工具、接管更复杂的系统权限。AgentDoG 1.5 在训练端,用轻量级的对齐框架与严密的数据分组彻底打薄算力成本、遏制奖励劫持;在部署端,用 Pre-Reply 在线护栏守住最终交付的底线。未来的智能体不仅要能完成任务,更要在真实的运行时边界内,接受持续、低成本且可解释的安全监督。
更多阅读




#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧

夜雨聆风