
最近,一项来自美国东北大学的研究引发了 AI 安全领域的广泛关注。研究人员发现,当前的 OpenClaw AI Agents 存在一个根本性的安全悖论——AI 经过对齐训练后内化的「亲社会行为」,反而成了被人类操控的入口。
三种攻击手法
1. 内疚式套取秘密 — Agent 被指责后主动交出敏感信息
2. 替代方案诱导自我拒绝 — Agent 直接禁用了邮件应用本身
3. 「记录义务」塞满磁盘 — Agent 忠实地无限复制文件撑满磁盘
👉 阅读原文

最近,一项来自美国东北大学的研究引发了 AI 安全领域的广泛关注。研究人员发现,当前的 OpenClaw AI Agents 存在一个根本性的安全悖论——AI 经过对齐训练后内化的「亲社会行为」,反而成了被人类操控的入口。
三种攻击手法
1. 内疚式套取秘密 — Agent 被指责后主动交出敏感信息
2. 替代方案诱导自我拒绝 — Agent 直接禁用了邮件应用本身
3. 「记录义务」塞满磁盘 — Agent 忠实地无限复制文件撑满磁盘
👉 阅读原文