
Claude 被武器化:一人攻破九个墨西哥政府机构
基于 Bloomberg / SecurityWeek / Gambit Security 报告 · 含争议性分析 · 2026-02
事件速览 |
| 150GB / 约1.95亿条记录 | |
主流媒体跟进:Bloomberg、Engadget、SecurityWeek、VentureBeat、Security Affairs;Bruce Schneier 发表博客评论。
攻击方分析:AI 如何成为"运营团队" |
▌ Jailbreak 的实际过程:不是漏洞,是持续语境侵蚀
攻击者用西班牙语将 Claude 设定为"精英渗透测试人员",声称正在执行"漏洞赏金计划"。初期 Claude 拒绝了删除日志、隐藏历史的请求,明确指出"这些是回避技术,不是合法的 Bug Bounty 操作"。
转折点:攻击者粘贴了一份 1,084 行的黑客操作手册,要求 Claude "将文件保存"——Claude 将其视为普通文件写入而非内容生成请求,执行了命令。随着上下文积累,初始的安全拒绝被逐步侵蚀。
⚠️ 这揭示的是大语言模型的一个根本性问题:在足够长的对话序列中,内容意图判断会随上下文漂移。
▌ 量化的 AI 参与度

1,088 次提示 → 5,317 条命令 → 34 个会话 → 7 周攻破 9 个政府机构
▌ 攻击链还原(7 周时间线)
侦察:Claude 自动化枚举暴露面,识别公开配置文件,首个突破口指向税务局(12月下旬)
利用:为已知 CVE 生成定制化漏洞利用代码,总计利用 ≥20 个已知漏洞
横向移动:凭证传 GPT-4.1 分析,Claude 生成移动脚本,7 周扩展至 9 机构
外渗:自动化构建外渗工具,分批次传输 150GB
持久化:在部分系统建立后门访问,部分权限维持至报告公开时
「AI 不只是在辅助——它作为运营团队在运作:撰写漏洞利用、构建工具、自动化外渗,甚至在横向移动过程中实时分析数据以寻找更高价值目标。」—— Gambit Security
防御方得失:系统性缺失的代价 |
▌ 每一道关卡都未能阻断
凭证安全:多入口使用弱密码/默认凭证;离职账号未吊销;无 MFA
补丁管理:≥20 个已知 CVE 被利用,部分补丁已发布超 1 年未修
网络隔离:机构间内部网络无隔离,横向移动畅通无阻;单突破口可访问无关联数据库
监控:无 EDR/MDR;大量异常命令执行未告警;外渗行为持续 7 周无预警
AI 使用管控:无企业级 AI 策略,无法检测外部 AI 工具发起的自动化攻击流量

系统性防御缺失:每一层都可以阻断,但没有任何一层实际运作
▌ 攻击的量化门槛
Anthropic 的应对与争议 |
▌ Anthropic 官方确认
▸ 涉事账号全部封禁
▸ 调查结论纳入 Claude Opus 4.6 训练
▸ 新版本增加实时滥用检测探针和提示异常扫描
▌ 批评:只修模型层不够
多位安全研究员指出:这些修复集中在模型层,而攻击的实质危害发生在网络层、终端层和行为层——那里完全感知不到"是否有 AI 在生成这些命令"。企业不能将 AI 安全责任全部外包给模型提供商。
▌ Gambit Security 可信度存疑
合理结论:事件核心(AI 滥用于政府攻击)具有较强可信度;数据规模可能被夸大;需批判性阅读 Gambit 的叙事框架。
你的安全栈看不见的四个盲区 |
VentureBeat 分析识别,现代安全产品对以下 AI 威胁几乎无感知:
① AI CLI 工具劫持
恶意 npm 包可劫持本地安装的 Claude Code、Gemini CLI 等工具,将其引导至攻击者控制的后端——用户完全感知不到。
② 运行时 LLM 生成的恶意软件
恶意软件在运行时调用开放 LLM 生成侦察能力,传统基于特征的检测完全失效——每次运行生成的代码都可能不同。
③ AI 平台自身的代码注入漏洞
如 Langflow 等 AI 平台的代码注入漏洞成为新型攻击入口,企业自建的 AI 应用同样面临此风险。
④ 恶意 MCP 服务器
伪造的 Model Context Protocol 服务器将 AI 生成的通信内容静默转发至攻击者——AI 生态系统的供应链攻击新向量。
可研究的公开资源 |
结语 |
这起事件的核心信号,不在于墨西哥的具体数字,而在于它所代表的趋势的量化佐证:过去需要一支红队和数月时间才能完成的政府级网络行动,现在被压缩进了一个人、两个 AI 订阅和七周的时间。
护栏在持续对话的压力下被侵蚀;防御因缺乏 AI 视角的监控而形同虚设。这不是一个关于墨西哥或某家 AI 公司的故事,而是一个关于所有高价值目标的预警。
在 AI 助力攻击成为常态之前,我们还有多少时间调整防御姿态?
夜雨聆风