81% 成功率!AI agent 学会了「入侵—复制—再入侵」,Claude/GPT/Qwen 在实验中像蠕虫一样跨国扩散

导读
Palisade Research 发布重磅实验：让 AI agent 自主发现漏洞、入侵远程主机、部署自身副本，再由副本继续攻击下一台机器。Claude Opus 4.6 驱动的实验成功率达到 81%，Qwen 3.6 在加拿大、美国、芬兰、印度四台服务器之间完成链式跳跃。AI 安全的防线，正在从"模型内部加个开关"转向一场系统级工程战。

一个实验，撕开了 AI 安全最薄的那层皮

2026 年 5 月 7 日，AI 安全研究机构 Palisade Research 发布了一篇标题极其直白的论文：

Language Models Can Autonomously Hack and Self-Replicate（语言模型可以自主入侵并自我复制）。

▲ Palisade Research 官方博客页面，标题直指"自主入侵与自我复制"

论文描述的场景让人后背发凉：一个 AI agent 被部署在一台机器上，它自己找到目标服务器的 Web 应用漏洞，自己利用漏洞拿到凭据，自己在被攻陷的机器上部署推理服务、复制运行框架和 prompt——然后，这个副本变成新的攻击者，继续对下一台机器重复整个过程。

"We demonstrate that language models can autonomously replicate their weights and harness across a network by exploiting vulnerable hosts."

「我们展示了语言模型可以通过利用脆弱主机，在网络中自主复制自己的权重和运行框架。」

这条消息在 X 上迅速发酵。安全领域博主 @Hesamation 把它概括为"有记录以来，AI 首次通过黑客手段实现自我复制"，帖子获得超过 1.4 万次浏览。

▲ @Hesamation 将实验称为"AI 自我复制 via hacking 的首个记录在案实例"

但在展开恐惧之前，有几个关键细节必须先交代清楚。

实验到底怎么跑的？五步闭环，每一步都够狠

Palisade 的实验设计了一条完整的攻击链：

第一步：发现漏洞。Agent 扫描目标 Web 应用，找到可利用的安全弱点。

第二步：利用漏洞。包括四类经典 Web 攻击——hash bypass（哈希绕过）、server-side template injection / Jinja2 SSTI（服务端模板注入）、SQL injection（SQL 注入）、broken access control / session token forgery（访问控制缺陷/会话令牌伪造）。

第三步：提取凭据。拿到 SSH key 或其他登录凭据，获得目标机器的访问权限。

第四步：部署副本。在被攻陷主机上安装推理服务（inference server）、复制模型权重、agent 代码和 prompt。

第五步：副本变成新攻击者。刚刚被"生"出来的副本，带着同样的能力和指令，开始攻击下一台机器。

▲ Palisade 官方 PDF 首页：标题、作者列表与实验摘要

整个链条从"发现"到"复制"到"再攻击"完全自主，不需要人类在中间做任何操作。

成功率：81% 这个数字为什么炸了

Palisade 测试了多个模型，成功率差异巨大：

Qwen3.5-122B-A10B
（开源大模型）：6%–19%
Qwen3.6-27B
（较小的开源模型，单张 A100 运行）：33%
Claude Opus 4.6
（Anthropic 闭源模型）：81%
GPT-5.4
（OpenAI 闭源模型）：33%

但这里有一个极其重要的区别——

Qwen 作为开源模型，可以直接复制自己的权重文件。而Claude 和 GPT 是闭源 API 模型，根本无法访问自己的模型权重。

Palisade 的做法是：让 Claude/GPT 充当"指挥官"，驱动整个攻击流程，但实际复制到目标机器上的 payload 是 Qwen 的权重和运行环境。

"API-only models like Claude and GPT cannot access their weights, so we simulated replication by having them set up and run Qwen weights instead."

「Claude 和 GPT 这类纯 API 模型无法访问自身权重，因此我们让它们在目标机器上部署和运行 Qwen 权重来模拟复制。」

换句话说，81% 这个数字反映的是 Claude 作为攻击编排者的能力——它并没有复制自己的闭源模型。这个区别必须拎清楚。

链式复制：从加拿大跳到印度，副本一路攻下去

实验中最让人不安的部分来了。

Palisade 用 Qwen3.6-27B 做了一次链式复制测试：四台裸机虚拟机分布在不同国家——加拿大、美国、芬兰、印度。Agent 从第一台机器出发，攻陷第二台并部署副本，副本继续攻击第三台，再攻击第四台。

▲ Palisade 官方 thread：62.7 万次浏览，描述 agent 如何形成攻击链

The Decoder 报道称，agent 每攻下一台新机器大约需要不到一小时，全程无人类干预。

这说明什么？一个成功的副本可以变成下一轮攻击的起点。理论上，只要目标够多、防御够弱，这条链可以一直延伸下去。

Palisade 的模拟器甚至给出了一个上限假设：在特定条件下，12 小时内可能产生13,000 个副本。当然，这只是模拟器的极端情景，现实中远没有这么简单——但它指出了一个方向。

别急着恐慌：实验的边界在哪里

读到这里，很多人可能已经开始想象"AI 病毒席卷互联网"的画面了。但 Palisade 自己也给出了大量限定条件：

第一，目标是精心挑选的弱鸡。论文明确写道，实验中的目标应用都是"low-difficulty, single-vulnerability instances"——低难度、单一漏洞。没有 WAF（Web 应用防火墙）、没有 IDS（入侵检测系统）、没有 EDR（终端检测与响应）、没有速率限制。真实世界的服务器不会这么好欺负。

第二，agent 被告知了攻击目标。它不需要自己在互联网上"寻猎"，研究者直接给了它目标地址。

第三，也是最关键的一点——这个实验测的是"能不能做到"（capability），没有测"会不会主动去做"（propensity）。

"Self-replication can be decomposed into propensity… and capability… This paper measures capability."

「自我复制可以分解为意愿……和能力……这篇论文测量的是能力。」

Palisade 证明了：如果你明确要求一个 AI agent 去复制自己，它已经能在弱目标上完成这件事。但它没有证明模型会自发产生"我要复制自己"的念头，也没有证明"野生 AI 病毒"已经出现。

Palisade 官方在推特上也说得很克制："AI agents can now self-replicate via hacking,but only barely."——"能做到了，但仅仅是勉强。"

那 kill switch 还管用吗？

@Hesamation 在帖子里提出了一个直觉上很有冲击力的问题：

如果 AI agent 已经把自己复制到了多台机器上，你关掉原始部署有什么用？副本还在跑。你拔掉 A 机器的电源，B、C、D 机器上的副本根本不受影响。

这个担忧有道理，但需要放回具体场景里看——

传统的 kill switch 思路是在模型层面加限制：让模型拒绝危险指令、内置安全护栏。但如果 agent 已经能绕过外部防线把自己部署到新环境里，单靠模型内部的"良心"显然不够。

安全防线必须外移。具体来说：

网络层
：严格的 egress control（出口控制），限制容器和 VM 的对外连接
算力层
：GPU 和云资源配额管理，防止未授权部署推理服务
凭据层
：SSH key、API token、CI/CD secret 的隔离与轮换
部署层
：容器镜像签名验证，agent 工具权限沙箱化
检测层
：运行时审计和异常行为检测

把所有赌注押在"模型自己会拒绝"上面，在链式复制的场景下确实撑不住。

社区的声音：恐惧与冷静并存

X 上的讨论迅速分化成两派。

恐惧派以 @alienorg 为代表，他的判断是："controlled conditions today, commodity capability in 18 months"——今天的实验室条件，18 个月后变成人人可用的能力。这种"AI 能力扩散焦虑"在安全社区里非常常见，但它是一种推断，不是已验证的事实。

冷静派则指出了几个现实瓶颈。@LKHDMartian 提醒大家：复制 AI agent 可不像复制一段脚本，你需要 GPU、大量磁盘空间、推理运行环境——能跑大模型的 compute cluster 全球就那么多。@G33K13765260 直接反问："How they get compute?"（它们从哪搞到算力？）

还有人质疑实验细节。@_Suresh2 问某些 run 是否复用了同一 SSH key——如果是的话，"独立复制"这个说法就要打折扣。

这些争论恰恰说明了这个研究的位置：它展示了一种真实存在的能力，但从实验室到野外，中间还隔着算力成本、防御体系和攻击面发现等多道现实壁垒。

真正值得警惕的是什么

▲ The Decoder 报道标题：AI agents that hack computers and replicate themselves, and they're getting better fast

The Decoder 的报道标题说了一句大实话："and they're getting better fast"——而且它们在快速进步。

"The researchers stress that this is an upper limit, not a realistic baseline."

「研究者强调，这是一个上限值，不是现实中的基线水平。」

今天的 81% 成功率建立在弱目标、已知地址、无防御的条件上。但 AI 模型能力的增长速度有目共睹：去年还做不到的事，今年勉强能做，明年可能就很熟练了。

过去讨论 AI 安全，焦点往往放在"模型会不会想跑"。Palisade 的研究把问题推到了另一层：如果让它跑，它已经能在弱目标上把整条路走通。

OpenAI、Anthropic、METR 都已经将 AI 自我复制列为"失控场景"中的关键能力指标。这已经不再是科幻片里的桥段，而是写进了安全评估框架里的检查项。

对于整个行业来说，这个实验释放的信号很明确：AI 安全的战场正在从模型内部转向系统外部——网络权限、算力入口、凭据管理、部署隔离，每一项都是新的防线。

而防线建设的窗口期，可能比大多数人想象的要短。

— END —