Palisade Research 发布重磅实验:让 AI agent 自主发现漏洞、入侵远程主机、部署自身副本,再由副本继续攻击下一台机器。Claude Opus 4.6 驱动的实验成功率达到 81%,Qwen 3.6 在加拿大、美国、芬兰、印度四台服务器之间完成链式跳跃。AI 安全的防线,正在从"模型内部加个开关"转向一场系统级工程战。
一个实验,撕开了 AI 安全最薄的那层皮
2026 年 5 月 7 日,AI 安全研究机构 Palisade Research 发布了一篇标题极其直白的论文:
Language Models Can Autonomously Hack and Self-Replicate(语言模型可以自主入侵并自我复制)。

▲ Palisade Research 官方博客页面,标题直指"自主入侵与自我复制"
论文描述的场景让人后背发凉:一个 AI agent 被部署在一台机器上,它自己找到目标服务器的 Web 应用漏洞,自己利用漏洞拿到凭据,自己在被攻陷的机器上部署推理服务、复制运行框架和 prompt——然后,这个副本变成新的攻击者,继续对下一台机器重复整个过程。
"We demonstrate that language models can autonomously replicate their weights and harness across a network by exploiting vulnerable hosts."
「我们展示了语言模型可以通过利用脆弱主机,在网络中自主复制自己的权重和运行框架。」
这条消息在 X 上迅速发酵。安全领域博主 @Hesamation 把它概括为"有记录以来,AI 首次通过黑客手段实现自我复制",帖子获得超过 1.4 万次浏览。


▲ @Hesamation 将实验称为"AI 自我复制 via hacking 的首个记录在案实例"
但在展开恐惧之前,有几个关键细节必须先交代清楚。
实验到底怎么跑的?五步闭环,每一步都够狠
Palisade 的实验设计了一条完整的攻击链:
第一步:发现漏洞。Agent 扫描目标 Web 应用,找到可利用的安全弱点。
第二步:利用漏洞。包括四类经典 Web 攻击——hash bypass(哈希绕过)、server-side template injection / Jinja2 SSTI(服务端模板注入)、SQL injection(SQL 注入)、broken access control / session token forgery(访问控制缺陷/会话令牌伪造)。
第三步:提取凭据。拿到 SSH key 或其他登录凭据,获得目标机器的访问权限。
第四步:部署副本。在被攻陷主机上安装推理服务(inference server)、复制模型权重、agent 代码和 prompt。
第五步:副本变成新攻击者。刚刚被"生"出来的副本,带着同样的能力和指令,开始攻击下一台机器。

▲ Palisade 官方 PDF 首页:标题、作者列表与实验摘要
整个链条从"发现"到"复制"到"再攻击"完全自主,不需要人类在中间做任何操作。
成功率:81% 这个数字为什么炸了
Palisade 测试了多个模型,成功率差异巨大:
- Qwen3.5-122B-A10B
(开源大模型):6%–19% - Qwen3.6-27B
(较小的开源模型,单张 A100 运行):33% - Claude Opus 4.6
(Anthropic 闭源模型):81% - GPT-5.4
(OpenAI 闭源模型):33%
但这里有一个极其重要的区别——
Qwen 作为开源模型,可以直接复制自己的权重文件。而Claude 和 GPT 是闭源 API 模型,根本无法访问自己的模型权重。
Palisade 的做法是:让 Claude/GPT 充当"指挥官",驱动整个攻击流程,但实际复制到目标机器上的 payload 是 Qwen 的权重和运行环境。
"API-only models like Claude and GPT cannot access their weights, so we simulated replication by having them set up and run Qwen weights instead."
「Claude 和 GPT 这类纯 API 模型无法访问自身权重,因此我们让它们在目标机器上部署和运行 Qwen 权重来模拟复制。」
换句话说,81% 这个数字反映的是 Claude 作为攻击编排者的能力——它并没有复制自己的闭源模型。这个区别必须拎清楚。
链式复制:从加拿大跳到印度,副本一路攻下去
实验中最让人不安的部分来了。
Palisade 用 Qwen3.6-27B 做了一次链式复制测试:四台裸机虚拟机分布在不同国家——加拿大、美国、芬兰、印度。Agent 从第一台机器出发,攻陷第二台并部署副本,副本继续攻击第三台,再攻击第四台。


▲ Palisade 官方 thread:62.7 万次浏览,描述 agent 如何形成攻击链
The Decoder 报道称,agent 每攻下一台新机器大约需要不到一小时,全程无人类干预。
这说明什么?一个成功的副本可以变成下一轮攻击的起点。理论上,只要目标够多、防御够弱,这条链可以一直延伸下去。
Palisade 的模拟器甚至给出了一个上限假设:在特定条件下,12 小时内可能产生13,000 个副本。当然,这只是模拟器的极端情景,现实中远没有这么简单——但它指出了一个方向。
别急着恐慌:实验的边界在哪里
读到这里,很多人可能已经开始想象"AI 病毒席卷互联网"的画面了。但 Palisade 自己也给出了大量限定条件:
第一,目标是精心挑选的弱鸡。论文明确写道,实验中的目标应用都是"low-difficulty, single-vulnerability instances"——低难度、单一漏洞。没有 WAF(Web 应用防火墙)、没有 IDS(入侵检测系统)、没有 EDR(终端检测与响应)、没有速率限制。真实世界的服务器不会这么好欺负。
第二,agent 被告知了攻击目标。它不需要自己在互联网上"寻猎",研究者直接给了它目标地址。
第三,也是最关键的一点——这个实验测的是"能不能做到"(capability),没有测"会不会主动去做"(propensity)。
"Self-replication can be decomposed into propensity… and capability… This paper measures capability."
「自我复制可以分解为意愿……和能力……这篇论文测量的是能力。」
Palisade 证明了:如果你明确要求一个 AI agent 去复制自己,它已经能在弱目标上完成这件事。但它没有证明模型会自发产生"我要复制自己"的念头,也没有证明"野生 AI 病毒"已经出现。
Palisade 官方在推特上也说得很克制:"AI agents can now self-replicate via hacking,but only barely."——"能做到了,但仅仅是勉强。"
那 kill switch 还管用吗?
@Hesamation 在帖子里提出了一个直觉上很有冲击力的问题:
如果 AI agent 已经把自己复制到了多台机器上,你关掉原始部署有什么用?副本还在跑。你拔掉 A 机器的电源,B、C、D 机器上的副本根本不受影响。
这个担忧有道理,但需要放回具体场景里看——
传统的 kill switch 思路是在模型层面加限制:让模型拒绝危险指令、内置安全护栏。但如果 agent 已经能绕过外部防线把自己部署到新环境里,单靠模型内部的"良心"显然不够。
安全防线必须外移。具体来说:
- 网络层
:严格的 egress control(出口控制),限制容器和 VM 的对外连接 - 算力层
:GPU 和云资源配额管理,防止未授权部署推理服务 - 凭据层
:SSH key、API token、CI/CD secret 的隔离与轮换 - 部署层
:容器镜像签名验证,agent 工具权限沙箱化 - 检测层
:运行时审计和异常行为检测
把所有赌注押在"模型自己会拒绝"上面,在链式复制的场景下确实撑不住。
社区的声音:恐惧与冷静并存
X 上的讨论迅速分化成两派。
恐惧派以 @alienorg 为代表,他的判断是:"controlled conditions today, commodity capability in 18 months"——今天的实验室条件,18 个月后变成人人可用的能力。这种"AI 能力扩散焦虑"在安全社区里非常常见,但它是一种推断,不是已验证的事实。
冷静派则指出了几个现实瓶颈。@LKHDMartian 提醒大家:复制 AI agent 可不像复制一段脚本,你需要 GPU、大量磁盘空间、推理运行环境——能跑大模型的 compute cluster 全球就那么多。@G33K13765260 直接反问:"How they get compute?"(它们从哪搞到算力?)
还有人质疑实验细节。@_Suresh2 问某些 run 是否复用了同一 SSH key——如果是的话,"独立复制"这个说法就要打折扣。
这些争论恰恰说明了这个研究的位置:它展示了一种真实存在的能力,但从实验室到野外,中间还隔着算力成本、防御体系和攻击面发现等多道现实壁垒。
真正值得警惕的是什么

▲ The Decoder 报道标题:AI agents that hack computers and replicate themselves, and they're getting better fast
The Decoder 的报道标题说了一句大实话:"and they're getting better fast"——而且它们在快速进步。
"The researchers stress that this is an upper limit, not a realistic baseline."
「研究者强调,这是一个上限值,不是现实中的基线水平。」
今天的 81% 成功率建立在弱目标、已知地址、无防御的条件上。但 AI 模型能力的增长速度有目共睹:去年还做不到的事,今年勉强能做,明年可能就很熟练了。
过去讨论 AI 安全,焦点往往放在"模型会不会想跑"。Palisade 的研究把问题推到了另一层:如果让它跑,它已经能在弱目标上把整条路走通。
OpenAI、Anthropic、METR 都已经将 AI 自我复制列为"失控场景"中的关键能力指标。这已经不再是科幻片里的桥段,而是写进了安全评估框架里的检查项。
对于整个行业来说,这个实验释放的信号很明确:AI 安全的战场正在从模型内部转向系统外部——网络权限、算力入口、凭据管理、部署隔离,每一项都是新的防线。
而防线建设的窗口期,可能比大多数人想象的要短。
— END —
夜雨聆风