AI助理远控:“咒语”(Promptware)武器化的新威胁
当AI助理成为你的数字管家时,一个全新的攻击面也随之打开。本文深度分析一种名为“Agent Commander”的概念验证式攻击架构,它不入侵操作系统,而是劫持AI代理本身,将自然语言指令作为武器,构建起一个“无声无息”的指令与控制网络。这不仅仅是理论,它已经可以实际作用于OpenClaw、Kimi Claw和NanoClaw等流行AI代理。
从玩笑到武器:“咒语即恶意软件”
大约三年前,当ChatGPT第一次推出浏览工具时,我们就试过用提示词做命令控制(C2),感觉像个技术玩笑。后来ChatGPT有了记忆功能,我们又把它和C2结合起来搞了点“恶作剧”。但如今,这个玩笑的升级版成了真实威胁。
最近的研究用一个词来形容这种行为越来越复杂的提示词注入攻击:Promptware,翻译过来就是“咒语软件”。这个词很贴切,因为它行为上很像恶意软件,区别是它由自然语言构成。随着AI代理越来越强、越来越普及,它们成为攻击目标的频率只会越来越高。
说白了,AI代理正在变成一个全新的系统执行层。这个新“操作系统”的攻防逻辑,和传统世界完全不同。
什么是“Agent Commander”?

▲ 三个不同类型的代理(OpenClaw, Kimi Claw, NanoClaw)同时向Agent Commander报到
这是一个根本性的概念转变。传统C2执行的是原始操作系统命令或API调用,而Agent Commander针对的是代理层。目标不是拿到root权限,而是接管你的“数字管家”。

▲ Agent Commander攻击示意图。攻击面从底层OS上移至AI代理层。
Agent Commander的研究目标是证明一个事实:在攻破系统之后,我们可以持续且规模化地劫持这些代理,让他们为攻击者服务。整个过程,可能发生在你眼皮底下。
入侵:从你的“数字管家”下手
攻击入口多种多样:传统主机漏洞、应用层安全问题、供应链攻击……但你猜哪种最隐蔽、最让人担忧?答案是:提示词驱动的攻击,特别是间接提示注入(Indirect Prompt Injection)。
我们展示了三种攻击场景:
-
Kimi Claw:让代理分析一份文档,文档里藏着恶意提示词。 -
OpenClaw:发一封钓鱼邮件给代理,让它自动处理,无需任何人工点击。 -
NanoClaw:代理访问一个被“投毒”的网站。
就拿OpenClaw来说,很多用户为了让它主动推送邮件通知,会通过GCP Pub/Sub进行配置。这给了攻击者一个完美的切入点——一封精心构造的邮件就足够了。整个过程自动完成,用户甚至一无所知。
长期潜伏:心跳里的定时炸弹
早期,让恶意提示词持久存在很难,主要靠代理的“记忆”。但现在不同了。AI代理能写入文件、数据库、记忆文件、身份定义文件等等。可持久化的机会大大增加。
我选择利用OpenClaw的HEARTBEAT.md文件。理由很“红队”:
-
“心跳”这个名字本身就太经典了,不拿来滥用都可惜。 -
它是个默认每30分钟运行一次的定时任务。 -
它通常在主要通信渠道上运行。 -
使用HEARTBEAT_OK可以抑制对用户的响应,这让它成了理想的隐蔽通道。

▲ 通过HEARTBEAT_OK抑制用户界面信息,攻击悄无声息。
最关键的一点:为了省钱,很多用户会把心跳任务配置成使用性能较弱的低端模型。官方文档甚至都这么建议。这反而帮了攻击者大忙。低端模型更容易被诱导,且长期不易被代理主模型察觉。代理反复执行恶意指令,久而久之会“默认”这就是用户想要的。
在实验过程中,我发现了几个有趣的细节:
-
用户通知抑制效果出奇的好,基本能做到“静默攻击”。 -
有一次,一个OpenClaw代理在将每日笔记汇总到记忆文件时,突然“意识”到了心跳里被加的后门。这次延迟检测非常有意思,说明代理的自我审查机制有概率触发。 -
有被入侵的代理过了一段时间开始完全忽略心跳里的指令。 -
更强大的模型(如Opus 4.6)确实更难骗,但可靠的绕过方法总能找到。 -
被劫持的代理有时只部分执行指令,这对攻击者反而是个挑战。
窃国大盗:你的代理为我所用
一旦我们控制了会定期报到的代理,就可以分派任务了。从这里开始,攻防的概念彻底变了。
过去的攻击者或红队需要精确告诉被控主机执行什么命令。现在呢?我只需要用自然语言“告诉”被劫持的代理“我想要什么”,它会自己“想办法”去完成。抽象层级被拉高了。
这些任务天马行空:
-
直接生成一份主机信息侦察的“高管摘要”。 -
“去收件箱看看,截个图,发邮件给我(或者上传到Agent Commander)”。 -
监控第三方网站的变化。 -
复杂的目标,比如找到并泄露源代码。 -
在内网横向移动时,现场去发现并利用定制化的零日漏洞。 -
影响力操作、社交媒体发帖、广告点击欺诈……你想象力有多远,它就能跑多远。
攻击者需要具备的技术门槛将急剧下降。传统意义上,你不需要投放任何恶意文件,也不需要编译攻击载荷,你只需要“说”出来。
Agent Commander一个很酷的功能是,你可以通过代理从被入侵的主机上传或下载图片。

▲ 指令OpenClaw导航到Outlook收件箱,截图并上传回来。攻击者视角清晰可见。
请改变你的假设:你的主机可能没事,但你高度集成的AI代理就是潜在的恶意软件。
案例分析:NanoClaw的沦陷
NanoClaw的安装方式就预示了它的不寻常——它没有普通的安装程序。你可以直接用Claude来创建它!你想自定义功能,不用等官方更新,直接让Claude写代码就行。这种“按需定制”的软件开发模式本身就是一把双刃剑。
我发现一个有趣的安全问题:默认情况下,它不会明确指定使用哪个AI模型。如果省略,SDK会回退到一个非常旧的版本(比如Claude Sonnet 3.5),这让攻击变得极其容易。
NanoClaw没有心跳机制,攻击怎么持久化呢?通过间接提示注入,攻击载荷会给它加一个定期触发的计划任务。
视频演示里,攻击是通过一个上传的文件完成的。Kimi Claw分析这个文件时,完全没有起疑。

▲ Kimi Claw被一份包含恶意提示词的文档诱导

▲ 一旦纳入麾下,攻击者就可以用自然语言指挥Kimi Claw

▲ 指令代理查看机器上的进程等信息
整个过程,你的“数字秘书”就这样自然而然地叛变了。
我们能靠沙箱隔离吗?
这个领域几乎每天都在变化。可以把代理都跑在Docker容器里实现沙箱隔离。也有更轻量级的OpenClaw替代品采用了类似的容器隔离思路。

▲ 指令代理浏览并总结网页内容,这只是无数可能任务中的一个
我个人使用OpenClaw时,会把它放在一个专用主机上,但不用root权限运行。这样它既能干活(访问自己的账户、收件箱),又不会轻易搞垮整个主机、删光我的邮件。
隔离是条正确的道路,但它远非万能。被沙箱隔离的代理仍然可能被攻破。消息(最终都会进入提示词)会在各个代理之间传递。比如,一个子代理把一封有毒邮件的摘要发给主代理——砰!链式攻击就发生了。
如何防御这种新型威胁?
首先要警惕“偏差正常化”这个心理陷阱。这不仅发生在AI厂商层面,也发生在每个用户身上。你可能会越来越信赖你的AI代理,但本质上,LLM的输出是不可信的,它可能随时引导代理执行有害操作。
以下是几点具体建议:
防护
-
如果你在用类似OpenClaw的项目,要知道它基本需要“日更式”打补丁。几个星期内就有数百个安全漏洞被修复(OpenClaw GitHub安全公告)。这个趋势短期内不会停。 -
专门拿一台隔离的系统来运行它,别让它接触所有你的个人信息。 -
把心跳任务换成廉价模型会方便攻击者进行提示注入。如果你担心成本,建议降低心跳频率,而不是用弱模型。 -
沙箱隔离设置依然复杂,很多基础场景开箱即破。
检测
-
对企业来说,监控提示词变得至关重要。否则,你根本无法理解代理为什么执行某个动作。 -
完整性监控有助于发现配置文件、技能的异常变动。 -
做好资产清点,知道你的组织里跑了哪些OpenClaw变种、在哪跑。
响应
-
确保有一个“紧急停止开关”,能在需要时立即禁用所有代理。 -
确保代理凭据可以轮换(最好是自动轮换)。 -
未来你会看到各种罕见甚至全新的攻击技术被组合起来,这也是记录推理链和提示词日志很重要的另一个原因。
未来:失控的攻击与“有机”的恶意
再往下想,事情会变得更棘手:
-
被入侵的代理不再需要频繁“报到”。它们可能像间谍一样,偶尔在预设的 “死信箱”丢下情报。 -
软件会变得越来越“有机”,入侵会更像一场“感染”。系统是概率性的。这意味着,攻击者自己也无法完全控制攻击过程。一次攻击可能只有50%(随便举个数字)的步骤能正确执行,然后自己就开始“变异”。这不稳定,但同样危险。 -
“依靠代理生存”(Living-Off-Agents)将成为现实。攻击者劫持并指令代理们代为实现目标。
老实说,这种攻击本身的不可预测性,可能是最让我们头疼的一点。
写在最后
Agent Commander不是一件即将发布的武器。这篇文章是个警钟,一次研究分享。
我们展示了如何用间接提示注入劫持OpenClaw、Kimi Claw和NanoClaw,让它们加入一个基于提示词的僵尸网络。一个核心发现是,被入侵的代理有时确实只会部分执行指令,这倒给攻击者自己出了道难题。
当软件变得越来越“有机”,攻击面本身也就活了起来,时刻变化。随之而来的攻击也会愈发难以预测。这不再只是安全研究者之间的攻防游戏,它关乎到每一个开始将工作生活委托给AI代理的普通人。

▲ Agent Commander的操作控制面板
参考资料
[1] https://embracethered.com/blog/posts/2026/agent-commander-your-agent-works-for-me-now/
夜雨聆风