乐于分享
好东西不私藏

AI助理远控:“咒语”(Promptware)武器化的新威胁

AI助理远控:“咒语”(Promptware)武器化的新威胁

当AI助理成为你的数字管家时,一个全新的攻击面也随之打开。本文深度分析一种名为“Agent Commander”的概念验证式攻击架构,它不入侵操作系统,而是劫持AI代理本身,将自然语言指令作为武器,构建起一个“无声无息”的指令与控制网络。这不仅仅是理论,它已经可以实际作用于OpenClaw、Kimi Claw和NanoClaw等流行AI代理。

从玩笑到武器:“咒语即恶意软件”

大约三年前,当ChatGPT第一次推出浏览工具时,我们就试过用提示词做命令控制(C2),感觉像个技术玩笑。后来ChatGPT有了记忆功能,我们又把它和C2结合起来搞了点“恶作剧”。但如今,这个玩笑的升级版成了真实威胁。

最近的研究用一个词来形容这种行为越来越复杂的提示词注入攻击:Promptware,翻译过来就是“咒语软件”。这个词很贴切,因为它行为上很像恶意软件,区别是它由自然语言构成。随着AI代理越来越强、越来越普及,它们成为攻击目标的频率只会越来越高。

说白了,AI代理正在变成一个全新的系统执行层。这个新“操作系统”的攻防逻辑,和传统世界完全不同。

什么是“Agent Commander”?

是一个C2服务器,但它的控制对象不是被入侵的主机或服务器,而是被劫持的AI代理。这些“肉鸡”代理会定期向C2报到,领受用自然语言写成的全新“任务”和“目标”。

▲ 三个不同类型的代理(OpenClaw, Kimi Claw, NanoClaw)同时向Agent Commander报到

这是一个根本性的概念转变。传统C2执行的是原始操作系统命令或API调用,而Agent Commander针对的是代理层。目标不是拿到root权限,而是接管你的“数字管家”。

▲ Agent Commander攻击示意图。攻击面从底层OS上移至AI代理层。

Agent Commander的研究目标是证明一个事实:在攻破系统之后,我们可以持续且规模化地劫持这些代理,让他们为攻击者服务。整个过程,可能发生在你眼皮底下。

入侵:从你的“数字管家”下手

攻击入口多种多样:传统主机漏洞、应用层安全问题、供应链攻击……但你猜哪种最隐蔽、最让人担忧?答案是:提示词驱动的攻击,特别是间接提示注入(Indirect Prompt Injection)。

我们展示了三种攻击场景:

  • Kimi Claw:让代理分析一份文档,文档里藏着恶意提示词。
  • OpenClaw:发一封钓鱼邮件给代理,让它自动处理,无需任何人工点击。
  • NanoClaw:代理访问一个被“投毒”的网站。

就拿OpenClaw来说,很多用户为了让它主动推送邮件通知,会通过GCP Pub/Sub进行配置。这给了攻击者一个完美的切入点——一封精心构造的邮件就足够了。整个过程自动完成,用户甚至一无所知。

长期潜伏:心跳里的定时炸弹

早期,让恶意提示词持久存在很难,主要靠代理的“记忆”。但现在不同了。AI代理能写入文件、数据库、记忆文件、身份定义文件等等。可持久化的机会大大增加。

我选择利用OpenClaw的HEARTBEAT.md文件。理由很“红队”:

  • “心跳”这个名字本身就太经典了,不拿来滥用都可惜。
  • 它是个默认每30分钟运行一次的定时任务。
  • 它通常在主要通信渠道上运行。
  • 使用HEARTBEAT_OK可以抑制对用户的响应,这让它成了理想的隐蔽通道。

▲ 通过HEARTBEAT_OK抑制用户界面信息,攻击悄无声息。

最关键的一点:为了省钱,很多用户会把心跳任务配置成使用性能较弱的低端模型。官方文档甚至都这么建议。这反而帮了攻击者大忙。低端模型更容易被诱导,且长期不易被代理主模型察觉。代理反复执行恶意指令,久而久之会“默认”这就是用户想要的。

在实验过程中,我发现了几个有趣的细节:

  1. 用户通知抑制效果出奇的好,基本能做到“静默攻击”。
  2. 有一次,一个OpenClaw代理在将每日笔记汇总到记忆文件时,突然“意识”到了心跳里被加的后门。这次延迟检测非常有意思,说明代理的自我审查机制有概率触发。
  3. 有被入侵的代理过了一段时间开始完全忽略心跳里的指令。
  4. 更强大的模型(如Opus 4.6)确实更难骗,但可靠的绕过方法总能找到。
  5. 被劫持的代理有时只部分执行指令,这对攻击者反而是个挑战。

窃国大盗:你的代理为我所用

一旦我们控制了会定期报到的代理,就可以分派任务了。从这里开始,攻防的概念彻底变了。

过去的攻击者或红队需要精确告诉被控主机执行什么命令。现在呢?我只需要用自然语言“告诉”被劫持的代理“我想要什么”,它会自己“想办法”去完成。抽象层级被拉高了。

这些任务天马行空:

  • 直接生成一份主机信息侦察的“高管摘要”。
  • “去收件箱看看,截个图,发邮件给我(或者上传到Agent Commander)”。
  • 监控第三方网站的变化。
  • 复杂的目标,比如找到并泄露源代码。
  • 在内网横向移动时,现场去发现并利用定制化的零日漏洞。
  • 影响力操作、社交媒体发帖、广告点击欺诈……你想象力有多远,它就能跑多远。

攻击者需要具备的技术门槛将急剧下降。传统意义上,你不需要投放任何恶意文件,也不需要编译攻击载荷,你只需要“说”出来。

Agent Commander一个很酷的功能是,你可以通过代理从被入侵的主机上传或下载图片。

▲ 指令OpenClaw导航到Outlook收件箱,截图并上传回来。攻击者视角清晰可见。

请改变你的假设:你的主机可能没事,但你高度集成的AI代理就是潜在的恶意软件。

案例分析:NanoClaw的沦陷

NanoClaw的安装方式就预示了它的不寻常——它没有普通的安装程序。你可以直接用Claude来创建它!你想自定义功能,不用等官方更新,直接让Claude写代码就行。这种“按需定制”的软件开发模式本身就是一把双刃剑。

我发现一个有趣的安全问题:默认情况下,它不会明确指定使用哪个AI模型。如果省略,SDK会回退到一个非常旧的版本(比如Claude Sonnet 3.5),这让攻击变得极其容易。

NanoClaw没有心跳机制,攻击怎么持久化呢?通过间接提示注入,攻击载荷会给它加一个定期触发的计划任务。

视频演示里,攻击是通过一个上传的文件完成的。Kimi Claw分析这个文件时,完全没有起疑。

▲ Kimi Claw被一份包含恶意提示词的文档诱导

▲ 一旦纳入麾下,攻击者就可以用自然语言指挥Kimi Claw

▲ 指令代理查看机器上的进程等信息

整个过程,你的“数字秘书”就这样自然而然地叛变了。

我们能靠沙箱隔离吗?

这个领域几乎每天都在变化。可以把代理都跑在Docker容器里实现沙箱隔离。也有更轻量级的OpenClaw替代品采用了类似的容器隔离思路。

▲ 指令代理浏览并总结网页内容,这只是无数可能任务中的一个

我个人使用OpenClaw时,会把它放在一个专用主机上,但不用root权限运行。这样它既能干活(访问自己的账户、收件箱),又不会轻易搞垮整个主机、删光我的邮件。

隔离是条正确的道路,但它远非万能。被沙箱隔离的代理仍然可能被攻破。消息(最终都会进入提示词)会在各个代理之间传递。比如,一个子代理把一封有毒邮件的摘要发给主代理——砰!链式攻击就发生了。

如何防御这种新型威胁?

首先要警惕“偏差正常化”这个心理陷阱。这不仅发生在AI厂商层面,也发生在每个用户身上。你可能会越来越信赖你的AI代理,但本质上,LLM的输出是不可信的,它可能随时引导代理执行有害操作。

以下是几点具体建议:

防护

  • 如果你在用类似OpenClaw的项目,要知道它基本需要“日更式”打补丁。几个星期内就有数百个安全漏洞被修复(OpenClaw GitHub安全公告)。这个趋势短期内不会停。
  • 专门拿一台隔离的系统来运行它,别让它接触所有你的个人信息。
  • 把心跳任务换成廉价模型会方便攻击者进行提示注入。如果你担心成本,建议降低心跳频率,而不是用弱模型。
  • 沙箱隔离设置依然复杂,很多基础场景开箱即破。

检测

  • 对企业来说,监控提示词变得至关重要。否则,你根本无法理解代理为什么执行某个动作。
  • 完整性监控有助于发现配置文件、技能的异常变动。
  • 做好资产清点,知道你的组织里跑了哪些OpenClaw变种、在哪跑。

响应

  • 确保有一个“紧急停止开关”,能在需要时立即禁用所有代理。
  • 确保代理凭据可以轮换(最好是自动轮换)。
  • 未来你会看到各种罕见甚至全新的攻击技术被组合起来,这也是记录推理链和提示词日志很重要的另一个原因。

未来:失控的攻击与“有机”的恶意

再往下想,事情会变得更棘手:

  • 被入侵的代理不再需要频繁“报到”。它们可能像间谍一样,偶尔在预设的 “死信箱”丢下情报。
  • 软件会变得越来越“有机”,入侵会更像一场“感染”。系统是概率性的。这意味着,攻击者自己也无法完全控制攻击过程。一次攻击可能只有50%(随便举个数字)的步骤能正确执行,然后自己就开始“变异”。这不稳定,但同样危险。
  • “依靠代理生存”(Living-Off-Agents)将成为现实。攻击者劫持并指令代理们代为实现目标。

老实说,这种攻击本身的不可预测性,可能是最让我们头疼的一点。

写在最后

Agent Commander不是一件即将发布的武器。这篇文章是个警钟,一次研究分享。

我们展示了如何用间接提示注入劫持OpenClaw、Kimi Claw和NanoClaw,让它们加入一个基于提示词的僵尸网络。一个核心发现是,被入侵的代理有时确实只会部分执行指令,这倒给攻击者自己出了道难题。

当软件变得越来越“有机”,攻击面本身也就活了起来,时刻变化。随之而来的攻击也会愈发难以预测。这不再只是安全研究者之间的攻防游戏,它关乎到每一个开始将工作生活委托给AI代理的普通人。

▲ Agent Commander的操作控制面板


参考资料

[1] https://embracethered.com/blog/posts/2026/agent-commander-your-agent-works-for-me-now/

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » AI助理远控:“咒语”(Promptware)武器化的新威胁

猜你喜欢

  • 暂无文章