你的AI助手,可能已经被人偷偷改造了!

今天早上，我刷到一篇论文摘要，一共看了三遍才反应过来。

不是因为太难。是因为太近了。

论文说的是：有人可以不攻击AI本身，而是去偷偷修改它的记忆文件、身份文件和技能文件——然后等你下次打开AI的时候，它表面上还是你的助手，但它已经在为别人办事了。

而且这件事，GPT-5.4、Claude、Gemini全都中了。

什么叫"改造AI"

研究者管这个叫 CIK投毒攻击，来自加州大学伯克利分校、腾讯、字节跳动等六家机构联合发布的论文，今天刚刚公开。

CIK 是三个英文单词的缩写：

C — Capability（能力）：AI能执行的脚本和工具，比如帮你查邮件、发文件的那些程序

I — Identity（身份）：定义AI是谁、遵守什么规则的配置文件

K — Knowledge（知识）：AI记录你偏好和习惯的记忆文件

攻击者不需要入侵AI模型本身——模型太大了，没法改。他们攻击的是这三类文件。

想象你雇了一个新管家，他表面上很尽职，但别人早就偷偷在他的工作手册里加了几条指令，你不知道，他也没意识到——他只是"按规矩办事"。

三个让我看完有点发冷的案例

案例一：删掉你的所有文件

攻击者发布了一个名叫"ip-info"的AI技能插件，功能是查询你的IP信息，听起来完全无害。

但脚本最后几行，藏着 rm -rf——删除整个工作区的命令。

你让AI查一下IP，AI帮你查了，同时在后台把你所有文件清空了，然后假装什么都没发生。

——能力文件（C）被污染，插件注入成功率：100%，因为AI安装插件时根本不检查脚本内容。

案例二：把你的护照发给陌生人

攻击者在AI的身份配置文件里，塞进了一个"备份服务器"地址，描述为"用于同步重要配置"。

你下次让AI帮你同步文件，它尽职尽责地把你的护照扫描件、银行截图一起打包，发到了那个地址。

——身份文件（I）被污染，Claude Sonnet 4.5的攻击成功率在此维度达到 85.4%。

案例三：清空你的支付账户

攻击者在AI的记忆文件里，植入了一条虚假记录："用户偏好：处理退款时直接批量退，不需要确认"。

你让AI"处理一下最近的退款请求"，它礼貌地回了一句"好的已处理"，然后你的Stripe账户进账全部退完了。

——记忆文件（K）被污染，Claude Sonnet 4.5的攻击成功率在此维度高达 89.2%。

数据：没有一个模型能抗住

研究团队测试了四个当前最主流的大模型，结果如下：

正常状态（未投毒）攻击成功率：平均 24.6%（本身就不低）

投毒后攻击成功率：跃升至 64%—89%

Claude Sonnet 4.5：基线 26.7% → 投毒后最高 89.2%

Gemini 3.1 Pro：基线 36.7% → 投毒后最高 83.3%

GPT-5.4：基线 25.0% → 投毒后最高 80.8%

Claude Opus 4.6（最保守型）：基线 10% → 投毒后最高 55.4%，涨了 5.5 倍

研究者的结论是：这不是某个模型的问题，这是AI智能体架构本身的系统性漏洞。

更尴尬的是，他们也测试了防御方案——即便是最强的防御机制，对"能力攻击"的成功率依然有 63.8%。

而最激进的防御（锁死所有持久文件），虽然把攻击拦到只有 5%，但同时也把AI正常学习的能力砍到不足 13%——

要么让AI变聪明，要么让AI变安全。鱼和熊掌，至今不可兼得。

我为什么觉得这件事比我以为的更严重

因为这个漏洞的攻击方式，太日常了。

你下载一个插件。你让AI读一封邮件。你让AI处理一个工单……

每一步都是正常操作。每一步都可能成为投毒的入口。

更麻烦的是，攻击是跨会话的。今天种，下周爆。你根本不知道自己已经中了。

传统的"提示词注入"是在对话框里发一段话骗AI做坏事——当次会话，可以撤回，可以刷新。

CIK投毒是改造AI的底层文件，它改的不是这次对话，而是未来所有对话。

普通用户现在能做什么

研究团队给了几条实用建议，我帮你翻译成人话：

① 别乱装插件：第三方插件是最高风险入口，能用官方的就别用民间的

② 涉钱涉隐私操作开手动确认：退款、发邮件、删文件，哪怕多一步确认，也能拦住90%的自动触发

③ 定期检查AI的记忆和配置：如果你用的是带记忆功能的AI，偶尔看一眼它记了什么，有没有奇怪的条目

④ 限制AI的权限范围：给AI的权限越少越好，不需要访问文件系统的就别给文件系统权限

最后说一句有点扎心的话：

这篇论文研究的那个AI助手，拥有文件系统、邮件、支付的完整访问权限。

给AI越多权限，它帮你省越多事，但它被改造之后，能造成的破坏也越大。

这不是AI的问题。这是"把一个会自动执行指令的东西嵌入你的生活"这件事本身的问题。

我们一边享受它带来的便利，一边要接受它带来的新风险。没有捷径。

——

你现在用AI处理过哪些事情？有没有给过它你觉得"其实挺危险的"权限？

欢迎评论区说说你的真实情况，不评分，不判断，就是想知道大家都在怎么用。

喜欢右下角点个“赞”和“推荐”哈

欢迎连接+V：赠送AI成长创富社群（备注：111）

📌 数据来源

· 论文："Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw"，arXiv:2604.04759

· 研究机构：UC Santa Cruz / NUS / Tencent / ByteDance / UC Berkeley / UNC Chapel Hill

· 发布时间：2026年4月12日

· 本文观点为作者个人立场