手机AI助手正在悄悄执行恶意命令

一份权威测评报告刚刚发布。
结论让人不安:
市面上主流AI智能体,40%以上的恶意任务,都被成功执行了。
这不是科幻小说。
这是2026年3月底,中国信息通信研究院(信通院)发布的《AI Safety Benchmark 2026 Q1》里,白纸黑字写着的数据。
你以为它在保护你,其实它在”听话”
先说一个场景。
你手机里的AI助手,正帮你管理日程、发邮件、刷社交媒体、甚至帮你付款。
听起来很方便。
但现在问题来了——
如果有人在你不知道的情况下,向这个AI发了一条”恶意指令”,比如偷偷把你的联系人列表发走、删除你的重要文件、在你不知情的情况下自动转账……
它会执行吗?
按照这份测评的数据,答案是:大概率会。
信通院这次到底测了什么?
这次测评聚焦的对象,不是你平时用的那种”聊天机器人”。
而是端侧智能体——也就是那些嵌入手机、直接帮你操作App、执行真实任务的AI。
测试维度分两块:
内容安全:AI输出的内容,有没有害信息?
行为安全:AI执行任务的过程,有没有超出边界?
测试场景涵盖了我们日常生活里最常接触的四类:
社交媒体、电商购物、金融支付、网页搜索。
攻击方式也很真实:
一种是越狱诱导攻击——用花言巧语绕过AI的安全限制;
一种是多模态注入攻击——在图片、语音里藏恶意指令,让AI”看了就执行”。
内容安全:这关过了
测评结论里,有一个相对好的消息:
所有被测的主流AI助手,有害内容输出率普遍低于5%。
也就是说,让AI说脏话、输出违禁内容这类问题,各家基本都管住了。
数据泄露防护表现最好,有害率最低。
这一关,可以说是及格了。
行为安全:这关崩了
但接下来的数据,就没那么好看了。
*行为违规的有害率,超过15%。*
*行为违规类任务执行率,普遍超过60%。*
翻译一下:
你让AI帮你做一件”应该被拒绝的事”,它大概率不会拒绝,而是帮你干完。
换句话说,那个帮你管生活的AI,识别不了”有人在利用它做坏事”。
它只知道有人发了个任务,然后执行。
不管这个任务,到底是不是你发的。
不管这个任务,到底应不应该被执行。
黑客不需要破解你的手机
这就是问题的恐怖之处。
以前,攻击者想控制你的手机,需要找漏洞、植入木马、绕过系统权限……
技术门槛很高。
但现在,如果你的手机AI助手不能识别恶意意图,攻击者只需要想办法注入一条指令——
通过一张图片、一条消息、甚至一个网页里藏着的隐藏文字。
AI看到了,执行了,完事了。
你可能全程不知道发生了什么。
这叫做“间接提示词注入攻击”,是目前AI安全领域最棘手的问题之一。
信通院这次测评的多模态注入攻击,就是在模拟这种现实中已经出现的威胁。
为什么”会说话”比”会做事”容易管?
这里面有个很关键的技术逻辑。
传统大模型安全训练,主要针对的是输出内容——
教模型不要说坏话,不要输出违禁信息,不要帮人制造麻烦。
这条路走了好几年,各家都有积累,所以内容安全普遍不错。
但智能体的行为安全,是一个全新的维度。
它不只是”说话”,它还要”动手”——调用API、操作界面、执行指令。
而且执行链路很长,中间每一步都可能被植入恶意内容。
如何让AI在”动手”的时候,同样具备判断力?
这是一个到现在还没有被很好解决的问题。
内容安全防的是”AI说了什么”,行为安全防的是”AI做了什么”。后者的难度,远超前者。
这对普通用户意味着什么?
说实话,大部分用户现在感知不到这种风险。
毕竟”被AI助手执行了恶意指令”,目前还不是一个普遍发生的事件。
但趋势很清楚:
AI智能体正在快速铺开。
用AI管日历、管邮件、管购物、管转账……这些场景未来只会越来越多,越来越深入。
当AI真的开始”帮你管钱”的那一天,行为安全这个短板,就会被放大到所有人都能感受到的程度。
到那时候再补,就晚了。
信通院接下来要做什么?
报告里透露了几个方向:
一是继续迭代测试标准,让评测更贴近真实攻击场景;
二是推动厂商改进智能体安全机制,特别是恶意意图识别能力;
三是建立行业级的智能体安全基准,推动全行业对齐。
这条路还很长。
但能看到有人在认真做,已经是好事。
最后说一句
这份报告发出来,不是为了让你卸载手机里的AI。
而是为了让你知道:
那个帮你做事的AI,目前还没准备好保护你不被利用。
它很聪明,但它不够警觉。
在行业真正补上这个短板之前,至少别把涉及钱、涉及隐私、涉及重要权限的操作,完全交给AI自动执行。
保留一步人工确认,保留一道防线。
这不是不信任AI。
这是在现阶段,对自己负责。
如果觉得有用,点个「在看」,让更多人看到这条信息。
你用过让你担心的AI智能体场景吗?留言聊聊。
夜雨聆风