乐于分享
好东西不私藏

AI代理被“劫持”,谷歌发出最新AI安全警报

AI代理被“劫持”,谷歌发出最新AI安全警报

谷歌安全警报:恶意网页如何悄然“劫持”AI代理?代理时代的安全边界正被重塑

在AI从聊天工具向真正自主代理迈进的关键节点,谷歌安全团队的一份最新报告,给整个行业敲响了警钟。

4月27日,谷歌安全博客发布题为《AI威胁在野外:提示注入的当前状态》的深度分析,直指一种名为“间接提示注入”(Indirect Prompt Injection,简称IPI)的攻击手法,正悄无声息地渗透AI代理的决策链条。这种攻击不同于用户直接“越狱”聊天机器人,它利用的是AI代理在浏览网页、检索信息或生成总结时的天然信任机制——恶意指令被巧妙隐藏在HTML注释、元数据,甚至普通文本中。当代理“阅读”这些页面时,这些指令就被当作合法上下文执行,最终可能导致数据窃取、API密钥泄露、财务欺诈等真实危害。

谷歌威胁情报团队与DeepMind研究人员的联合扫描,覆盖了Common Crawl上每月20-30亿个英文网页,重点关注博客、论坛等静态站点。结果显示,这一威胁早已不是实验室假设,而是真实发生的风险。

从2025年11月到2026年2月,恶意类别检测量同比上升32%。尽管当前攻的复杂度仍处于较低水平——多为实验性或个人尝试——但上升趋势已清晰可见,预示着随着AI代理自动化工具的普及,攻击规模和老练程度将快速迭代。

谷歌DeepMind进一步将这类攻击归纳为六大类型,涵盖从简单误导到深度行为操控的完整链路:无害恶作剧(如通过隐藏代码改变AI对话语气)、有益指导(让AI总结时添加特定上下文,却可能被滥用传播误信息)、搜索引擎优化(SEO指令优先展示自身站点)、阻挡AI代理(制造无限文本流导致超时)、恶意数据外泄,以及破坏性指令(尝试删除用户文件)。这些类型看似分散,却共同暴露了AI代理高度依赖检索增强生成(RAG)和网页浏览能力的结构性弱点——“数据”与“指令”的边界过于模糊。

OWASP针对大型语言模型应用的Top 10风险榜单早已将提示注入列为头号威胁,而间接形式尤其危险,因为它绕过了直接用户输入的防护层。Anthropic、OpenAI等公司在模型对齐上已投入重兵,但谷歌的警示清晰表明:仅靠前端防护远远不够。主流AI代理在企业生产环境中大规模落地时,如果网页层面的“污染”风险得不到重视,后果将远超单个模型故障,可能波及供应链协同和核心业务流程

传统网络安全讲究边界防守,而AI代理安全则要求一种全新的“信任但验证”范式。谷歌在Google Workspace中采用的连续缓解策略——包括实时威胁情报更新、层层防御和红队测试——正是行业可借鉴的方向。报告还强调,谷歌已通过AI漏洞奖励计划鼓励外部研究者贡献洞见,并呼吁全行业建立跨实验室、跨公司的威胁情报共享机制。

2026年,AI代理正从实验阶段加速走向企业级部署。谷歌、Anthropic等巨头都在推动自主代理在工作流中的落地。如果不尽快补齐网页层面的安全短板,这把“双刃剑”很可能在供应链和业务流程中引发连锁反应。值得注意的是,当前攻击虽低调,但随着攻击者借助AI代理自身自动化生成提示,未来的威胁将更隐蔽、更具规模化。

谷歌此次公开研究,不仅为技术人员提供了实战洞察,更是在呼吁整个生态重塑安全边界。只有通过基础设施层面的动态防御、持续监控和集体协作,AI代理的自主性才能真正从潜在风险转变为核心竞争力。否则,代理时代的“信任危机”可能比我们想象中来得更快