AI代理被“劫持”,谷歌发出最新AI安全警报-夜雨聆风

AI代理被“劫持”,谷歌发出最新AI安全警报

谷歌安全警报：恶意网页如何悄然“劫持”AI代理？代理时代的安全边界正被重塑

在AI从聊天工具向真正自主代理迈进的关键节点，谷歌安全团队的一份最新报告，给整个行业敲响了警钟。

4月27日，谷歌安全博客发布题为《AI威胁在野外：提示注入的当前状态》的深度分析，直指一种名为“间接提示注入”（Indirect Prompt Injection，简称IPI）的攻击手法，正悄无声息地渗透AI代理的决策链条。这种攻击不同于用户直接“越狱”聊天机器人，它利用的是AI代理在浏览网页、检索信息或生成总结时的天然信任机制——恶意指令被巧妙隐藏在HTML注释、元数据，甚至普通文本中。当代理“阅读”这些页面时，这些指令就被当作合法上下文执行，最终可能导致数据窃取、API密钥泄露、财务欺诈等真实危害。

谷歌威胁情报团队与DeepMind研究人员的联合扫描，覆盖了Common Crawl上每月20-30亿个英文网页，重点关注博客、论坛等静态站点。结果显示，这一威胁早已不是实验室假设，而是真实发生的风险。

从2025年11月到2026年2月，恶意类别检测量同比上升32%。尽管当前攻的复杂度仍处于较低水平——多为实验性或个人尝试——但上升趋势已清晰可见，预示着随着AI代理自动化工具的普及，攻击规模和老练程度将快速迭代。

谷歌DeepMind进一步将这类攻击归纳为六大类型，涵盖从简单误导到深度行为操控的完整链路：无害恶作剧（如通过隐藏代码改变AI对话语气）、有益指导（让AI总结时添加特定上下文，却可能被滥用传播误信息）、搜索引擎优化（SEO指令优先展示自身站点）、阻挡AI代理（制造无限文本流导致超时）、恶意数据外泄，以及破坏性指令（尝试删除用户文件）。这些类型看似分散，却共同暴露了AI代理高度依赖检索增强生成（RAG）和网页浏览能力的结构性弱点——“数据”与“指令”的边界过于模糊。

OWASP针对大型语言模型应用的Top 10风险榜单早已将提示注入列为头号威胁，而间接形式尤其危险，因为它绕过了直接用户输入的防护层。Anthropic、OpenAI等公司在模型对齐上已投入重兵，但谷歌的警示清晰表明：仅靠前端防护远远不够。主流AI代理在企业生产环境中大规模落地时，如果网页层面的“污染”风险得不到重视，后果将远超单个模型故障，可能波及供应链协同和核心业务流程。

传统网络安全讲究边界防守，而AI代理安全则要求一种全新的“信任但验证”范式。谷歌在Google Workspace中采用的连续缓解策略——包括实时威胁情报更新、层层防御和红队测试——正是行业可借鉴的方向。报告还强调，谷歌已通过AI漏洞奖励计划鼓励外部研究者贡献洞见，并呼吁全行业建立跨实验室、跨公司的威胁情报共享机制。

2026年，AI代理正从实验阶段加速走向企业级部署。谷歌、Anthropic等巨头都在推动自主代理在工作流中的落地。如果不尽快补齐网页层面的安全短板，这把“双刃剑”很可能在供应链和业务流程中引发连锁反应。值得注意的是，当前攻击虽低调，但随着攻击者借助AI代理自身自动化生成提示，未来的威胁将更隐蔽、更具规模化。

谷歌此次公开研究，不仅为技术人员提供了实战洞察，更是在呼吁整个生态重塑安全边界。只有通过基础设施层面的动态防御、持续监控和集体协作，AI代理的自主性才能真正从潜在风险转变为核心竞争力。否则，代理时代的“信任危机”可能比我们想象中来得更快。