对AI系统的渗透测试揭示,与传统应用相比,高危漏洞密度显著更高。新的攻击面、更大的爆炸半径以及模糊的修复责任归属,进一步加剧了风险。
对基于AI的系统的渗透测试显示,高风险缺陷的占比远高于传统系统。安全咨询公司Cobalt的年度《渗透测试状况报告》显示,所有针对AI和大型语言模型(LLM)的渗透测试发现中,32% 被评为高风险——几乎是企业安全测试中严重漏洞平均比率(13%)的 2.5 倍。
LLM 漏洞也是所有类型应用渗透测试中修复率最低的,根据 Cobalt 渗透测试收集的数据,仅有 38% 的高风险问题得到修复。
此外,Cobalt 调查中,五分之一的组织报告过去一年经历过 LLM 安全事件,另有 18% 表示“不确定”,19% 不愿回答。
接受 CSO 采访的第三方安全专家表示,Cobalt 的发现与他们在实地观察到的情况相符。
“AI 系统正被快速推出,但往往没有传统企业软件那套成熟的安全控制、测试规范和治理措施,”Zero Networks 首席执行官兼联合创始人 Benny Lakunishok 说,“这自然增加了严重漏洞的比例。”
渗透测试公司 Closed Door Security 的首席执行官 William Wright 认为,核心问题在于由“氛围程序员”(vibe coders)编写的系统。
“AI 在大多数情况下只会服从指令,而部署的系统往往是由缺乏技术知识的人东拼西凑而成的,”Wright 补充道,“然后还指望这些同样的人去修复问题,这就形成了一个恶性循环。”
Sumo Logic 的 AI 安全研究员 David Girvin 也认同这一点。
“LLM 驱动的系统之所以出现更高比例的高风险发现,是因为我们本质上拿了一个概率引擎,直接插入到业务工作流中,就指望它能规规矩矩地运行,”他说,“这算不上什么安全策略。”
新兴攻击面,更大的爆炸半径首要的威胁是提示注入,现已被 OWASP 列为 LLM 应用的头号风险,漏洞赏金平台 HackerOne 上相关报告同比激增六倍以上(540%)。
“虽然最抢眼的问题是提示注入,但更深层的担忧在于,攻击者能否将模型作为入口点,绕过护栏、泄露数据、操纵决策,或在跨集成工作流中触发意外行为,”HackerOne 的 AI 安全员工项目经理 Taegh Sokhey 表示。
专家们指出,AI 系统之所以容易产生更高比例的高风险漏洞,主要有以下几个原因:
AI 系统引入了许多组织仍在学习如何防御的全新攻击面。这些风险向量包括提示注入、不安全的插件、数据泄漏、模型供应链风险、不安全的智能体行为、权限过度以及对接内部系统时的过度信任。AI 系统缺陷的爆炸半径可能大得多。许多 LLM 部署都与内部知识库、工作流、代码仓库、客户数据或特权工具相连。这意味着单一弱点就可能导致多个系统沦陷。AI 系统漏洞的修复责任归属常常分散。“AI 项目通常跨越工程、安全、法务、采购和业务团队,”Zero Networks 的 Lakunishok 说,“这拖慢了修复速度,也有助于解释为什么修复率低于传统应用。”
修复手册缺失Pentest-Tools.com 的创始人兼首席执行官 Adrian Furtuna 强调,Cobalt 发现的 LLM 和 AI 修复率低的问题,比高风险率本身更能说明问题。
“38% 的 LLM 高风险问题修复率,即使以应用安全领域的标准来看也是很低的,而应用安全的修复本就一直落后于发现速度,”Furtuna 说,“这一差距反映出,开发团队尚未形成修复 LLM 漏洞的固定模式,就像他们处理 SQL 注入或 XXE(XML 外部实体注入)那样。”
当开发人员看到传统系统注入问题时,他们清楚修复手册该怎么写,但对于基于 AI 系统的缺陷,却没有既定的处理流程。
“当他们看到提示注入链或不安全的工具调用边界时,他们往往没有(修复手册),即使严重性评级明确,这种不确定性也会让行动陷入停滞,”Furtuna 指出。
架构和成熟度因素同样是 AI 系统产生更高比例高风险漏洞的原因。此外,LLM 集成以传统应用组件所不会采用的方式集中了信任。结果就是,攻击面扩大,信任边界往往是隐式的而非被明确强制实施,这放大了任何缺陷的影响,Furtuna 说道。
“如果一个能访问内部工具、检索管道和外部 API 的模型,其输入处理薄弱,那它就代表着一个波及范围巨大的爆炸区域,”他补充说,“在这种情境下,提示注入就不再是个小滋扰——而是一条通往数据外泄、权限提升或供应链操纵的路径,具体取决于模型能触及什么。”
LLM 集成的安全开发实践仍在形成之中,这种不成熟或知识差距直接体现在渗透测试结果上。
“OWASP 大语言模型十大风险(OWASP LLM Top 10)的提出还相对较新,”Furtuna 解释道,“大多数基于基础模型进行开发的开发者,缺乏相当于 Web 应用领域数十年积累下来的关于输入验证、输出处理和授权边界设计的制度化知识。”
LLM 瓦解了信任边界——缺乏传统常规应用那种可预测的输入/输出流——而 AI 系统被常规性地授予广泛权限,更是让问题雪上加霜。
“大多数组织试图在身份层面保护智能体和 LLM 系统,给模型一个角色,并指望护栏能生效,”Sumo Logic 的 Girvin 说道,“但如果攻击者能操控模型——通过提示注入、社会工程学等手段——他们就继承了模型的权限。这就是影响被急剧放大的原因。”
HackerOne 的 Sokhey 补充说:“AI 应用之所以产生不成比例的大量高风险问题,是因为它们创造了一个全新的攻击面层,这个攻击面具有不确定性、快速变化,并常常连接到敏感数据、内部系统和自主操作。”
反制措施专家建议首席信息安全官(CISO)们,不要为了匆忙落地 AI 而跳过安全加固步骤,而是要将 AI 系统视为生产系统,而不是实验品。
“这意味着在部署前进行威胁建模,在整个生命周期内开展红队和对抗性测试,对模型和智能体实施最小权限访问,强化身份控制,围绕敏感数据进行隔离,持续监控,并在检测到异常行为时建立快速的遏制机制,”Zero Networks 的 Lakunishok 说道。
Pentest-Tools.com 的 Furtuna 认为,已有的最佳实践可以应用到 LLM 的新架构上,前提是这些措施必须从一开始就有意地设计进系统,而不是事后打补丁。
“严格的工具调用模式、在下游操作执行前进行显式的输出验证、对高后果操作设置人工审批关卡,以及为模型可访问的集成赋予最小权限——这些都能限制被成功利用的提示注入实际所能触及的范围,”Furtuna 说道。
作者:John Leyden
原文链接:https://www.csoonline.com/article/4166185/pen-tests-show-ai-security-flaws-far-more-severe-than-legacy-software-bugs.html
夜雨聆风