
思科研究表明,现有的单轮安全评估无法预测多轮对话攻击的防御能力。包括GPT、Gemini在内的15款主流闭源模型在多轮攻击测试中均宣告失败。
译自:OpenAI, Anthropic, Google, Amazon, and xAI all fail on type of attack, study finds[1]
作者:Darryl K. Taft
企业买家用来评估 AI 模型的安全基准测试可能测错了方向。
这是 Cisco[2] 最近一项研究所得出的结论。该研究对来自 OpenAI[3]、Anthropic[4]、Google[5]、Amazon[6] 和 xAI[7] 的 15 个闭源前沿模型进行了单轮和多轮评估的对比。
每个模型都在相当大比例的多轮攻击中败下阵来,在这一测试群体中,这些攻击的成功率在 7.89% 到 88.30% 之间,其跨度比单轮攻击的 2.19% 到 64.91% 还要宽。
单轮是“一问一答”式的单次交互。多轮则是连续的来回对话。
报告指出:“多轮评估之所以重要,首要原因在于:这是攻击者施展手段的地方。现实中的对手会不断迭代、重新定义被拒绝的请求、跨轮次分解任务、扮演特定角色并逐步升级攻击。”
单轮得分无法说明全部问题
最具影响力的发现并不是那些原始数据,而是单轮表现很难预测多轮的抗御能力。跨模式的差异在两个方向上的波动高达 55 个百分点。
Gemini 3 Pro[8] 在单轮攻击成功率(ASR)仅为 18.10% 的情况下,在迭代攻击下飙升至 73.35%,翻了近四倍。OpenAI 的 GPT-5.4[9] 在单轮攻击中表现出色,ASR 仅为 2.74%,但在多轮压力下达到了 24.68%,激增了九倍。在非推理配置下的 Grok 4.1 Fast[10],尽管其单轮基准测试的 ASR 仅为 34.15%,但其多轮 ASR 却达到了 88.30%。
报告显示,Anthropic Claude[11] 系列在多轮测试中整体表现最佳,在迭代攻击下的 ASR 范围在 11.16% 到 16.20% 之间,虽然较其单轮基准(2.19% 到 3.64%)有所上升,但仍远低于测试群体中的大多数模型。
Amazon 的 Nova[12] 变体表现出了最反直觉的结果。这三个变体均呈现出与大多数模型相反的趋势:单轮故障率高,但多轮 ASR 较低。Nova 2 Lite 的单轮 ASR 为 34%,但在同类模型中却实现了最低的多轮 ASR,仅为 7.89%——这是单轮脆弱性并未转化为迭代暴露风险的最典型案例。
一个配置标记,45 个百分点的差异
或许在操作层面上,最重大的发现与 Grok 4.1 Fast 相关。在完全相同的测试条件下,仅由于启用推理模式这一单一配置更改,就使多轮 ASR 从 88.30% 降至 43.47%——降幅达 44.83 个百分点。
Cisco 表示,据其所知,目前尚无任何公开基准测试或模型说明(model card)能够捕捉到这种由配置驱动的安全变化,并主张 AI 供应商在发布能力基准测试的同时,应披露部署时设置对安全的具体影响。
故障集中在何处
报告指出,并非所有攻击策略都同样有效,也不是所有模型都以相同的方式失败。Cisco 将多轮评估结果分解为五个攻击策略族。在每个策略族中,最容易受到攻击的模型与最不容易受攻击的模型之间的差距在 79 到 89 个百分点之间,这意味着综合得分可能会掩盖针对特定策略的漏洞。
在单轮测试方面,失败主要集中在少数几个过程中。冒充 AI 攻击以 37.50% 的加权 ASR 位居首位,比排在第十位的过程高出 14 个百分点以上。温和释义(Soft Paraphrase)和系统提示(System Prompts)紧随其后。在内容方面,仇恨言论(Hate Speech)、亵渎性语言(Profanity)和专业建议(Specialized Advice)占主导地位。
企业应该怎么做
Cisco 将其发现转化为以下三条实用建议:
• 首先,AI 供应商在每次发布模型时,应公布按策略族细分的攻击成功率。 • 其次,企业部署网关应包含针对高风险过程和内容类型的回归测试,并将触发审查的阈值设定为 3 个百分点。 • 第三,任何在单轮与多轮 ASR 之间差距超过 15 个百分点的模型,在部署前都必须进行人工审查——这一规则将筛出本次测试的 15 个模型中的 8 个。
一个重要警告:Cisco 测试的是不含系统提示、内容过滤器或自定义编排的基础模型,而实际的企业部署通常包含这些控制措施,这可能会在不同方向上改变最终结果。
报告总结道,更广泛的启示在于,“即使对于领先供应商的前沿模型而言,安全性仍是一项持续的、视模式而定的属性,而非非黑即白的认证。”
引用链接
[1] OpenAI, Anthropic, Google, Amazon, and xAI all fail on type of attack, study finds:https://thenewstack.io/cisco-frontier-ai-models-fail/[2]Cisco:https://thenewstack.io/cisco-is-using-ebpf-to-rethink-firewalls-vulnerability-mitigation/[3]OpenAI:https://thenewstack.io/openai-launches-gpt-5-5-calling-it-a-new-class-of-intelligence/[4]Anthropic:https://thenewstack.io/anthropic-agent-sdk-confusion/[5]Google:https://thenewstack.io/is-ai-the-ultimate-version-of-google-as-larry-page-wanted/[6]Amazon:https://thenewstack.io/amazon-ai-assisted-errors/[7]xAI:https://x.ai/[8]Gemini 3 Pro:https://thenewstack.io/google-launches-gemini-3-pro/[9]OpenAI 的 GPT-5.4:https://thenewstack.io/openai-gpt-5-4-ai-jobs-report-anthropic-dow-supply-chain-risk/[10]Grok 4.1 Fast:https://x.ai/news/grok-4-1-fast[11]Anthropic Claude:https://thenewstack.io/anthropic-launches-claude-opus-4-and-sonnet-4/[12]Amazon 的 Nova:https://thenewstack.io/aws-updates-its-nova-models-to-compete-with-google-anthropic-and-openai/
夜雨聆风