声明:本文核心数据引自 Stanford HAI《AI Index Report 2026》。所有引用数据均标注来源页码,页码以英文原版PDF为准。文中标注"⚠️"处为需注意的限定性表述,请以报告原文为准。完整报告下载地址:https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf
2025年,AI领域有三件事值得警惕。
一件是全球有记录的AI安全事件数量升至362起,较2024年的233起大幅增长(Ch3, p.9;详见Figure 3.2.1)。
一件是主流模型在HELM Safety(正常Prompt条件)下普遍获得高分,但在AILuminate Jailbreak对抗性测试中,几乎所有模型的防御表现均会显著降级(Ch3, p.166-168)。
还有一件常被忽视:2025年发布的95个前沿AI模型中,超过90%未公开训练代码、数据集或训练时长,导致外部安全审计难以开展(Ch1, p.20)。
这三件事共同指向同一个结构性问题:
AI的能力在狂奔,但保障其安全运行的治理与评估体系,正被远远甩在身后。
本文聚焦网络安全、数据安全、AI落地时的安全验证三个议题。
一、网络安全:362起事故与失效的防御体系
1.1 数字背后的趋势
| 同比↑55% |
📊 来源:AI Index Report 2026, Ch3, p.9 & Figure 3.2.1
⚠️ 报告强调"documented AI incidents"(有记录案例),实际发生数量可能更高。2022年前每年均在100起以下,2023年具体数字未单独列出。
1.2 安全基准的两层测试:HELM vs AILuminate
HELM Safety(正常条件):2024-2025年主流模型分数普遍在0.90-0.98之间,差距显著收窄(从2023年的25个百分点收敛至8个百分点),报告称之为"基准饱和"(Ch3, p.166)。
AILuminate Jailbreak T2T(对抗性攻击):正常条件下表现优秀的模型,在刻意越狱Prompt下,“几乎所有模型的分数都会下降,一部分下降整整一个等级”(原文:“a full tier or more”,Ch3, p.168)。
⚠️ 上述描述为报告定性结论,未公开具体模型精确降幅。以下表格为示意,仅用于说明方向:
解读:HELM高分不等于真实对抗场景下的安全。现有基准已难以有效区分模型间的实质差异。
1.3 攻击面-防御面-合规面框架
攻击面主要威胁(Ch3, p.126-168):
- 越狱攻击(Jailbreak)
- 数据投毒(Data Poisoning)
- 模型反转(Model Inversion,⚠️证据基础仍较薄弱)
防御面局限性(Ch3, p.170):报告明确指出:"提升一个负责任AI维度,往往会损害另一个维度。不存在能同时改善所有维度的单一干预方法。"例如差分隐私提升隐私保护但可能降低准确性,公平性优化在某些场景下会影响鲁棒性。
解读:安全是动态权衡过程,而非一劳永逸的选择题。
二、数据安全:沉默的大多数与失控的供应链
2.1 被遮蔽的训练数据
报告第一章指出(Ch1, p.20):
2025年95个前沿AI模型中,80个未公开训练代码,API访问成为主流(45个,47%),完全开源权重仅23个。训练代码披露率持续下降,仅少数模型完全开源。
📊 来源:AI Index Report 2026, Ch1, p.20 & Figure 1.1.8-1.1.9
⚠️ 报告强调:最强模型往往透明度最低,这种不透明性严重限制了独立安全审计。
2.2 数据透明度评分:谁在裸泳?
Foundation Model Transparency Index(FMTI 2025,报告Ch3, p.163引用)显示:
| 95/100 | ||
⚠️ 分数基于2025年FMTI版本。透明度高的多为B2B企业级产品和传统IT巨头,消费级与新兴玩家往往得分较低,这与商业模式直接相关。
2.3 场景案例:数据安全失守的三个切面
医疗Agent越权:Ambient AI scribes在医疗系统推广,显著减少医生书写时间,但真实临床数据使用比例仍较低,权限边界模糊可能导致过度检索(Ch6, p.255-258)。
金融大模型投毒:合成数据尚未完全替代真实数据,数据投毒风险上升,可能扭曲风控规则(Ch1, p.25;Ch3, p.126)。
跨境数据本地化:东亚地区(不含中国)有77项数据本地化措施,欧洲66项,导致跨国企业多活架构的成本与运维复杂度显著上升(Ch8, p.334;Figure 8.4.1)。
⚠️ 以上场景为基于报告风险趋势的合理推断,非报告直接给出的具体案例;实际因果关系需结合具体场景分析。
三、AI落地:业务扩张前的"安全验证期"
3.1 Agent的能力进展与剩余风险
OSWorld基准显示,AI Agent在跨操作系统真实任务中的成功率从2023年的较低水平(约12%)提升至2025年的约66.3%,但仍低于人类水平,且约1/3任务失败,尤其在开放式、长周期或问题描述被混淆的场景下(Ch2, p.72, p.113;Figure 2.6.2)。
⚠️ 66%为特定基准测试结果,不等于实际业务场景成功率。报告强调失败原因常不可预测,且错误容易级联放大。
3.2 权衡困境:没有免费的午餐
报告核心结论(Ch3, p.170):“提升一个负责任AI维度,往往会损害另一个维度。没有单一干预能同时改善所有维度。”
企业需根据业务场景定义动态风险偏好,例如:
3.3 落地锚点:合规视角的延伸讨论
报告指出的透明度不足、维度权衡、Agent验证滞后、长尾场景风险等议题,在中国法规语境下可以找到具体的合规锚点:
⚠️ 在实际落地中,AI Agent的动态权限管理、训练数据供应链投毒、自动驾驶等长尾场景测试等新型风险,仍存在一定的合规边界模糊地带。建议从业者将报告中的风险趋势系统映射到本地法规要求,建立"攻击面-防御面-合规面"三角分析框架,并结合具体业务场景进行动态风险评估与管理,而非简单的一刀切合规。
四、思考:安全的本质是信任
4.1 三个结构性失衡
- 能力与评估的失衡:AI性能快速提升,但评估基准趋于饱和,独立审计因数据不透明而受限。
- 规模化与验证的失衡:Agent开始规模化部署,但安全验证往往滞后于业务上线,真实场景失败成本更高。
- 风险意识与治理投入的失衡:73%的AI专家对AI影响工作持乐观态度,仅23%的普通公众持相同看法;美国仅31%的人信任政府能有效管理AI(Ch9, p.360-362)。
4.2 对从业者的三个建议
建议一:建立"攻击面-防御面-合规面"三角框架,产出威胁模型、控制措施与合规清单。
建议二:定义动态风险偏好矩阵,根据不同业务场景平衡准确性、隐私保护与可解释性要求。
建议三:在AI Agent规模化部署前完成"安全验证期",建议包含沙箱隔离、红蓝对抗测试、权限审计、失败降级预案、合规自审以及持续监控机制。
结语
《AI Index Report 2026》给出了清晰的"体检报告":362起记录在案的安全事件、90%以上前沿模型训练细节不透明、Agent仍有约三分之一任务失败。
AI正在快速进入关键业务领域,但治理、评估与验证体系尚未完全跟上。这不是对AI的唱衰,而是一个建设性的提醒——从业者需要在自己的业务范围内,让"治理"逐步追上"技术"的步伐。
这不是选择题,而是必须面对的必答题。
参考来源
Stanford HAI AI Index Report 2026:
- Chapter 1: Research and Development(p.20, p.25)
- Chapter 2: Technical Performance(p.72, p.113;Figure 2.6.2)
- Chapter 3: Responsible AI(p.9, p.126, p.163, p.166-168, p.170;Figure 3.2.1 等)
- Chapter 6: Medicine(p.255-258)
- Chapter 8: Policy and Governance(p.334;Figure 8.4.1)
- Chapter 9: Public Opinion(p.360-362)
- 完整报告:https://hai.stanford.edu/ai-index/2026-ai-index-report

夜雨聆风