AI 驱动的网络威胁:832 个案例揭示传统安全评估的集体失效

> Anthropic 发布了一份报告，分析了 832 个因恶意网络活动被封禁的账户。结论不是"AI 让攻击更多了"，而是更残酷的：AI 让旧的安全评估方法不管用了。

---

一、攻击者在用 AI 做什么

832 个恶意账户，时间跨度一年（2025.03–2026.03），全部映射到 MITRE ATT&CK 框架。

数据给出两个层次：

•67.3%（560 个）：用 AI 编写恶意软件——这是攻击准备阶段，符合预期。

•6.5%（54 个）：用 AI 辅助横向移动——这是后入侵阶段，过去只有高技能攻击者才能执行。

6. 5% 的绝对数字不大。但真正值得关注的从来不是绝对值，而是趋势。

半年之间，中等风险以上攻击者占比从 33% 跳到 56%，增长 1.7 倍。AI 用于账户发现上升 8.9%，AI 辅助钓鱼下降 8.6%。

一升一降说明什么？攻击者正在把 AI 的使用重心从"怎么进去"转向"进去之后干什么"。

过去，后入侵技术是一道技能门槛。现在，AI 开始代劳。

---

二、传统风险评估的三个信号全部失效

这篇报告最锐利的部分不是"AI 有多危险"，而是逐一拆解了安全行业用了十几年的风险评估方法，发现它们正在一个接一个地失灵。

信号一失效：技术数量不再反映风险

安全团队习惯用攻击者使用的技战术数量来评估风险等级。但 AI 打破了这个前提——AI 可以代劳高技术任务，技能水平和技术数量之间脱钩了。

数据证实：技能最低的攻击者平均使用约 16 种技术，技能最高的约 20 种。差距很小。

信号二失效：工具平台不再反映风险

用 Claude Code 还是 API 还是聊天界面？不重要了。平台选择与风险等级无相关性。

信号三正在消退：攻击生命周期位置

一度，"AI 用在攻击的哪个阶段"还能区分风险等级——高风险攻击者把 AI 集中在后入侵技术上。但这个信号也在消退，因为越来越多攻击者正在进入这个区域。

三个信号相继失效后，报告收敛到一个判断：真正持久的区分因素是 agent 编排架构。

高风险攻击者设计的系统允许 AI 将攻击的各个阶段串联起来，最小化人工干预。换句话说，区分因素不是"会不会用 AI"，而是"能不能把 AI 编排成自主攻击系统"。

---

三、MITRE ATT&CK 框架的盲区

MITRE ATT&CK 是安全行业用了十几年的标准框架，分类整理网络攻击者的战术和技术。报告指出它有一个结构性盲区。

2025 年 11 月，Anthropic 瓦解了一次国家级网络间谍行动。攻击者操纵 Claude Code 自主执行命令、利用漏洞、窃取凭据、做出战术决策，仅在少数关键节点需要人工输入。

按 MITRE ATT&CK 映射：30 种技术、13 种战术——这在框架里只算"中等风险"。

按 Anthropic 的风险评分：满分 100。

差距来自哪里？ATT&CK 框架能分类单个技术，但无法描述"agent 化编排"——AI 自主串联多个攻击步骤、实时决策、无人干预执行的能力。这个行为在框架里没有对应的 ID。

框架设计的假设是"人类攻击者逐步执行操作"。当攻击变成 agent 自主编排时，按技术数量计数就失去了意义。

这不是 MITRE 的错。任何为人类执行设计的框架，在 agent 时代都面临同样的更新压力。

---

四、这不只是网络安全的问题

这篇报告讲的是网络安全，但底层逻辑可以迁移到任何被 AI 冲击的领域。

当执行成本被 AI 极大降低后，基于"执行难度"构建的评估指标就需要重新设计。

网络安全：技术难度不再反映攻击者风险等级。

软件质量：代码行数、测试覆盖率不再反映质量水平——AI 可以快速生成代码和测试用例，但质量取决于编排和治理。

企业 AI 落地：工具采购数量不再反映 AI 成熟度——真正的差异在于团队能不能把多个 AI 工具串成闭环。

这个判断跟一个更广的命题完全同构：AI 不会自动提升质量，它只会放大已有治理能力的优劣。 网络安全如此，软件质量如此，企业 AI 落地也如此。

---

五、企业应该做什么

对安全团队

1.不要只按技术数量评估威胁等级。加入"AI 编排程度"维度——攻击者是否在用 agent 架构串联攻击步骤？

2.关注后入侵阶段的 AI 使用趋势。初始访问的防御已经成熟，后入侵阶段的检测和响应是下一步重点。

3.参与安全框架的更新讨论。 MITRE 已经在与 Anthropic 讨论 ATT&CK 演进，企业安全团队应关注并贡献实践案例。

对研发和 AI 团队

1.审视 AI 工具评估体系。是不是还在用"用了多少工具""覆盖了多少功能"来衡量？这些指标可能已经在失效。

2.把"编排能力"纳入团队能力评估。不是单个工具用得好不好，而是能不能把多个工具串成闭环系统。

3.对 AI agent 的安全治理不能只看单点行为。要看 agent 的编排链路——这跟网络安全里"不看单点技术、看攻击链编排"是同一个道理。

---

边界与诚实声明

• 832 个案例是经过筛选的子集（"有足够细节进行评估"），非随机样本，存在选择偏差。

• 风险评分系统是 Anthropic 自建的，方法论未完整公开。

• 只覆盖 Anthropic 平台上的恶意使用，不代表全网情况。

• 6.5% 用于横向移动的绝对数值不高，趋势意义大于绝对意义。

• 报告视角天然偏向"AI 威胁"，因为发布者本身就是 AI 公司，有动机强调风险。

这些局限不推翻报告的核心发现，但提醒我们：一份报告的结论和它的样本边界同样重要。

#AI安全 #网络威胁 #AI驱动攻击 #MITRE #安全治理