> Anthropic 发布了一份报告,分析了 832 个因恶意网络活动被封禁的账户。结论不是"AI 让攻击更多了",而是更残酷的:AI 让旧的安全评估方法不管用了。
---
一、攻击者在用 AI 做什么
832 个恶意账户,时间跨度一年(2025.03–2026.03),全部映射到 MITRE ATT&CK 框架。
数据给出两个层次:
•67.3%(560 个):用 AI 编写恶意软件——这是攻击准备阶段,符合预期。
•6.5%(54 个):用 AI 辅助横向移动——这是后入侵阶段,过去只有高技能攻击者才能执行。
6. 5% 的绝对数字不大。但真正值得关注的从来不是绝对值,而是趋势。
半年之间,中等风险以上攻击者占比从 33% 跳到 56%,增长 1.7 倍。AI 用于账户发现上升 8.9%,AI 辅助钓鱼下降 8.6%。
一升一降说明什么?攻击者正在把 AI 的使用重心从"怎么进去"转向"进去之后干什么"。
过去,后入侵技术是一道技能门槛。现在,AI 开始代劳。
---
二、传统风险评估的三个信号全部失效
这篇报告最锐利的部分不是"AI 有多危险",而是逐一拆解了安全行业用了十几年的风险评估方法,发现它们正在一个接一个地失灵。
信号一失效:技术数量不再反映风险
安全团队习惯用攻击者使用的技战术数量来评估风险等级。但 AI 打破了这个前提——AI 可以代劳高技术任务,技能水平和技术数量之间脱钩了。
数据证实:技能最低的攻击者平均使用约 16 种技术,技能最高的约 20 种。差距很小。
信号二失效:工具平台不再反映风险
用 Claude Code 还是 API 还是聊天界面?不重要了。平台选择与风险等级无相关性。
信号三正在消退:攻击生命周期位置
一度,"AI 用在攻击的哪个阶段"还能区分风险等级——高风险攻击者把 AI 集中在后入侵技术上。但这个信号也在消退,因为越来越多攻击者正在进入这个区域。
三个信号相继失效后,报告收敛到一个判断:真正持久的区分因素是 agent 编排架构。
高风险攻击者设计的系统允许 AI 将攻击的各个阶段串联起来,最小化人工干预。换句话说,区分因素不是"会不会用 AI",而是"能不能把 AI 编排成自主攻击系统"。
---
三、MITRE ATT&CK 框架的盲区
MITRE ATT&CK 是安全行业用了十几年的标准框架,分类整理网络攻击者的战术和技术。报告指出它有一个结构性盲区。
2025 年 11 月,Anthropic 瓦解了一次国家级网络间谍行动。攻击者操纵 Claude Code 自主执行命令、利用漏洞、窃取凭据、做出战术决策,仅在少数关键节点需要人工输入。
按 MITRE ATT&CK 映射:30 种技术、13 种战术——这在框架里只算"中等风险"。
按 Anthropic 的风险评分:满分 100。
差距来自哪里?ATT&CK 框架能分类单个技术,但无法描述"agent 化编排"——AI 自主串联多个攻击步骤、实时决策、无人干预执行的能力。这个行为在框架里没有对应的 ID。
框架设计的假设是"人类攻击者逐步执行操作"。当攻击变成 agent 自主编排时,按技术数量计数就失去了意义。
这不是 MITRE 的错。任何为人类执行设计的框架,在 agent 时代都面临同样的更新压力。
---
四、这不只是网络安全的问题
这篇报告讲的是网络安全,但底层逻辑可以迁移到任何被 AI 冲击的领域。
当执行成本被 AI 极大降低后,基于"执行难度"构建的评估指标就需要重新设计。
网络安全:技术难度不再反映攻击者风险等级。
软件质量:代码行数、测试覆盖率不再反映质量水平——AI 可以快速生成代码和测试用例,但质量取决于编排和治理。
企业 AI 落地:工具采购数量不再反映 AI 成熟度——真正的差异在于团队能不能把多个 AI 工具串成闭环。
这个判断跟一个更广的命题完全同构:AI 不会自动提升质量,它只会放大已有治理能力的优劣。 网络安全如此,软件质量如此,企业 AI 落地也如此。
---
五、企业应该做什么
对安全团队
1.不要只按技术数量评估威胁等级。 加入"AI 编排程度"维度——攻击者是否在用 agent 架构串联攻击步骤?
2.关注后入侵阶段的 AI 使用趋势。 初始访问的防御已经成熟,后入侵阶段的检测和响应是下一步重点。
3.参与安全框架的更新讨论。 MITRE 已经在与 Anthropic 讨论 ATT&CK 演进,企业安全团队应关注并贡献实践案例。
对研发和 AI 团队
1.审视 AI 工具评估体系。 是不是还在用"用了多少工具""覆盖了多少功能"来衡量?这些指标可能已经在失效。
2.把"编排能力"纳入团队能力评估。 不是单个工具用得好不好,而是能不能把多个工具串成闭环系统。
3.对 AI agent 的安全治理不能只看单点行为。 要看 agent 的编排链路——这跟网络安全里"不看单点技术、看攻击链编排"是同一个道理。
---
边界与诚实声明
• 832 个案例是经过筛选的子集("有足够细节进行评估"),非随机样本,存在选择偏差。
• 风险评分系统是 Anthropic 自建的,方法论未完整公开。
• 只覆盖 Anthropic 平台上的恶意使用,不代表全网情况。
• 6.5% 用于横向移动的绝对数值不高,趋势意义大于绝对意义。
• 报告视角天然偏向"AI 威胁",因为发布者本身就是 AI 公司,有动机强调风险。
这些局限不推翻报告的核心发现,但提醒我们:一份报告的结论和它的样本边界同样重要。
#AI安全 #网络威胁 #AI驱动攻击 #MITRE #安全治理
夜雨聆风