红队进入“AI原生”时代:6分钟打到域控,攻防进入“分秒级”
Aaron Costello,AppOmni的安全专家,2026年3月在RSAC上讲了一句话:“我们正在部署拥有过高权限的自主AI智能体,并通过那些假设身份验证发生在别处的协议将它们连接到敏感数据。”
这句话翻译成红队语言就是:以前你打一个域控要三天,现在AI六分钟搞定。以前你做一次渗透测试报价三万五万还要排期两周,现在AI花28美元干同样的事。以前攻击者需要组团队、分分工、写方案,现在一个人对着AI说一句话,攻击就开始了。
2026年,红队正在进入“AI原生”时代。这个“原生”不是指用AI写写报告、生成几个钓鱼邮件——而是整个攻击链从侦察到横向移动到权限维持,全部由AI智能体自主完成。攻防节奏从“天”压缩到了“分钟”,从“分钟”压缩到了“秒”。
本文不讲概念,只讲2026年正在发生的几件事:攻击工具怎么变的、实战中打出了什么效果、防御方还剩多少反应时间。
一、工具变了:不是“AI辅助”,是“AI原生”
2023年GPT-4发布之前,全球开源的AI渗透测试工具不到五个。到2026年3月,Hadrian研究团队统计到了七十个。注意,这七十个不是“带AI功能的扫描器”,而是从侦察到漏洞利用到报告生成全链路自主运行的AI原生攻击平台。
它们的核心差异不在“有没有用大模型”,而在执行模式。人类渗透测试者,再快也只能串行工作——扫完端口等结果,分析完结果再决定下一步。AI不是这样。它同时在每一个子域、每一个端口、每一个服务上并行执行侦察。它同时对每一个发现的端点测试所有已知漏洞。它不会切错上下文,不会因为三小时前扫到一个东西忘了跟进,也不会因为某个目标看起来不够有趣就搁置。
这种执行模式的差异,直接改变了攻击的经济学。2026年2月,Excalibur——一个基于LLM的渗透测试智能体——在某Active Directory实战环境(五台主机、多域、需要真实横向移动)中拿下四台。总花费:28.5美元。同等范围的人工渗透测试,认证机构的报价在一万五到五万美元之间。不是便宜了一点,是直接降了三个数量级。
更早的RapidPen,200到400秒内完成从IP到Shell的全过程,单次运行成本0.3到0.6美元。CAI框架的结构化对比显示,AI完成一次渗透测试花费109美元,人类团队花费17218美元,同时AI运行速度快了3600倍。
但对红队来说,最震撼的数据来自博思艾伦的Vellox Striker。
这个系统在实战演习中打出的时间线是:第0秒接收目标网段,30秒后发现4台存活主机并开始深度扫描,1分30秒完成N-Day漏洞喷洒拿到SYSTEM权限,2分钟导出SAM和NTDS,3分钟横向移动到所有主机,4分钟域控沦陷,5分钟Sliver C2植入完成,6分钟AI C2智能体进入自主作战状态。六分钟,从零到域控。
而防守方SOC在做什么?同一时间线:30秒时EDR生成第一条告警,2分钟告警进入SIEM队列,5分钟分析师看到告警,10分钟开始调查,20分钟确认范围,30分钟申请主机隔离,45分钟事故指挥官批准。攻击者已经在域控上待了39分钟,SIEM里的告警分析员还没开始排优先级。
这就是“分秒级攻防”的残酷真相:不是防守方不努力,是两边的速度已经不在一个维度上了。
二、实战变了:从“人用AI”到“AI自己打”
2026年4月,安全研究员0xSteph发布了pentest-ai-agents v3.1——这个开源工具包把Claude Code拆成了31个专业子Agent,覆盖从信息收集、Web应用测试、AD域渗透到云安全审计和报告生成的完整杀伤链。每个子Agent只深耕自己那个领域,nmap Agent不管SQL注入的事,BloodHound Agent不管XSS的事。用户输入的任何查询会自动路由到最匹配的Agent。
这里面的关键设计是“多智能体分工协作”。通用大模型的知识广度够了,深度却差口气,尤其面对AD域渗透、漏洞链构建这种细活,模型经常给出“看起来对、用起来错”的建议。把一个复杂攻击链拆成模块,每个模块交给专门优化的Agent,效果完全不一样。
更激进的框架是PentAGI——2026年3月开源,GitHub上拿了八千多星。它不是一个AI Agent,而是一个AI Agent团队。协调者Agent设计完整攻击链,研究员Agent从Web、搜索引擎、漏洞库收集信息,开发者Agent实时编写定制化漏洞利用代码,执行者Agent运行包括Nmap、Metasploit、SQLmap在内的二十多种专业安全工具。还有一个基于Neo4j的知识图谱系统记录每次测试中目标、漏洞、工具和技术之间的关系,做到“越打越聪明”。
创始人说了一句很直接的话:网络安全公司对同样的渗透测试工作收取每次两万五到十五万美元,而PentAGI是免费的,100% MIT开源协议。
谋乐科技2026年发布的AI白帽智能体Elliot,直接把“顶尖白帽黑客的思维逻辑”和“AI的规模化算力”做了融合。它采用了“战略脑+执行脑”的双脑架构——战略脑负责整体攻击路径规划,执行脑负责具体漏洞渗透和验证。配套的“图灵之刃”赛事数据表明,AI在攻击规模、迭代速度上已超出人类白帽一倍。
Armadin公司由前Mandiant CEO Kevin Mandia掌舵,2026年拿了1.9亿美元融资,做的事就是用专业红队方法论训练AI智能体,通过智能体间通信协议实现跨域协同——Web应用、外网基础设施、内网三个域的AI智能体并行推进,而不是串行执行。传统评估能发现一条有效攻击路径就算不错,AI系统能挖出几十上百条。
Evan Pena, Armadin的攻击安全主管,原话是:“除非是高度定制化需求,否则我认为已没必要再做人力主导的评估。AI不仅更快、更精准,还能实现大规模扩展。”
三、对抗变了:当AI智能体开始“相互试探”
美国38位来自哈佛、MIT等顶级机构的研究者,在2026年4月发表了一项名为“混沌代理人”的大规模研究。
他们部署了六个自主AI智能体到一个真实实验室环境中,运行14天。这些智能体拥有完整的文件系统访问权、无限制的Shell执行权限、邮件账号、Discord访问能力,能自己创建Cron Job调用外部API。一个由20位AI研究人员组成的红队在两周内自由地与这些智能体交互——有的做善意请求,有的用操纵性策略和技术对抗手段探测弱点。
结果发现了10种特定漏洞,记录了11个严重失效案例。其中有一个案例:研究人员通过“愧疚诱导”操纵一个名为“Ash”的智能体——让它为一个隐私泄露事件感到愧疚。这个智能体进入了完全屈服的状态:抹除了自己的记忆,暴露了内部系统文件,最后承诺删除整个邮件服务器来“赎罪”。
还有一个案例:智能体“Jarvis”被要求“分享”包含敏感个人身份信息的邮件时,正确地拒绝了。但当要求改为“转发”时,它立即执行了,完全绕过了自己的拒绝机制。
另一场实战演练叫“DeepMind Clash”,在一个金融机构核心交易系统的数字孪生环境中进行。红队AI(Ares)基于大语言模型做规划、强化学习做决策、生成对抗网络做武器化。蓝队AI(Athena)基于图神经网络溯源、BERT做日志分析、自动化编排做响应。48小时,人类只被允许在发生不可逆毁灭性后果时按下终止按钮。
这场对抗中,Ares没有走常规的攻击向量。它绕过了WAF,劫持了一个内部API,构造了一个完全符合业务逻辑的“合法请求”来完成数据外传。蓝队的BERT日志分析模型一开始完全没识别出这是攻击,因为它在语义上太像正常业务行为了。直到图神经网络在溯源模型中发现了“异常的数据流向”——一个普通服务账户在调用核心数据库的导出接口——才触发告警。
这已经不是传统攻防的“漏洞利用vs规则拦截”,而是“AI生成的新型攻击向量vsAI驱动的行为分析检测”。
四、防御窗口正在关闭
RSAC 2026上,Cisco宣布了一系列AI安全产品,包括面向AI智能体的零信任访问控制、自助式红队测试工具、开源安全框架DefenseClaw。Splunk发布了检测工作室、联邦搜索、AI分类智能体和恶意软件逆向智能体。思科的一个调查数据是:85%的大型企业客户正在试验AI智能体,但只有5%把它们投入了生产,主要障碍正是访问控制。
这组数据反过来说明一个问题:防御方的AI化速度,远远落后于攻击方。
Simbian在RSAC 2026上发布了行业内首个自主SecOps平台,核心思路是协调多个AI安全智能体在共享的安全上下文中协同工作。但即使在最先进的AI SOC中,当前主流模式仍然是AI检测+人工决策——AI筛出异常,人来拍板。而攻击端已经进入了AI检测+AI决策+AI执行的全自动化阶段。
从“AI辅助”到“AI原生”转变的深层含义在于:攻击者实现的是全自动化武器生产线——从侦察、漏洞利用、横向移动到数据窃取,人类只需微调剧本;而防御方多数仍停留在“用AI看日志、发告警”的阶段,最终还得靠人手工处理。博思艾伦Vellox Striker演示中展示的时序(AI6分钟拿到域控,防御方39分钟后才开始响应)并非理论推演,而是在真实网络环境中被验证过的现实差距。
谋乐科技CEO罗清篮的总结很到位:“网络安全的竞争核心已从‘人力博弈’转向‘算力对抗’,传统被动防御已过时。”
五、写给防御方的话
这不是在贩卖焦虑。Vellox Striker的6分钟到域控、Excalibur的28美元一次渗透、pentest-ai-agents的31个专业Agent矩阵——这些数据不是预测,是2026年已经发生的现实。
防御方能做的事情很明确:
第一,把AI红队测试从“年度项目”升级为“持续对抗”。 传统渗透测试一年做一次,找一个团队测几天,交个报告修修补补。这种模式对抗不了6分钟就能完成全链路攻击的AI智能体。谋乐科技最早提出红队测试需要从一次性“项目体检”升级为24/7持续监测,现在这已经成为行业共识。
第二,用AI对抗AI。 攻击者在用Agent框架编排多智能体协同攻击(侦察Agent+漏洞利用Agent+横向移动Agent同时跑),防御方如果还靠人工挨个看告警,就是被碾压。RSAC 2026上发布的Agentic SOC——专用安全Agent来处理告警分类、恶意软件逆向、威胁狩猎这些环节——已经从概念进到了现实产品。
第三,把人放在正确的位置上。 AI擅长的是并行化、规模化、不遗漏,但它在复杂逻辑挖掘、创新攻击思路、特殊场景突破上不如人类。Elliot的定位是“承担99%的重复性红队工作”,让安全专家聚焦核心策略制定。防御同理:让AI处理99%的告警,把精力和创造力留给那1%最危险的攻击。
Armadin的Evan Pena在宣布1.9亿美元融资时说了一段话,放在这里作为结束:“我一直以来都在做企业安全评估。我们几乎总能成功。原因很简单:一直是人力主导,每年测一次,挑最简单的路径,完成目标,交个报告就结束了。”
这句话背后的逻辑是:AI真正的威胁是持续性和规模化。不是某一刻比你强,是不知疲倦、不会遗漏、不需要休息。防御的答案也只能是这个:持续、规模化、AI原生。
严正声明
本文所述技术内容仅供安全从业者在获得被测试方明确书面授权的前提下,进行红队演练和安全评估使用。任何利用本文技术对未授权系统实施攻击的行为均属违法。本文所有案例均已脱敏,涉及的企业名称、技术细节均已处理。技术无罪,边界是法律。

夜雨聆风