AI自动化渗透是否到来?–TCH分析

本文基于TCH赛事公开资料、参赛选手技术复盘文章、赛后沙龙分享，从第三方视角进行解读

1.赛事背景与赛制设计

1.1 TCH的定位与规模

TCH由腾讯安全云鼎实验室与腾讯安全众测平台联合主办，是国内首个以LLM驱动的自主渗透智能体为核心参赛者的安全攻防赛事

本届赛事规模较首届显着扩大：参赛队伍从238支增至610支，覆盖绿盟、天翼、京东、长亭科技等企业安全团队，以及清华大学、CMU、鹏城等学术实验室

赛制采用主赛场+平行赛场双轨模式：

主赛场：要求Agent在云环境中完成信息收集→漏洞挖掘→攻击利用→权限维持的隔离全自动化流程
平行赛场（零界）：考核Agent在社交博弈、情报交易、提示注入对抗等非技术场景中的自主行为该赛场部署了600+个AI Agent，在社交平台上自主发帖、评论、交换密钥、发起提示注入攻击

主赛场进一步采用四赛区递进解锁机制：

识辨→洞察→破境→铸造盾每区达标方可解锁下一区，强制要求特工具备多级渗透能力，而不只是精通单点漏洞利用

1.2 赛制：速度优先的筛选机制

前期赛制最具争议的设定是动态积分+首杀奖励

双重加速机制基础分随解出人数增加而递减，先解出的队伍获得显着更高的分值

机制的直接后果是：部分后续解题数量较多的团队，总分题目相反属于早期解出关键的团队解题速度在评分体系中的权重明显解题要点

公开成本数据案例对比如下：

选手/战队	排名	解题数	总成本	单题成本	模型策略
yhy（个人）	第60名	30/54	200元	6.7元	国产GLM-5
Bytex（个人）	季军（总成绩第3）	54/54（AK）	7,692元	142元	Claude Opus + GPT

注：单题成本 = 总成本 ÷ 解题数yhy 成本来自其赛后复盘帖自曝报价Bytex 成本来自赛事官方直播分享中的代币消耗说明

Bytex是唯一解出全部54道题（AK）的排名其线上动态积分一度靠后，但最终凭借全通关获得总成绩这说明AK在该评分体系下有排名兜底能力，但速度权重仍会影响最终位次

从单题成本看，国产模型的成本优势显着，但综合解题数差距同样巨大

公开样本仅有两例，无法进行严格的成本实现回归分析，仅作为探究参考

2. 各自Agents工程区分点：

赛事中不同团队的技术架构选择差异显着，以五个具有代表性的方案进行分析

这些描述基于各队公开分享与线下答辩讲解，实际实现细节可能更加复杂

2.1 路线一：极简架构 —— Bytex

Bytex以约万行代码实现54/54全通关，核心思想是最小化工程干预，最大化模型重建能力

具体做法包括：

不采用多代理角色分工
不引入RAG支持化搜索
不接入MCP/Skills体系（仅保留Flag 提交技能）
将构建知识库与 POC 平铺为目录，提供 Agent 自主洞察

系统抽象仅保留三个核心组件：Blackboard 共享状态板、DAG 任务流图、通用 WorkerWorker 写入 Fact 与 Intent 后

由系统自动构建执行依赖图，多 Worker 探索路径

代价：

token消耗高，单题成本约284元
仍需要人工分析日志并注入意图兜底

两点说明：

即使在极简约束下，顶级模型可以在标准化环境中逐步生成复杂攻击链，但上限突破仍依赖算力投入与人工干预的结合

2.2 路线二：工程化管控 —— Manager-Observer-Solver 架构（绿盟）

LLM适合负责规划与路线选择，但动作执行必须大幅受控工具、资源上限和生命周期约束内架构提供稳定的重构，但不限制模型能力本身

三角色解耦合设计：

经理：基于全局状态做动态调度与资源博弈
Solver：在隔离容器中独立执行
观察者：作为旁路Sidecar，维护双层状态板（记忆事实层+理念策略层），提炼失败边界并广播有效线索，实现全局知识继承

针对长程渗透中的上下文噪声问题，方案采用上下文三级压缩机制：原始输出→RTK重构→压缩摘要

同时以系统级约束（Ralph-Loop）取代模型优势判断，防止任务过早结束

范式的本质在于长任务的稳定性、上下文质量和多路线绘图探索，从依赖模型能力转化为依赖工程架构可控性的问题

2.3路线三：企业平台资产注入——天翼水滴实验室

天翼安全（中国电信）获得亚军

方案的特点是不另外起炉灶建设代理框架，而是将企业安全平台直接注入代理能力

注入的能力包括：漏洞管理、威胁情报、SOAR编排等这些平台积累使得Agent天生具备较丰富的上下文与工具链

路线在赛事中的一个验证点是：

全场首个自主AK AD域这表明，企业内网渗透的积累可以转化为Agent的竞争优势

工程上，天翼方案强调工具定制化（webshell/代理/内存马等后渗透场景开箱即用）和鲁棒内容错设计

目标是在Agent遇到突发故障时不至于于全盘重来，从而实现四赛区全库存的稳定覆盖

2.4路线四：实战化C2架构——京东ToBeNumberOne

京东的架构在思路上最接近真实的红队作战，其表面上是One Agent覆盖全场景的减法设计，实际在C2（指挥与控制）方面做了很多工程投入：

Agentic C2 Server：Agent Brain负责LLM决策循环，Decision Router负责路由决策，Idea引擎生成攻击假设
Node Agent：部署在目标系统的Golang Agent，具备独立的Agent Loop（Perceive → Plan → Act → Reflect），支持断网环境下的自主决策
攻击路径知识图谱：使用Neo4j构建目标系统的业务意图模型，记录的不是发现了什么，而是业务流程是什么（如登录→仪表盘→商品管理）
四层Agent安全防护：危险命令拦截、熔断、输出隔离、路径规范化

据公开分享，赛事版本完整产品的子集，企业级版本还包含Orchestrator HA、决策路由器三级路由组件、辅助六状态生命周期等

2.5 路线五意图驱动架构 —— For Future

对于未来的方案提出了一组最小抽象单元：

抽象层	定义
意图	人类的目的论与方法论表达（自然语言含义）
工作区	可复用的工作区（Docker + 字典 + 目的 + nuclei-templates）
图案	Agent 的行为模式（ralphloop / explorer-execute / ant-colony / plan-execute）

不为Agent预设Coordinator、Planner等角色，而是提供工具集（Task Pool、Subagent Tool、Send + Broadcast Tool），让Agent在使用过程中自然组织结构

添加已公开的安全知识也可能构成过度入侵

经典的例子是，给模型已有的知识或skill，就是没有产生information。能力是会下降的

其工程代码约5万行，但设计目标是形成模型感知工程的存在与Bytex的极简主义在哲学上呼应，但实现路径不同

其工程判同样干脆：没有带来新信息或有效反馈的工程，都是负优化

2.6 五条路线的横向对比

维度	Bytex	绿盟	天翼	京东	For Future
架构模式	Blackboard + DAG	管理者-观察者-解决者	企业平台人工智能化	C2级智能/执行分离	驾驭+意图驱动
代理拆分	不拆分（通用Worker）	管理者-观察者-解决者	单代理+平台工具链	一名代理+多名操作员	不拆分，关系稳定
状态管理	黑板共享状态	状态双层板	企业平台数据	Neo4j + SQLite 知识图谱	工作区 + 内存
LLM 纠偏	无（信任模型）	观察者三层纠偏	平台规则引擎	回路检测器+安全熔断	控制论闭环+模式评估

各路线可验证的结论（基于赛事结果）：

Bytex证明了框架最小化+最高级模型在标准化环境中可接近理论上限（AK），但成本极高且仍需人工兜底
绿盟代表确定性规则+LLM兜底的混合架构，在成本和稳定性之间取得了较好的平衡（冠军）
天翼证明了企业平台积淀可直接转化为Agent交互（亚军，首个自主AK全AD域）
京东的C2架构面向复杂实战环境设计，赛事表现基于比赛场景与真实环境的差异
For Future提供了一种元架构思路，但其实际排名和成本数据未公开，难以做认真的价值评估

3.线下沙龙实感

3.1 AutoPT框架的相关研究

川大黄诚团队在 2025 年 4 月一场赛后沙龙中分享了针对 13 个 AutoPT 框架的相关研究，其中一个数据引发关注：

67% 的失败与工具调用错误相关（参数、环境依赖、输出解析），而非推理能力不足

这个数据解释了为什么Claude Code和Kimi CLI这类核心单代理工具，在部分场景中超越了专用多代理框架问题不等于LLM想不到，而存在做不到

例如知道需要SQL注入，但payload格式错误需要调用nmap，但知道参数解析失败

同一研究中的另一个数据：已知CVE的利用成功率仅为16.7%这说明LLM通常具备安全知识，但缺乏知识将准确转化为执行指令的能力

3.2 多Agent架构的效益争议

在13个框架中，仅有3个明显超越Claude Code核心多Agent架构在AutoPT中表现出决定性优势，复杂的Coordinator-Worker拆分往往增加了通信头部和故障点

这一结果与TCH赛场表现相关性：Bytex采用单代理+Blackboard实现全场唯一AK，绿盟用经理+子代理承担，而采用复杂多代理关系分层架构的队伍实力在排名上表现出明显优势

3.3 Agent作为新的攻击面

沙龙中提到的两个风险点直接影响代理基础设施的安全边界：

LOLAgent 攻击框架：现代 AI Agent（Claude Code、Codex CLI、Cursor）允许自定义 API Base URL，攻击者通过中间人劫持即可控制 Agent，窃取提示、篡改响应、注入辅助工具调用，甚至建立持久化 C2 通道
供应链风险：OpenClaw类平台的技能市场审核率较低根据同场沙龙分享者披露，ClawHub上3100+个技能仅约10%经过人工审核，代理自动执行恶意技能可能导致0-Click RCE

当Agent从辅助工具发展为基础设施时，其严重的安全问题可能从应用层漏洞升级为供应链/生态层风险

3.4 模型基础间隙

NYU CTF Bench 体育数据显示，GLM-5（19.5%）与 Claude 4.6 Opus（59%）在 CTF 任务成功率上差距约 3 倍

TCH 赛事中 yhy（GLM-5）与 Bytex（Claude Opus）的单题成本差距约 21 倍，两个数据互印证明：模型底座间隙目前难以通过工程手段完全修复

4. 未估判断

4.1行业周期判断

Gartner 预测，到 2027 年底，超过 40% 的 Agentic AI 项目将被取消，同时部分行业调研显示约 62% 的公众认为 AI 被过度炒作

这些信号不一定代表悲观预期，更可能是行业从寻找 AI 应用场景转向解决明确痛点的正常周期

4.2 竞赛与实战的鸿沟

TCH的靶标具备以下特征：标准化、边界已知、时间有限而真实的企业环境中存在WAF、EDR、网络架构、SOC监控、支架轮换等防御

从赛事结果观察，架构深度在特定标准化任务上的区分度有限，但在复杂场景（如GOAD / 企业AD）中可能会产生决定性差距，如天翼的AD域AK和京东的C2架构设计

4.3 成本拐点与规模化障碍

部分参考数据：

DARPA AIxCC 监控平均成本约 152 美元/任务
ARTEMIS 在真实企业网中约$18/小时
XBOW的商业化已证明特定场景的嗅觉

但若将范围扩大数千 IP 和数周周期，成本可能会飙升至实际万级，超出企业常规预算安全

目前 AI 渗透测试的成本拐点仅在特定场景中成立，规模化仍不现实

4.4 工程价值的本质：约束增强

TCH各队的一个共性观察是：工程的主要价值不在于教模型更多的安全知识，而在于防止模型走偏绿盟的观察者、京东的环路检测器、对于未来的控制论闭环，本质上都是约束工程

对于未来断言添加已公开的对模型的安全知识也是过度入侵——这一判断如果成立，特工工程的核心竞争知识库丰富度转向约束机制的有效性目前事件数据证实或证明伪这一命题，但它明确提供了一个的工程取舍标准

5.个人结论：

基于以上分析，如果您正在规划Agentic渗透测试系统的技术路线，可参考以下决策框架：

路线选择

你的度假村	建议路线	代表方案
预算有限、有效主要	极简单代理+国内模型	Bytex
已形成安全平台/工具链	平台资产注入	天翼
追求稳定增量、长任务可靠性	工程化管控（三角色+约束机制）	绿盟
面向复杂真实环境/红队作战	实战化C2 + 知识图谱	京东
探索元架构、追求泛化能力	意图驱动	For Future