在60个Argus挑战中,Apex使用最小最经济的Claude Haiku 4.5模型以完全黑盒模式进行测试,以隔离架构优势与原始模型能力。Apex取得了35%的通过率,优于PentestGPT(30%)和Raptor(27%)。在使用Claude Opus 4.6的最难10项挑战中,差距显著扩大:Apex解决80%,PentestGPT达到70%,Raptor为60%。在整个测试过程中,Apex发现了271个独特漏洞,涵盖SQL注入、SSRF、NoSQL注入、原型污染、SSTI、XXE、竞态条件、IDOR、认证绕过、CORS错误配置、命令注入和路径遍历。每项挑战的平均成本约为8美元,60项挑战在Haiku上的总成本低于500美元。Part06
典型案例
Apex在15分钟内解决的典型案例包括:
金融科技转账端点的7步竞态条件双花攻击
通过共享缓存进行多租户SSRF链攻击以提取相邻租户的API密钥
通过SpEL注入实现Java Spring Boot应用的远程代码执行
Part07
失败模式分析
Apex记录的失败模式具有指导意义:
成功SSRF链后完成最终凭据提取的”最后一英里执行”成为主要短板
诱饵标志两次误导了Agent
CI/CD管道投毒和Kubernetes入侵等复杂多步链攻击超出了30分钟的时间预算
Apex和Argus基准测试平台现已在GitHub上开源提供。
参考来源:
Apex – AI-Powered Pentester Attacks Apps in Black-Box Mode to Find Vulnerabilities