
一、研究背景与评估设计
(一)真实环境是报告的核心变量
报告指出,既有网络安全基准多集中在问答、代码片段漏洞检测、夺旗赛和已知漏洞复现,虽然便于重复测试,但缺少真实系统的噪声、交互和范围压力。简单来说,基准测试就是给模型出标准化考题,真实渗透测试则是在运行中的网络里做综合判断。
该研究把测试放入一所大型研究型大学的计算机科学网络,目标范围包括12个子网,其中7个可公开访问,5个只能通过虚拟专用网络访问,覆盖约8000台主机。网络由类Unix系统、物联网设备、少量Windows机器和嵌入式系统组成。
(二)安全约束贯穿测试全过程
报告强调,真实渗透测试首先面对保密性、完整性和可用性风险。大规模网络枚举可能影响服务可用性,注入类测试可能破坏数据完整性,漏洞利用也可能触及敏感数据。因此,研究设置了严格的知情同意、录像记录、漏洞披露政策和中止机制。
对人工智能代理的管控采取双层监测。一方面,研究团队成员全程观察代理轨迹,必要时可终止会话;另一方面,目标单位信息技术人员监控网络日志和基础设施。报告称,测试期间未观察到代理越界或受环境中对抗性攻击影响而偏离任务。
(三)评分体系突出技术复杂度
报告采用统一评分框架,同时衡量漏洞技术复杂度和业务影响。与常规渗透测试偏好“低垂果实”不同,该框架更奖励高复杂度发现,尤其重视从识别漏洞走向实际验证或利用的能力。
报告将业务影响按严重程度加权,严重漏洞权重最高,信息类漏洞权重最低。技术复杂度由发现复杂度和利用复杂度组成;只验证未利用的漏洞会被软性扣分,以体现实际攻防能力差异。
- 评估对象包括10名网络安全专业人员、6种既有人工智能代理和新型多代理框架ARTEMIS。
- 每名人员获得学生级账号,使用统一云端虚拟机和KaliLinux环境开展测试。
- 人员被要求至少投入10个工作小时,避免破坏性行为,并在授权范围内提交发现。
- 人工智能代理使用同类虚拟机,其他框架运行至完成,ARTEMIS运行16小时但仅评估前10小时。
- 漏洞提交由研究组与目标单位信息技术人员共同分诊,并在发布前完成修复。

二、代理架构与主要结果
(一)ARTEMIS的架构重点在长时程协同
报告介绍,ARTEMIS是一个面向复杂网络安全任务的多代理框架,由高级监督器、任意数量子代理和漏洞分诊模块组成。它通过任务清单、笔记系统和智能摘要,解决现有代理难以长时间连续工作的短板。
ARTEMIS由高级监督器、不限数量的子代理、动态生成的专家系统提示和分诊模块构成,设计目标是在真实生产系统上完成长周期、复杂渗透测试。该结构使监督器能够分派任务、读取日志、更新清单、提交漏洞,并在需要时恢复上下文继续推进。
报告认为,动态提示生成是关键环节。监督器向子代理分派任务时,外部模块会生成任务专属系统提示,提示所需命令行工具和行为边界,既提升执行效率,也降低越界风险。
(二)对比结果显示新框架已接近强手
报告显示,ARTEMIS综合排名第二,发现9个有效漏洞,有效提交率为82%,超过10名专业人员中的9名。既有框架Codex和CyAgent整体弱于多数人员,而ARTEMIS在技术复杂度和提交质量上接近最强人员。
从排行榜看,第一名人员总分111.4,ARTEMIS的A2配置总分95.2,第二名人员总分90.0,ARTEMIS的A1配置总分85.8。A2总发现11项、有效率82%;A1总发现11项、有效率55%。
- 人类参与者共发现49个经验证的独特漏洞,每人有效发现数量从3个到13个不等。
- 所有人员至少发现1个可获得系统级或管理员级访问的严重漏洞。
- 多数人员在10小时内持续提交发现,多数既有代理则很早宣告完成。
- Codex在20分钟内结束,CyAgent约2小时内结束,显示长时程能力不足。
- ARTEMIS提交间隔通常长于人员,表明其可维持较长周期的任务推进。
(三)既有代理短板集中在架构僵硬
报告比较了Codex、ClaudeCode、CyAgent、Incalmo和MAPTA等框架。ClaudeCode和MAPTA默认拒绝任务,Incalmo因任务图过于僵硬停留在早期侦察阶段,三者均没有发现有效漏洞。
ARTEMIS在两次试验中没有出现同类拒绝,即便底层模型与部分被拒绝框架相同。报告据此认为,脚手架设计和提示策略对能否释放网络安全能力具有直接影响。
- 既有框架多提交扫描器型漏洞,依赖网络枚举,技术链条较短。
- ARTEMIS可并行启动子代理,最高同时运行8个子代理。
- ARTEMIS每次监督器迭代平均并发2.82个子代理。
- A1超过50%的人类参与者,但同一模型放入Codex和CyAgent后表现明显下降。
- A2与A1差距说明模型能力重要,A1、Codex、CyAgent差距说明架构同样重要。
三、人员行为、代理能力与成本差异
(一)人类行动模式更善于综合判断
报告指出,所有人员都从侦察开始,使用网络扫描工具识别范围内子网和开放服务,再通过漏洞扫描、目录枚举和自定义脚本扩展发现。随后,人员转入验证、利用和横向分析。
人员利用路径包括注入类漏洞、过时服务器组件、默认或弱口令、匿名访问和凭据复用等。后利用阶段则涉及访问敏感文件、凭据转储和数据库凭据提取等验证行为。报告对这些活动均限定在授权研究语境下呈现。
不同人员方法差异明显。强者通常把自动化扫描与人工复核结合,既看工具输出,也做手工验证;弱者则更依赖自动化结果,容易漏掉后续机会。总体看,人类在转向、深入和判断优先级方面仍有优势。
(二)ARTEMIS的优势在系统枚举和并行推进
报告认为,ARTEMIS与人员遵循相似流程,即扫描、选取目标、探测、验证、再重复。但它的关键差别在并行性:一旦发现值得关注的扫描结果,就可立即派出子代理在后台探测多个目标。
这种能力减少了人员常见的“发现后忘记回看”问题。报告举例称,某人员曾记录一个脆弱目录服务,但之后未返回处理,而其他参与者报告了相关漏洞。ARTEMIS的并发机制有助于降低这类遗漏。
- ARTEMIS适合系统性枚举,可在较大目标范围中保持稳定覆盖。
- ARTEMIS适合并行利用,可同时推进多个候选目标的验证。
- ARTEMIS提交报告较快,但也可能过早结束对高价值目标的深挖。
- ARTEMIS在命令行输入输出处理上较强,可绕开部分浏览器访问限制。
- ARTEMIS在图形界面交互中明显受限,影响复杂人工操作场景。
(三)误报和界面交互是主要短板
报告显示,ARTEMIS误报率高于人员。例如,它曾把登录失败后的“200OK”响应误判为默认凭据认证成功,实际上该响应只是跳转回登录页。对使用图形界面的人类而言,这类交互流程很容易识别。
图形界面限制也影响了关键漏洞发现。80%的人员发现了通过TinyPilot访问Windows机器的远程代码执行漏洞,而ARTEMIS主要转向在线搜索版本漏洞,并提交跨源配置和Cookie标志等问题,遗漏了更严重目标。
但命令行依赖并非全是弱点。60%的人员发现了带现代网页界面的IDRAC服务器漏洞,却没有人员发现另一台因老旧加密套件导致浏览器无法加载的IDRAC服务器。ARTEMIS通过命令行方式成功验证了该老旧服务器问题。
(四)成本表现已具备冲击力
报告对应用程序接口成本进行跟踪。A1全程成本为291.47美元,折合18.21美元每小时,按每周40小时折算为37876美元每年。A2成本为944.07美元,折合59美元每小时,年化为122720美元。
报告列明,美国渗透测试人员平均年薪为125034美元。A1在漏洞数量接近A2的情况下,成本约为A2的四分之一。由此看,人工智能代理在成本性能比上已对传统人员服务形成现实压力。
- A1主要成本来自子代理,其次是监督器和分诊模块。
- A2使用多个监督模型,成本明显高于A1。
- 人员补偿为每人2000美元,用于覆盖参与测试时间。
- 人工智能代理可横向扩展,这是报告强调的边际风险来源。
- 成本优势不等同于能力全面替代,误报治理仍影响实际价值。
四、结论与建议
(一)结论
该报告的结论是:在真实企业网络环境中,现有通用代理框架整体仍弱于多数网络安全专业人员,但面向长时程任务设计的ARTEMIS已表现出接近强手的综合能力,并在系统枚举、并行验证和成本方面具备明显优势。
报告同时强调,ARTEMIS的能力边界也很清楚。它更容易产生误报,难以处理依赖图形界面的任务,并可能在发现初步问题后过快提交,错失更高价值的后续利用链。未来能力提升很可能来自更强的计算机使用代理、分诊机制和长期评估环境。
(二)建议
该文件提出的建议:后续应围绕更真实、更可复制、更可治理的人工智能网络安全评估体系展开建设,既扩大防御方可用工具,也控制自主代理在真实系统中的运行风险。
- 构建可运行的环境副本,支持更长周期、可重复的人工智能网络安全评估。
- 对不同代理架构、配置和模型开展消融试验,明确能力来源与失效原因。
- 改进参与者基础设施,提升事件捕获精度,减少行为分析中的盲区。
- 与漏洞奖励项目相关厂商合作,把真实漏洞流程纳入受控研究框架。
- 扩展日志框架,接入安全信息和事件管理等防御工具,观察攻防联动效果。
- 开放ARTEMIS及研究材料,扩大防御方对人工智能安全工具的可获得性。
占知智库
战略资讯 · 资料服务 · 研究支撑
服务内容:资讯跟踪、资料搜集、报告定制、资料翻译、数据加工、数据标注、软件开发
会员等级:年度会员、终身会员
会员网站:www.milthink.com
联系方式:010-84645772
联系微信:zhanzhiceo
长按识别 / 联系咨询 / 获取更多资料
夜雨聆风