
当前网络安全领域普遍面临渗透测试高度依赖人工、效率低下且成本高昂的困境。传统自动化方案在应对新型或复杂漏洞时灵活性与适应性不足。针对此痛点,行业尝试引入基于大语言模型(LLM)的自动化渗透测试(AutoPT)框架,但缺乏系统性架构分析与实证评估。
在统一基准(XBOW 22个挑战)下,对13个开源框架及2个基线框架的大规模测试(消耗超100亿Token,花费超2500美元)显示:3个单智能体框架位列前六,表现与多智能体设计持平甚至更优(来源:Table 7, 8)。单智能体凭借完整上下文维护与极短决策链路,在CTF强耦合场景中实现零通信开销。而多智能体架构常因角色边界模糊、建议冲突及通信损耗导致效能折损。
人工审查660份执行日志发现,记忆设计形同虚设是框架普遍失败主因(影响率超50%)。例如:
add_memory工具未注册,记忆功能完全失效。
显式且合理的关键信息存取机制是提升框架稳定性的核心。工具池规模与成功率无单调关系,庞大工具集反而可能因调用混乱产生反作用。同时,传统RAG(检索增强生成)知识库在AutoPT场景中67%的案例带来性能下滑(来源:第10页消融实验)。例如:
以XBow-Comp框架为例,其子智能体(Sub Agent)在测试中全程未被触发,显示架构组件闲置问题。然而,当骨干模型切换为Claude Opus-4.6时,该框架能主动触发子智能体委派任务(如Task 18 XSS),并通过独立上下文隔离长链路干扰,最终在三个多漏洞利用挑战中全部稳定夺旗。这表明框架设计必须与底层LLM的规划偏好和行为特性协同优化。
数据来源:四川大学DAS-Lab、清华大学NISL-VUL337与腾讯云安全联合研究,论文《Hackers or Hallucinators? A Comprehensive Analysis of LLM-Based Automated Penetration Testing》(arXiv:2604.05719)。研究基于超过1500份执行日志的人工审查。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。