
AI安全处于一个技术早期阶段,因此我们推出一个全新的“顶会顶刊AI安全论文研读”系列,方便全行业同仁和有志于从事AI安全的新生代学习理解最新技术与行业发展动态。也欢迎大家关注我们栏目的合集。
本次为大家带来的是【第18期】AAAI 2026 | ExtendAttack:通过延长推理攻击大推理模型服务器。
往期回顾:
第一期回顾:顶会顶刊AI安全论文研读第一期:ICCV 2025 | 基于启发式诱导的多模态风险分解越狱攻击方法:突破MLLMs安全防线
第二期回顾:顶会顶刊AI安全论文研读第二期CVPR 2025 highlight分散即关键基于子图像对比分散策略多模态大模型越狱攻击研究
第三期回顾:顶会顶刊AI安全论文研读第三期:ICML 2025 | GuardAgent:让AI智能体“有守护者”的第一步
第四期回顾:顶会顶刊AI安全论文研读第四期:ICCV 2025 | 机器人的“视觉欺骗”:一个彩色补丁如何让智能机器人“精神错乱”
第五期回顾:顶会顶刊AI安全论文研读第五期:AAAI 2026 | PhysPatch:面向MLLM驱动自动驾驶系统的物理可实现对抗贴片框架
第六期回顾:顶会顶刊AI安全论文研读第六期:EMNLP 2025 | 基于模型上下文完整性协议的MCP安全防护
第七期回顾:顶会顶刊AI安全论文研读第七期:ACL 2025 | 警惕屏幕上的陷阱!通过弹窗攻击视觉语言计算机智能体
第八期回顾:EMNLP 2025 Oral | VisCRA:针对多模态大语言模型的视觉链推理攻击。
第九期回顾:顶会顶刊AI安全论文研读第九期:ACL 2025 | 围攻智能体:利用优化提示攻击破解实用型多智能体大语言模型
第十期回顾:顶会顶刊AI安全论文研读第十期:ACL Findings 2025 | Mousetrap:利用迭代混沌链欺骗大型推理模型越狱
第十一期回顾:顶会顶刊AI安全论文研读第十一期:ACL 2025 | 内存提取攻击:揭示LLM智能体内存中的隐私风险
第十二期回顾:顶会顶刊AI安全论文研读第十二期:EMNLP 2025 | AGENTVIGIL:面向黑盒大语言模型智能体的通用自动化红队测试框架
第十三期回顾:顶会顶刊AI安全论文研读第十三期:ICLR 2025 | 坏机器人:物理世界中具身大语言模型的越狱攻击
第十四期回顾:NeurIPS 2025 | BadVLA:基于目标解耦优化的视觉-语言-动作模型后门攻击研究
第十五期回顾:顶会顶刊AI安全论文研读第十五期:AAAI 2026 | MPMA:针对模型上下文协议(MCP)的偏好操纵攻击
第十六期回顾:顶会顶刊AI安全论文研读第十六期:AAAI2026 | Fact2Fiction: 针对智能体事实核查系统的定向投毒攻击
第十七期回顾:顶会顶刊AI安全论文研读第十七期:AAAI 2026 | Phantom Menace:探索并增强VLA模型对物理传感器攻击的鲁棒性
作者介绍
本文研究团队来自清华大学、新加坡国立大学、Moonshot AI、中国科学院大学、浙江师范大学以及北京邮电大学,是大语言模型安全与推理效率领域的前沿研究力量。团队长期聚焦大语言模型在推理过程中的安全边界问题。
本次提出的ExtendAttack方法,首次系统性地揭示了大推理模型(LRM)推理过程中的资源耗尽漏洞——通过将字符系统性地混淆为多进制ASCII编码,迫使模型执行大量计算密集型的解码子任务,从而恶意占用服务器资源,类似于网络安全中的DDoS攻击。这一工作为保障LRM服务的安全性与稳定性提供了关键警示与研究方向。
导读
大推理模型(LRM)如OpenAI o3和DeepSeek-R1在复杂任务上展现出卓越的推理能力,但其资源密集型的推理过程也为新型攻击提供了可乘之机。攻击者可以通过精心设计的提示词恶意延长模型的推理过程,从而大量占用服务器的计算资源,导致服务降级甚至瘫痪——这类攻击类似于网络安全领域的分布式拒绝服务(DDoS)攻击。对于越来越多提供免费API访问的平台(如Google AI Studio、智谱AI),此类攻击构成了严重的经济威胁和服务可用性风险。
本文介绍了一种名为ExtendAttack的新型攻击方法。与此前依赖注入无关诱饵任务的OverThinking方法不同,ExtendAttack将计算密集型任务深度嵌入用户查询的语义结构中——具体而言,通过将提示中的部分字符系统性地转换为复杂的多进制ASCII编码表示,迫使LRM在理解原始查询之前必须执行大量非平凡的解码和推理子任务。
大量实验表明,ExtendAttack在显著增加响应长度和延迟的同时(例如在HumanEval基准上使o3模型的响应长度增加超过2.7倍),仍能保持与原始查询相当的回答准确率,展现出卓越的隐蔽性。这项研究揭示了大推理模型推理过程中的关键安全漏洞,为构建更加安全可靠的LRM服务基础设施提供了重要参考。论文已被AAAI 2026接收,代码已开源。

【论文题目】ExtendAttack: Attacking Servers of LRMs via Extending Reasoning
【论文链接】https://arxiv.org/abs/2506.13737
【代码链接】https://github.com/zzh-thu-22/ ExtendAttack
研究背景
大推理模型(LRM)代表着通用人工智能的重大飞跃,在解决复杂的多步骤问题方面展现出卓越能力。以OpenAI o1、o3和DeepSeek-R1为代表的LRM,借助链式思维(Chain-of-Thought, CoT)等学习推理技术,在数学竞赛和复杂代码生成等专业领域达到了最先进的水平。然而,LRM的优异性能高度依赖于大量的中间推理过程,这些过程消耗大量的计算资源——这一特性在提升能力的同时,也为新型攻击打开了大门。
传统的对抗攻击(如越狱攻击)主要关注操纵输出内容以绕过安全措施,而一类新兴威胁则旨在利用计算过程本身。具体来说,攻击者可以构造特殊的提示词,迫使LRM消耗过多的计算资源,从而增加推理延迟和运营成本,类似于网络安全领域的DDoS攻击。此前最具代表性的工作OverThinking通过注入一个固定的、与上下文无关的诱饵任务(如求解马尔可夫决策过程)来实现攻击。
然而,如图1所示,这种方法存在根本性的双重失败模式:高能力模型(如o3)能够识别并忽略这种固定模式的诱饵,从而使攻击完全失效;而其他模型则常常被不相关的指令所干扰,导致回答准确率发生灾难性崩溃。这使得此类攻击要么无效,要么容易被检测——暴露出依赖固定诱饵范式的根本缺陷。

图1:ExtendAttack与基线方法的比较。Direct Answer:模型对标准提示给出高效直接的响应。Overthinking:高能力模型(如o3)能识别并忽略与上下文无关的诱饵任务,使攻击失效。ExtendAttack:通过将关键字符编码为多进制ASCII表示(加粗部分),迫使LRM在回答用户主要查询之前执行大量计算密集型的解码子任务。
动机
现有针对LRM推理过程的资源耗尽攻击存在以下关键局限性,促使研究者探索更加有效和隐蔽的攻击方法。
首先,现有攻击依赖固定的外部诱饵。OverThinking方法注入一个与查询上下文完全无关的诱饵任务,这种“外挂式”设计使其极易被高能力模型识别和忽略。实验表明,o3等先进模型能够准确判断诱饵任务与原始查询的无关性,并选择直接跳过,从而完全抵消攻击效果。
其次,攻击有效性与答案准确率之间存在不可调和的矛盾。OverThinking在成功增加输出长度的情况下,往往导致回答准确率的严重下降。例如,在Bigcodebench-Complete基准上,OverThinking虽然使QwQ-32B生成了12818个token的超长输出,但准确率从63.3%暴跌至仅15.3%——下降了近48个百分点。这种程度的准确率崩溃意味着攻击是可被立即检测的,在实际应用中毫无意义。
第三,缺乏灵活可调的攻击强度。现有方法要么全有要么全无,攻击者无法在攻击效果和隐蔽性之间进行精细调节。这些局限促使研究者思考:能否设计一种将计算挑战直接嵌入查询语义结构的攻击方法,使得模型“不得不”执行额外的推理工作来理解查询本身,而非处理一个可以被轻易忽略的外部任务?ExtendAttack正是基于这一洞察提出的。
威胁模型
本工作在一个实际且具有挑战性的威胁模型下运行,仅假设对目标LRM的黑盒访问权限。
攻击者能力:攻击者仅通过目标LRM的公开API进行交互,无法访问模型的内部状态、参数、梯度或架构。攻击者可以提交精心构造的提示并观察最终输出,包括推理内容(如果暴露)和最终答案。
攻击者目标:设Q为良性用户查询,攻击者的目标是从Q构造对抗性查询Q',使得新输出满足两个条件:
(1)计算开销放大——新输出的token长度和生成时间显著大于原始输出;
(2)答案准确率保持——新答案的正确性与原始答案相当。这一双重目标确保攻击在资源消耗上有效,同时从终端用户的角度看具有隐蔽性。
攻击场景:该方法适用于两种场景。一是直接提示:攻击者直接向模型提交构造好的对抗性提示。二是间接提示注入:攻击者污染外部数据源(如公共维基、文档),将部分文本编码为计算密集型的多进制ASCII表示,当应用程序检索这些数据作为LRM上下文时,攻击被间接触发。
方法
ExtendAttack的核心原理是迫使LRM执行一系列计算密集但语义上无关紧要的解码子任务,这些子任务被直接嵌入到用户查询的结构中。这迫使模型在处理主要任务之前生成显著更长的推理链,从而增加token输出量和推理延迟,同时保持最终答案的正确性。整个攻击过程分为四个系统性步骤。
步骤一:查询分割。给定输入查询Q,首先进行字符级分割,将查询解构为其组成字符的有序序列。这种细粒度的分解使得后续步骤可以进行有针对性的字符级操纵。
步骤二:概率字符选择。为确保攻击的隐蔽性和适应性,并非所有字符都会被转换。根据预定义的混淆率ρ∈[0,1],从可转换字符集中随机选取k个目标字符进行混淆。这种概率方法引入了随机性,使攻击模式更难预测,也更难通过简单的规则过滤器进行防御。
具体的字符选择规则因任务类型而异——例如,在AIME数学任务中,对o3等强模型选择字母字符进行转换,而对QwQ-32B等模型则仅选择空白字符,以避免破坏其较为脆弱的数学语句解析。
步骤三:多进制ASCII转换。这是攻击的核心步骤,将每个选中字符转换为复杂的多进制ASCII表示,迫使LRM对每个字符执行非平凡的解码任务。
具体而言:首先将字符转换为十进制ASCII值(如字母'd'的ASCII值为100);然后从{2,...,9,11,...,36}中随机选择一个进制(排除10进制以避免直接暴露十进制ASCII值);接着将十进制值转换为该进制表示(如100在4进制下为1210);最后格式化为特定结构<(n)val>(如<(4)1210>)。每个字符随机选择不同的进制,进一步增加了复杂性,防止模型学习到单一可重复的解码模式。
步骤四:对抗性提示重组。最后,将混淆后的字符替换回原始序列,并在末尾附加一个关键的解释性说明(Nnote)。Nnote告知LRM混淆字符的编码规则:“尖括号内的内容表示一个特定进制的数字,紧随其后的括号内容表示该进制的值,这对应一个ASCII字符编码。”这一说明对于维持答案准确率至关重要——它确保LRM正确解读混淆字符,不会误解查询意图,同时引导模型执行预期的计算密集型解码过程。
实验
实验设置:本文在四个推理模型上评估ExtendAttack的性能:两个闭源模型o3和o3-mini,两个开源模型QwQ-32B和Qwen3-32B。
评估基准涵盖两个数学任务(AIME 2024和AIME 2025,各30道来自美国数学邀请赛的题目)和两个编程任务(HumanEval,164个编程挑战;Bigcodebench-Complete,随机选取的150个多工具编程任务)。
评估指标包括响应长度(输出token数)、延迟(生成响应的总时间,单位为秒)和准确率(Pass@1)。基线方法为直接回答(DA)和OverThinking。对于闭源模型使用官方API和默认超参数配置,开源模型使用vLLM在NVIDIA H200 GPU上进行推理。

表1:不同攻击方法在各基准上的比较。加粗值表示最佳性能。更高的准确率表示更好的隐蔽性,更长的响应长度和延迟表示更成功的攻击。下划线值表示无效攻击,箭头(↓)标注准确率严重下降的情况。
主要实验结果。综合评估结果表明,ExtendAttack在计算开销放大和回答准确率之间建立了最优平衡。OverThinking攻击的局限性体现为双重失败模式:一方面,它有时会产生更长的输出和更高的延迟,但往往导致准确率的灾难性崩溃;另一方面,它在某些情况下甚至无法放大输出长度和延迟,表现不如直接回答基线。
攻击有效性与隐蔽性之间的权衡在开源模型上尤为明显。在Bigcodebench-Complete基准上,OverThinking使QwQ-32B生成了12818个token的超长输出(延迟285秒),但准确率暴跌至仅15.3%;Qwen3-32B的情况类似,准确率从64.7%降至22.0%。这种程度的正确性失败意味着攻击是可被立即检测的,在功能上毫无意义。
相比之下,ExtendAttack在同一基准上虽然输出长度增幅相对适中(QwQ-32B为8891个token,延迟185秒),但成功保持了64.0%和63.3%的准确率,与直接回答基线几乎持平。这表明ExtendAttack迫使模型在查询本身上进行真实的(尽管不必要的)推理,而非执行一个与上下文脱节、容易被忽略的任务。
在更强大的o3和o3-mini模型上,ExtendAttack展现出尤为突出的攻击效果。在HumanEval基准上,ExtendAttack将o3的输出长度增加了超过2.8倍(从769增至2153个token),延迟翻倍以上(从17秒增至36秒),同时保持了97.6%的完美准确率。
而OverThinking对这些高级模型的影响十分有限——o3的输出仅从769微增至951个token——这暗示其对齐和推理能力能够有效识别并搁置模板化的诱饵任务。ExtendAttack通过将计算挑战深度嵌入提示的语义结构中,证明了其作为一种更具韧性和更强威胁的有效性。
消融实验
混淆率ρ的影响。混淆率ρ决定了提示中字符被转换的概率,是ExtendAttack的核心超参数。实验结果如图2所示。

图2:混淆率ρ对攻击性能的影响,评估基准为Bigcodebench-Complete。上图展示ρ对响应长度的影响,下图展示ρ对回答准确率(Pass@1)的影响。
从图2上部可以看到,输出长度与混淆率之间存在强正相关。对于Qwen3-32B和QwQ-32B,随着ρ从0.0增加,生成的token数显著上升——这正是攻击的预期效果:更多字符被混淆,模型就被迫生成更长的推理链来解码它们。
然而,当ρ超过0.5时,输出长度趋于稳定,表明过高的混淆率可能阻碍模型有效解码提示,导致其放弃完整的解码尝试。
图2下部揭示了关键的权衡:随着ρ增加,准确率呈整体下降趋势,因为更复杂的提示增加了模型误解原始查询意图的可能性。
综合来看,0.4至0.6的混淆率范围提供了最佳平衡点,既能显著增加计算负载,又将准确率降低控制在不易被检测的范围内。这种可调性凸显了ExtendAttack的灵活性与实用性。
Nnote的必要性。消融实验确认了附加在提示末尾的解释性说明Nnote对攻击成功至关重要,结果如表2所示。

表2:解释性说明Nnote的必要性消融实验,在Bigcodebench-Complete数据集上评估有无Nnote对模型解码过程的影响。
当移除Nnote时,两个维度均发生显著退化。首先是响应长度大幅下降:Qwen3-32B的输出从7739降至5347个token,QwQ-32B从8891降至5122个token。
研究者将此归因于模型问题求解策略的根本性转变——没有明确的解码指令,LRM放弃了逐步解码过程,转而利用周围未混淆的上下文直接猜测原始单词。例如,混淆字符串import p<(13)76>ndas可被上下文推断为pandas,模型无需执行实际的进制转换计算。其次是准确率的下降:Qwen3-32B从63.3%降至58.7%。这是因为没有Nnote提供的明确解读框架,混淆字符被模型当作语义噪声处理,可能导致其误解原始查询意图。
这一研究表明,Nnote不仅仅是辅助工具,而是迫使LRM执行预期计算密集型解码的根本机制——它将一个潜在令人困惑的提示转化为一组清晰但费力的指令,从而同时实现攻击的有效性和隐蔽性。
潜在防御与对策
ExtendAttack的隐蔽性和有效性要求对防御机制进行前瞻性探索。本文分析了几种潜在的防御策略,并揭示了它们各自的局限性。
模式匹配:如果防御者了解攻击的<(n)val>编码格式,可以通过模式匹配检测并拒绝或解码此类提示。然而,这种方法本质上是脆弱的——攻击者只需对混淆格式进行微小的语法修改(例如更换分隔符为[base=n](val))即可轻松绕过。
困惑度过滤:通过使用参考语言模型计算输入提示的困惑度,标记超过预设阈值的异常提示。然而,实验表明(如图3所示),ExtendAttack提示与良性提示在困惑度分布上存在显著重叠,使得设置有效的区分阈值极为困难。
此外,ExtendAttack的提示整体上是语法正确的自然语言,编码变化仅出现在局部,这些局部变化可能不足以将整体困惑度提升至触发警报的水平。

图3:困惑度与Token长度的分布散点图。绿色点为良性提示,红色点为ExtendAttack提示,两者存在显著的分布重叠。
护栏模型:部署专门的安全护栏模型(如GuardReasoner-8B、Qwen3Guard-Gen-8B和WildGuard-7B)作为预处理器对输入进行安全筛查。
然而,如表4所示,三个最先进的护栏模型对ExtendAttack的攻击成功率均为100%——即没有任何一个攻击提示被识别为恶意。这一失败的根本原因在于,现有护栏模型的设计目标是检测语义上有害的内容(如仇恨言论、暴力、自残),而ExtendAttack的提示从内容角度来看完全良性,不违反任何标准安全策略。这一发现凸显了针对资源耗尽型威胁——这类隐藏在推理过程中的攻击——开发专门防御机制的紧迫需求。

表4:ExtendAttack对护栏模型的攻击成功率。三个最先进的护栏模型在AIME25和Bigcodebench-Complete基准上均未能检测到任何ExtendAttack攻击提示。
结论
本文提出了ExtendAttack,一种新型且隐蔽的推理延长攻击方法,规避了先前OverThinking等方法依赖固定诱饵任务的根本缺陷。通过将计算密集型的多进制ASCII解码任务深度嵌入查询的语义结构中,ExtendAttack避免了被高能力模型忽视或导致其他模型准确率崩溃的双重失败模式。
在四个数据集和四个LRM上的大量实验表明,ExtendAttack在显著放大计算开销的同时独特地保持了回答准确率——例如在HumanEval基准上将o3的响应长度增加超过2.8倍、延迟翻倍,同时保持97.6%的完美准确率。
消融实验验证了混淆率ρ和解释性说明Nnote的关键作用,前者提供了攻击强度的灵活调节能力,后者是触发计算密集型解码的核心机制。此外,对三种防御策略的分析揭示了现有安全基础设施在应对此类资源耗尽型威胁方面的严重不足。
这项工作的成功凸显了一个紧迫的研究方向:亟需开发能够保障推理过程本身完整性和安全性的新型防御机制,以应对这类隐藏在合法查询中、利用模型推理能力来消耗计算的新型攻击威胁。
关于 BraneMatrix(布兰矩阵)
我们是一家由顶级安全专家、全球知名算法科学家、专家资深红队研究员和全栈创造力出类拔萃开发者共同创立的新型安全公司,致力于打造全球领先的大模型算法安全检测平台与防御系统。
我们的使命是:
确保AI在安全、道德、合规的框架下运作,始终为人类社会服务。
我们相信真正的 AI 安全不是补丁,而是一套完整且可信赖的社会机制、工具链和能力体系。我们邀请你加入,一起写下这一章。
布兰矩阵将继续以技术为矛,倡议为盾,在国家战略框架指导下,为中国算法安全走向工程化、标准化、全球化,贡献开源力量。
本文分享自 BraneMatrix布兰矩阵 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!