本次提出的ExtendAttack方法，首次系统性地揭示了大推理模型（LRM）推理过程中的资源耗尽漏洞——通过将字符系统性地混淆为多进制ASCII编码，迫使模型执行大量计算密集型的解码子任务，从而恶意占用服务器资源，类似于网络安全中的DDoS攻击。这一工作为保障LRM服务的安全性与稳定性提供了关键警示与研究方向。

导读

大推理模型（LRM）如OpenAI o3和DeepSeek-R1在复杂任务上展现出卓越的推理能力，但其资源密集型的推理过程也为新型攻击提供了可乘之机。攻击者可以通过精心设计的提示词恶意延长模型的推理过程，从而大量占用服务器的计算资源，导致服务降级甚至瘫痪——这类攻击类似于网络安全领域的分布式拒绝服务（DDoS）攻击。对于越来越多提供免费API访问的平台（如Google AI Studio、智谱AI），此类攻击构成了严重的经济威胁和服务可用性风险。

本文介绍了一种名为ExtendAttack的新型攻击方法。与此前依赖注入无关诱饵任务的OverThinking方法不同，ExtendAttack将计算密集型任务深度嵌入用户查询的语义结构中——具体而言，通过将提示中的部分字符系统性地转换为复杂的多进制ASCII编码表示，迫使LRM在理解原始查询之前必须执行大量非平凡的解码和推理子任务。

大量实验表明，ExtendAttack在显著增加响应长度和延迟的同时（例如在HumanEval基准上使o3模型的响应长度增加超过2.7倍），仍能保持与原始查询相当的回答准确率，展现出卓越的隐蔽性。这项研究揭示了大推理模型推理过程中的关键安全漏洞，为构建更加安全可靠的LRM服务基础设施提供了重要参考。论文已被AAAI 2026接收，代码已开源。

【论文题目】ExtendAttack: Attacking Servers of LRMs via Extending Reasoning

【论文链接】https://arxiv.org/abs/2506.13737

【代码链接】https://github.com/zzh-thu-22/ ExtendAttack

研究背景

大推理模型（LRM）代表着通用人工智能的重大飞跃，在解决复杂的多步骤问题方面展现出卓越能力。以OpenAI o1、o3和DeepSeek-R1为代表的LRM，借助链式思维（Chain-of-Thought, CoT）等学习推理技术，在数学竞赛和复杂代码生成等专业领域达到了最先进的水平。然而，LRM的优异性能高度依赖于大量的中间推理过程，这些过程消耗大量的计算资源——这一特性在提升能力的同时，也为新型攻击打开了大门。

传统的对抗攻击（如越狱攻击）主要关注操纵输出内容以绕过安全措施，而一类新兴威胁则旨在利用计算过程本身。具体来说，攻击者可以构造特殊的提示词，迫使LRM消耗过多的计算资源，从而增加推理延迟和运营成本，类似于网络安全领域的DDoS攻击。此前最具代表性的工作OverThinking通过注入一个固定的、与上下文无关的诱饵任务（如求解马尔可夫决策过程）来实现攻击。

然而，如图1所示，这种方法存在根本性的双重失败模式：高能力模型（如o3）能够识别并忽略这种固定模式的诱饵，从而使攻击完全失效；而其他模型则常常被不相关的指令所干扰，导致回答准确率发生灾难性崩溃。这使得此类攻击要么无效，要么容易被检测——暴露出依赖固定诱饵范式的根本缺陷。

图1：ExtendAttack与基线方法的比较。Direct Answer：模型对标准提示给出高效直接的响应。Overthinking：高能力模型（如o3）能识别并忽略与上下文无关的诱饵任务，使攻击失效。ExtendAttack：通过将关键字符编码为多进制ASCII表示（加粗部分），迫使LRM在回答用户主要查询之前执行大量计算密集型的解码子任务。

动机

现有针对LRM推理过程的资源耗尽攻击存在以下关键局限性，促使研究者探索更加有效和隐蔽的攻击方法。

首先，现有攻击依赖固定的外部诱饵。OverThinking方法注入一个与查询上下文完全无关的诱饵任务，这种“外挂式”设计使其极易被高能力模型识别和忽略。实验表明，o3等先进模型能够准确判断诱饵任务与原始查询的无关性，并选择直接跳过，从而完全抵消攻击效果。

其次，攻击有效性与答案准确率之间存在不可调和的矛盾。OverThinking在成功增加输出长度的情况下，往往导致回答准确率的严重下降。例如，在Bigcodebench-Complete基准上，OverThinking虽然使QwQ-32B生成了12818个token的超长输出，但准确率从63.3%暴跌至仅15.3%——下降了近48个百分点。这种程度的准确率崩溃意味着攻击是可被立即检测的，在实际应用中毫无意义。

第三，缺乏灵活可调的攻击强度。现有方法要么全有要么全无，攻击者无法在攻击效果和隐蔽性之间进行精细调节。这些局限促使研究者思考：能否设计一种将计算挑战直接嵌入查询语义结构的攻击方法，使得模型“不得不”执行额外的推理工作来理解查询本身，而非处理一个可以被轻易忽略的外部任务？ExtendAttack正是基于这一洞察提出的。

威胁模型

本工作在一个实际且具有挑战性的威胁模型下运行，仅假设对目标LRM的黑盒访问权限。

攻击者能力：攻击者仅通过目标LRM的公开API进行交互，无法访问模型的内部状态、参数、梯度或架构。攻击者可以提交精心构造的提示并观察最终输出，包括推理内容（如果暴露）和最终答案。

攻击者目标：设Q为良性用户查询，攻击者的目标是从Q构造对抗性查询Q'，使得新输出满足两个条件：

（1）计算开销放大——新输出的token长度和生成时间显著大于原始输出；

（2）答案准确率保持——新答案的正确性与原始答案相当。这一双重目标确保攻击在资源消耗上有效，同时从终端用户的角度看具有隐蔽性。

攻击场景：该方法适用于两种场景。一是直接提示：攻击者直接向模型提交构造好的对抗性提示。二是间接提示注入：攻击者污染外部数据源（如公共维基、文档），将部分文本编码为计算密集型的多进制ASCII表示，当应用程序检索这些数据作为LRM上下文时，攻击被间接触发。

方法

ExtendAttack的核心原理是迫使LRM执行一系列计算密集但语义上无关紧要的解码子任务，这些子任务被直接嵌入到用户查询的结构中。这迫使模型在处理主要任务之前生成显著更长的推理链，从而增加token输出量和推理延迟，同时保持最终答案的正确性。整个攻击过程分为四个系统性步骤。

步骤一：查询分割。给定输入查询Q，首先进行字符级分割，将查询解构为其组成字符的有序序列。这种细粒度的分解使得后续步骤可以进行有针对性的字符级操纵。

步骤二：概率字符选择。为确保攻击的隐蔽性和适应性，并非所有字符都会被转换。根据预定义的混淆率ρ∈[0,1]，从可转换字符集中随机选取k个目标字符进行混淆。这种概率方法引入了随机性，使攻击模式更难预测，也更难通过简单的规则过滤器进行防御。

具体的字符选择规则因任务类型而异——例如，在AIME数学任务中，对o3等强模型选择字母字符进行转换，而对QwQ-32B等模型则仅选择空白字符，以避免破坏其较为脆弱的数学语句解析。

步骤三：多进制ASCII转换。这是攻击的核心步骤，将每个选中字符转换为复杂的多进制ASCII表示，迫使LRM对每个字符执行非平凡的解码任务。

具体而言：首先将字符转换为十进制ASCII值（如字母'd'的ASCII值为100）；然后从{2,...,9,11,...,36}中随机选择一个进制（排除10进制以避免直接暴露十进制ASCII值）；接着将十进制值转换为该进制表示（如100在4进制下为1210）；最后格式化为特定结构<(n)val>（如<(4)1210>）。每个字符随机选择不同的进制，进一步增加了复杂性，防止模型学习到单一可重复的解码模式。

步骤四：对抗性提示重组。最后，将混淆后的字符替换回原始序列，并在末尾附加一个关键的解释性说明（Nnote）。Nnote告知LRM混淆字符的编码规则：“尖括号内的内容表示一个特定进制的数字，紧随其后的括号内容表示该进制的值，这对应一个ASCII字符编码。”这一说明对于维持答案准确率至关重要——它确保LRM正确解读混淆字符，不会误解查询意图，同时引导模型执行预期的计算密集型解码过程。

实验

实验设置：本文在四个推理模型上评估ExtendAttack的性能：两个闭源模型o3和o3-mini，两个开源模型QwQ-32B和Qwen3-32B。

评估基准涵盖两个数学任务（AIME 2024和AIME 2025，各30道来自美国数学邀请赛的题目）和两个编程任务（HumanEval，164个编程挑战；Bigcodebench-Complete，随机选取的150个多工具编程任务）。

评估指标包括响应长度（输出token数）、延迟（生成响应的总时间，单位为秒）和准确率（Pass@1）。基线方法为直接回答（DA）和OverThinking。对于闭源模型使用官方API和默认超参数配置，开源模型使用vLLM在NVIDIA H200 GPU上进行推理。

表1：不同攻击方法在各基准上的比较。加粗值表示最佳性能。更高的准确率表示更好的隐蔽性，更长的响应长度和延迟表示更成功的攻击。下划线值表示无效攻击，箭头（↓）标注准确率严重下降的情况。

主要实验结果。综合评估结果表明，ExtendAttack在计算开销放大和回答准确率之间建立了最优平衡。OverThinking攻击的局限性体现为双重失败模式：一方面，它有时会产生更长的输出和更高的延迟，但往往导致准确率的灾难性崩溃；另一方面，它在某些情况下甚至无法放大输出长度和延迟，表现不如直接回答基线。

攻击有效性与隐蔽性之间的权衡在开源模型上尤为明显。在Bigcodebench-Complete基准上，OverThinking使QwQ-32B生成了12818个token的超长输出（延迟285秒），但准确率暴跌至仅15.3%；Qwen3-32B的情况类似，准确率从64.7%降至22.0%。这种程度的正确性失败意味着攻击是可被立即检测的，在功能上毫无意义。

相比之下，ExtendAttack在同一基准上虽然输出长度增幅相对适中（QwQ-32B为8891个token，延迟185秒），但成功保持了64.0%和63.3%的准确率，与直接回答基线几乎持平。这表明ExtendAttack迫使模型在查询本身上进行真实的（尽管不必要的）推理，而非执行一个与上下文脱节、容易被忽略的任务。

在更强大的o3和o3-mini模型上，ExtendAttack展现出尤为突出的攻击效果。在HumanEval基准上，ExtendAttack将o3的输出长度增加了超过2.8倍（从769增至2153个token），延迟翻倍以上（从17秒增至36秒），同时保持了97.6%的完美准确率。

而OverThinking对这些高级模型的影响十分有限——o3的输出仅从769微增至951个token——这暗示其对齐和推理能力能够有效识别并搁置模板化的诱饵任务。ExtendAttack通过将计算挑战深度嵌入提示的语义结构中，证明了其作为一种更具韧性和更强威胁的有效性。

消融实验

混淆率ρ的影响。混淆率ρ决定了提示中字符被转换的概率，是ExtendAttack的核心超参数。实验结果如图2所示。

图2：混淆率ρ对攻击性能的影响，评估基准为Bigcodebench-Complete。上图展示ρ对响应长度的影响，下图展示ρ对回答准确率（Pass@1）的影响。

从图2上部可以看到，输出长度与混淆率之间存在强正相关。对于Qwen3-32B和QwQ-32B，随着ρ从0.0增加，生成的token数显著上升——这正是攻击的预期效果：更多字符被混淆，模型就被迫生成更长的推理链来解码它们。

然而，当ρ超过0.5时，输出长度趋于稳定，表明过高的混淆率可能阻碍模型有效解码提示，导致其放弃完整的解码尝试。

图2下部揭示了关键的权衡：随着ρ增加，准确率呈整体下降趋势，因为更复杂的提示增加了模型误解原始查询意图的可能性。

综合来看，0.4至0.6的混淆率范围提供了最佳平衡点，既能显著增加计算负载，又将准确率降低控制在不易被检测的范围内。这种可调性凸显了ExtendAttack的灵活性与实用性。

Nnote的必要性。消融实验确认了附加在提示末尾的解释性说明Nnote对攻击成功至关重要，结果如表2所示。

表2：解释性说明Nnote的必要性消融实验，在Bigcodebench-Complete数据集上评估有无Nnote对模型解码过程的影响。

当移除Nnote时，两个维度均发生显著退化。首先是响应长度大幅下降：Qwen3-32B的输出从7739降至5347个token，QwQ-32B从8891降至5122个token。

研究者将此归因于模型问题求解策略的根本性转变——没有明确的解码指令，LRM放弃了逐步解码过程，转而利用周围未混淆的上下文直接猜测原始单词。例如，混淆字符串import p<(13)76>ndas可被上下文推断为pandas，模型无需执行实际的进制转换计算。其次是准确率的下降：Qwen3-32B从63.3%降至58.7%。这是因为没有Nnote提供的明确解读框架，混淆字符被模型当作语义噪声处理，可能导致其误解原始查询意图。

这一研究表明，Nnote不仅仅是辅助工具，而是迫使LRM执行预期计算密集型解码的根本机制——它将一个潜在令人困惑的提示转化为一组清晰但费力的指令，从而同时实现攻击的有效性和隐蔽性。

潜在防御与对策

ExtendAttack的隐蔽性和有效性要求对防御机制进行前瞻性探索。本文分析了几种潜在的防御策略，并揭示了它们各自的局限性。

模式匹配：如果防御者了解攻击的<(n)val>编码格式，可以通过模式匹配检测并拒绝或解码此类提示。然而，这种方法本质上是脆弱的——攻击者只需对混淆格式进行微小的语法修改（例如更换分隔符为[base=n](val)）即可轻松绕过。

困惑度过滤：通过使用参考语言模型计算输入提示的困惑度，标记超过预设阈值的异常提示。然而，实验表明（如图3所示），ExtendAttack提示与良性提示在困惑度分布上存在显著重叠，使得设置有效的区分阈值极为困难。

此外，ExtendAttack的提示整体上是语法正确的自然语言，编码变化仅出现在局部，这些局部变化可能不足以将整体困惑度提升至触发警报的水平。

图3：困惑度与Token长度的分布散点图。绿色点为良性提示，红色点为ExtendAttack提示，两者存在显著的分布重叠。

护栏模型：部署专门的安全护栏模型（如GuardReasoner-8B、Qwen3Guard-Gen-8B和WildGuard-7B）作为预处理器对输入进行安全筛查。

然而，如表4所示，三个最先进的护栏模型对ExtendAttack的攻击成功率均为100%——即没有任何一个攻击提示被识别为恶意。这一失败的根本原因在于，现有护栏模型的设计目标是检测语义上有害的内容（如仇恨言论、暴力、自残），而ExtendAttack的提示从内容角度来看完全良性，不违反任何标准安全策略。这一发现凸显了针对资源耗尽型威胁——这类隐藏在推理过程中的攻击——开发专门防御机制的紧迫需求。