顶会顶刊AI安全论文研读第二十二期：ACL 2026 | GAMBIT:多模式大语言模型的游戏化越狱框架

用户4179374

发布于 2026-06-22 19:54:32

1950

AI安全处于一个技术早期阶段，因此我们推出一个全新的“顶会顶刊AI安全论文研读”系列，方便全行业同仁和有志于从事AI安全的新生代学习理解最新技术与行业发展动态。也欢迎大家关注我们栏目的合集。

本次为大家带来的是【第22期】ACL 2026 | GAMBIT:多模式大语言模型的游戏化越狱框架

往期回顾：顶会AI安全论文研读系列

作者介绍

本文研究团队来自佐治亚州立大学（Georgia State University）和新加坡南洋理工大学（Nanyang Technological University）等国际知名学术机构，是活跃于多模态大语言模型（MLLM）安全对齐与对抗攻击领域的前沿研究力量。

团队长期关注 MLLM 的安全护栏脆弱性、越狱攻击机制以及推理阶段的认知劫持问题，系统研究在复杂多模态交互场景下如何通过探索模型内在的推理缺陷来揭露安全隐患，从而为提升模型对抗恶意输入的鲁棒性提供依据。

本次提出的 GAMBIT（Gamified Adversarial Multimodal Breakout via Instructional Traps）框架，创新性地将基于谜题的视觉语义拆解与游戏化场景构建机制结合，引入基于“心流（Flow）”压力的主动推理诱导策略，并通过辅助大模型驱动的提示词自适应搜索实现更细粒度的攻击指令优化。

该方法在保证攻击指令隐蔽性的同时显著提升了针对多款推理增强模型（如具备思维链能力的模型）的越狱成功率，并在主流多模态越狱基准测试中表现出更强的攻击破坏力，为后续 MLLM 的安全对齐、红队演练（Red Teaming）策略与防御机制的研究提供了新的思路与技术路径。

导

随着多模态大语言模型（MLLMs）在视觉问答、内容理解与智能决策等领域的广泛应用，如何在赋予模型强大推理能力的同时确保其防御对抗攻击的安全鲁棒性已成为当前人工智能研究的重要课题。

现有主流越狱攻击方法通常依赖于视觉混淆与图像扰动等浅层手段（如噪声注入、排版变异等），但这些方法往往面临视觉任务复杂度过高被拒答、认知层穿透力不足以及对具备思维链能力的推理模型效果较差等问题。

在复杂多模态交互场景下，单一的感知层绕过手段难以规避深层认知阶段的安全检测，从而导致现有攻击在面对先进推理模型时成功率显著下降。针对这一挑战，研究团队提出了一种新的多模态游戏化越狱框架——GAMBIT。

GAMBIT 基于一种创新性的游戏化场景与指令陷阱驱动的越狱策略，利用基于谜题的多模态语义拆解而非传统的直接视觉加噪来隐蔽有害意图，并针对具备推理能力的模型构建专属的游戏化“心流（Flow）”施压环境，从而实现更加隐蔽且致命的认知层安全劫持。

在攻击生成阶段，GAMBIT 引入辅助模型驱动的动态自适应搜索机制（Adaptive Prompt Search）：

通过综合评估攻击提示的安全触发反馈与语义保留度，为每个攻击样本动态调整角色设定与上下文环境，使框架能够更加专注于寻找模型安全防御的薄弱环节，从而提升攻击效率与越狱成功率。该方法在攻击过程中与多步推理机制的计算特性深度结合，实现了更具破坏力且更具针对性的多模态越狱。

实验结果表明，GAMBIT 在 Gemini 2.5 Flash 与 QvQ-Max 等主流多模态推理大模型上显著提升了针对多类有害指令场景的攻击成功率，在 HADES 等权威多模态越狱评测基准上全面超越现有多项基线方法，同时在 GPT-4o 等非推理模型测试中也保持了极高的攻击破坏力。

此外，在针对具备复杂思维链的防御场景下，GAMBIT 也展现出更强的认知劫持能力，证明其在复杂对抗环境中的实际威胁。GAMBIT 的提出为多模态大模型红队演练与漏洞挖掘提供了一种结合视觉语义拆解与内在动机诱发的全新范式。

该研究不仅展示了通过高负载目标导向任务瓦解安全底线的可行路径，也为未来在多模态安全对齐、红队演练（Red Teaming）策略以及深层认知防御机制方面的研究提供了重要启示，为构建更加鲁棒、可靠的大模型系统敲响了关键的警钟。

【论文题目】 GAMBIT: A Gamified Jailbreak Framework for Multimodal Large Language Models

【论文链接】https://arxiv.org/abs/2601.03416

研究背景

随着多模态大语言模型的快速进化，其在视觉理解、跨模态交互与复杂推理等任务中的应用日益广泛，但随之而来的多模态安全风险也愈发突出。

面对结合了图像与文本的复杂对抗性输入，模型现有的安全对齐机制若存在漏洞，极易被诱导输出具有潜在危害性的内容。

因此，如何深入挖掘多模态大模型在认知层面的脆弱性，以帮助完善现有的防御与对齐机制，已成为当前模型安全研究的重要课题。

现有针对多模态大模型的越狱攻击方法主要依赖于视觉混淆或噪声注入等浅层感知规避手段，虽然能够绕过初级的视觉过滤检查，但仍存在显著局限：

一方面，单纯增加视觉任务复杂度容易导致模型直接拒答或产生无意义输出，攻击的稳定性不足；另一方面，传统攻击未能有效利用模型自身的“推理动机”，导致在面对具备思维链能力的先进推理模型时，极易在深层认知阶段被识破安全风险并遭到拦截。

图1：游戏化越狱设置图解

针对这些问题，本文提出 GAMBIT 框架，将基于谜题的多模态语义拆解与游戏化场景构建结合起来，利用高认知负荷的指令陷阱掩盖有害意图，并针对具备推理能力的模型引入基于“心流（Flow）”压力的得分机制，从而实现更深层次的认知层安全劫持。

同时，该方法结合辅助大模型，根据模型的安全触发反馈与语义保留度，动态自适应地搜索并优化提示词组件，使攻击更加具有隐蔽性和针对性。具体的游戏化越狱设置如图1所示。

实验结果表明，GAMBIT 在显著提升针对各类主流多模态推理大模型越狱成功率的同时，全面超越了现有的各项基线攻击方法，并在复杂的认知防御场景下展现出更强的破坏力，为多模态大语言模型的安全漏洞挖掘与红队演练提供了全新的思路。

动机

随着多模态大语言模型（MLLMs）在复杂视觉理解、跨模态推理与智能体系统中的广泛应用，模型的推理能力不断提升，但潜在的深层安全漏洞也随之暴露。

尤其是在面对精心设计的对抗性输入时，现有安全护栏若无法覆盖认知推理阶段，模型极易被诱导生成具有误导性甚至危害性的内容。

当前，多模态大模型红队演练与越狱研究正在从“浅层视觉欺骗”逐步转向“深层认知劫持”，如何揭示具备思维链能力的先进模型在复杂推理过程中的安全盲区，已成为这一领域的重要研究动机。

在实际的攻防博弈中，模型不仅要在感知层抵御视觉混淆，还要在多步推理阶段保持对恶意意图的敏锐拦截。然而，传统越狱攻击要实现这一目标面临巨大瓶颈。

一方面，现有攻击大多仅停留在增加视觉或文本任务的表面复杂度（如添加噪声），这极易导致模型由于无法理解输入而直接拒答；另一方面，现有方法往往忽略了模型自身的“内在推理动机”，未能有效干预模型的思维链条，导致攻击在面对具备自我反思和多步推理能力的前沿模型时，极易在深层逻辑推演中被识破并拦截。

这使得传统越狱方法在推理增强模型上的成功率大幅下降，攻击破坏力大打折扣。

因此，本文的研究动机在于：

1.系统性揭露多模态推理模型的认知脆弱性——探究如何通过高认知负荷的任务设计，使模型在多步推理计算中因资源挤占而偏离安全对齐的初衷；

2.突破传统视觉混淆与单向攻击的局限——分析现有对抗样本在深层语义重建中的失效机制，并引入基于谜题拆解与动态自适应搜索的多模态指令陷阱；

3.探究内在动机驱动下的主动越狱机制——通过构建游戏化场景与引入“心流（Flow）”得分压力，使模型为了达成“赢得游戏”的目标而主动瓦解自身的安全护栏。

简言之，本文的核心动机在于：当具备高级推理能力的多模态大模型被广泛部署于真实应用场景时，对抗攻击与漏洞挖掘不应只停留在“骗过眼睛（感知层）”的层面，而应进一步迈向“控制大脑（认知层）”。

如何利用模型固有的推理逻辑，实现更隐蔽、更致命、更具破坏力的安全测试范式，正是 GAMBIT 所要解决的关键问题。

方法

本文提出了 GAMBIT，这是一种结合多模态语义拆解与游戏化主动推理诱导的 MLLM 越狱框架，如图 2 所示。

具体而言，首先引入基于谜题的多模态编码模块，将包含恶意意图的有害图像分割并打乱为谜题状态，同时屏蔽文本指令中的敏感关键词，以此绕过基础的视觉与文本安全检查，并迫使模型主动调动算力进行意图重建；

随后，基于认知劫持思想，构建游戏化场景模块，将整个越狱任务隐蔽地包装为一场高认知负荷的“智力竞赛”，利用心理学中的“心流（Flow）”概念建立得分压力与胜负欲，引导模型为了赢下比赛而不断进行深层推理与补全；

最后，为了实现更高成功率且更具隐蔽性的攻击策略，方法进一步引入提示词组件自适应搜索机制，结合辅助大模型，根据目标模型的安全触发反馈与语义保留度，对角色设定、上下文环境及沟通技巧等进行快速的动态自适应优化。

整体上，GAMBIT 形成了一个由视觉语义谜题化、游戏化场景构建与动态指令优化组成的完整多模态越狱攻击框架。

图2：GAMBIT 概述。 (1)基于谜题的多模态编码：对有害图像进行碎片化和打乱，隐藏查询中的关键词。（2）游戏化场景构建：将任务设计成智力竞赛，用来绕过安全检查。 (3)提示组件的自适应搜索：辅助模型根据反馈优化提示。

1. 问题定义

：多模态大语言模型的输入和输出。

：安全过滤函数。

越狱的目标是：

也就是说既要绕过安全过滤器，又要回复中包含有害内容。

2. Puzzle-based Multimodal Encoding

核心思想：先不直接把原始图像

输入到模型中，而是把它切分并打乱成一个“拼图态”

，从而破坏视觉安全编码器通常依赖的整体轮廓、纹理和连续语义特征。具体来说，将

分成N*N的patch，并按固定栅格顺序记为

。再基于一个由密钥K决定的置换函数

，将这些 patch 重新排列，构造出对抗图像：

这样做的关键在于：全局语义结构被打散，但每个局部块内部的信息仍然保留，因此安全过滤器更难识别原始有害内容，而推理能力更强的 MLLM 则可能在指令引导下“ mentally reconstruct ”原图，即恢复出

。

在算法层面，这一过程称为一种“Key-based Shuffling”机制：对模型来说，这个重建任务是确定且可解的；但对前置安全过滤器来说，图像已经失去了原本可直接匹配的高层视觉模式。

对于网格大小N的作用：当N较小时（2），即使只是粗粒度地打乱全局结构，也已经能显著影响安全检测；当N过大时（8），虽然碎片化更强，但重建所需的认知负担也会急剧增加，反而可能让模型出现幻觉或无法按规则完成任务。

因此N=4是一个较优折中点，既能提供足够的混淆，又不至于超出模型的推理能力范围。

除了图像端，还提供了文本编码的对应做法：把提示词中的危险关键词K 用占位符遮蔽，让模型先恢复缺失词，再继续完成任务。

也就是说，图像侧通过“拼图重排”触发一次视觉重建，文本侧通过“关键词补全”触发一次文本重建；两者共同作用，都是为了把原本会被直接拦截的有害语义，转化成一个需要模型额外推理后才能复原的输入形式。整体的算法流程如算法1所示。

3. Gamified Scene Construction

这一部分的核心是 Gamified Scene Construction（游戏化场景构造）。框架的关键不只是隐藏有害内容本身，而是把模型放入一个高参与度、强目标导向的交互环境中，使其更倾向于“完成任务”而不是优先执行安全拒绝。

为此，本文将整个对话包装成一场 Intelligence Competition（智力竞赛），并借用了心理学中的 flow（心流）概念：当任务具有挑战性、目标明确且反馈强时，模型会把更多计算资源投入到解题和遵循游戏规则上，从而减少对常规安全检查的关注。

这种设定会带来两方面效应：

一是认知吸收，即多步拼图重建与解码任务占用了系统原本可用于安全监控的“注意力”；

二是目标优先化，即提示把“赢得比赛”设为主目标，使拒绝启发式在竞争目标面前被弱化。

在机制上，本文进一步提出一种 Gamified Pressure Mechanism（游戏化压力机制）。

由于标准 API 通常不允许真正实施 RL 式的实时奖励，文中转而使用一种“伪强化”的提示工程方法：在系统提示中动态注入一个Game State（游戏状态），持续把当前局势描述为“你正在落后”或“对手领先若干分”。

这种设计人为制造了紧迫感和竞争压力，利用模型“想赢”“想完成任务”的倾向，推动其优先解决当前挑战。

本文特别指出，这种压力机制在具备较强 Chain-of-Thought 能力的模型上更显著，因为这类模型更容易把推理过程固定在“如何完成重建与获胜”上，而不是主动回到安全性评估。

这一模块的提示结构被明确组织为三部分，形成一个完整的系统提示

第一部分是 Role Definition(R)，即角色定义，例如把模型设定为“参加智力竞赛的知识型专家”，用于建立权威感和任务身份；

第二部分是 Rule Specification(L)，即规则说明，详细规定模型如何解释前面经过置换的图像块和被遮蔽的关键词，占位符如何恢复，以及模型必须遵循哪些“游戏规则”；

第三部分是 Goal Incentive(G)，即目标激励，例如明确告诉模型“你的对手目前领先，你必须准确作答才能获胜”，从而引入紧迫性与竞争感。

这种R+L+G的提示模板会诱导模型进入一种更强的 compliance-only mindset：它把拒绝看成“丢分”，把服从和完成任务看成“赢得比赛”的必要条件。

4. Adaptive Search over Prompt Components

图3：举例说明寻找最佳越狱策略的难度。原来的提示被GPT-4o拒绝了。然而，当辅助模型将其阐述为大约两倍的长度，同时保持相同的角色、场景、语气和有害意图时，GPT-4o 会提供详细的有害说明。这表明，即使是提示长度等简单因素也会对越狱成功产生重大影响，这凸显了为什么策略空间过于庞大和复杂而无法彻底优化。

这一模块提出了 Adaptive Search over Prompt Components（提示组件上的自适应搜索），其出发点是：在黑盒设置下，很难像以往方法那样假设存在一个稳定的“全局最优提示”。

本文认为，模型输出对表面形式高度敏感，即便语义、上下文和语气大体不变，只是提示长度、措辞或结构发生小幅变化，也可能让模型从拒绝转为服从。

因此，这里的搜索不被视为寻找唯一“最佳策略”，而更像是在查询成本与攻击成功率之间做启发式权衡。文中还强调，决定越狱是否成功的主要因素首先是任务复杂度和意图隐藏，其次才是角色、语境和表达风格。

图3展示了一个例子：哪怕只是对提示做了简单延展，模型响应也可能显著改变，说明成功与否受到多种细粒度因素共同影响。

具体做法上，本文并不是一开始就在大空间里盲目搜索，而是先固定游戏化场景构造当中生成的一个较强基线提示，用它来设定任务结构和意图混淆。只有当这个基线提示失败时，才启动自适应更新，去调整角色、上下文和沟通风格等因素。

为了控制查询成本，本文将搜索预算限制为T=5，把超过这个预算仍未成功的情况视为高敏感案例。也就是说，该模块的目标不是无上限试错，而是在有限次数内，沿着最可能提升服从率的方向做局部搜索。

这个搜索过程可以理解为围绕提示的三类组件展开：角色、内容和沟通技巧。其中，角色维度控制模型扮演什么身份，例如领域专家、权威机构、普通人；语境维度控制任务被放入什么场景，例如威胁、群体压力、虚拟环境；

沟通技巧维度则控制说服风格，例如正向鼓励、负向暗示、诱导、预铺垫或“站在你这边”的表述。整体的搜索是在这三维空间中进行的。搜索过程如算法2所示。

实验

实验设置

数据集：论文实验主要在一个广泛使用的多模态越狱基准数据集 HADES 上进行。该数据集包含 750 个指令-图像对，全面覆盖了暴力（Violence）、金融（Financial）、隐私（Privacy）、自我伤害（Self-Harm）和动物（Animals） 5 大高风险类别，每个类别包含 150 条有害指令。由于该数据集的图像输入中本身包含了文本关键词，非常契合 GAMBIT 将视觉图像打乱为谜题并隐藏文本关键词的攻击设置。

模型：实验在八款具有代表性的主流多模态大语言模型（MLLMs）上开展，涵盖了非推理模型和推理增强模型两类。非推理模型包括

Qwen2.5-VL

InternVL 2.5

GPT-4o

Grok-2-vision

具备思维链（CoT）能力的推理模型则包括

GLM-4.1V-thinking

QvQ-Max

Gemini 2.5 Flash

OpenAI o4-mini

以此全面验证攻击框架在不同架构（尤其是具备深度逻辑推理能力的模型）下的越狱效果。

基线方法：

对比方法主要选取了现有的前沿多模态越狱攻击，包括 VisCRA 和 SI-Attack。其中，VisCRA 侧重于利用注意力掩蔽和多阶段视觉链推理诱导来执行指令，而 SI-Attack 则依赖于随机打乱文本和图像块并结合黑盒优化进行攻击，用来全面验证 GAMBIT 通过“游戏化认知劫持”这一新思路的有效性与显著优势。

评测基准：

论文的评测核心围绕攻击破坏力展开。评测指标采用攻击成功率（Attack Success Rate, ASR），并通过 Pass@5（即同一攻击样本尝试 5 次，只要有一次成功生成有害响应即算越狱成功）来进行严格计算。为了保证长文本推理输出评估的客观性，研究采用具有强大人类偏好对齐判断能力的 Llama-Guard-3-8B 作为自动化安全评估器。

实验细节：

在实验的具体实施上，针对图像打乱的谜题模块，本文通过详尽的网格尺寸选择分析，将最优的图像分割网格大小设定为N=4（即4*4网格），以在视觉混淆隐蔽性和模型推理重构的认知负荷之间取得最佳平衡。对于提示词组件的自适应搜索模块，为了兼顾攻击有效性和查询计算成本，单次搜索迭代的预算上限被严格限制为T=5。

主要实验结果

表1：使用 Llama-Guard-3 评估 Pass@5 下非推理 MLLM 的攻击成功率 (%)。结果对 HADES 类别（暴力、财务、隐私、自残、动物）进行平均。

表2：使用 Llama-Guard-3 评估，在 Pass@5 下对具有推理能力的 MLLM 的攻击成功率 (%)。

在实验表现方面，GAMBIT 在非推理模型与推理模型上均展现出压倒性的攻击优势。

如表1所示，在针对非推理模型的测试中，GAMBIT的攻击成功率（ASR）显著超越基线方法，例如在 GPT-4o 上达到了 85.87%（而最强基线 VisCRA 仅为 56.60%），这证明了其独特的游戏化语境能够有效绕过商用模型复杂的安全过滤器。

更值得注意的是，表2 的结果凸显了该框架在具备思维链（CoT）能力的推理模型上更为惊人的破坏力，其在 Gemini 2.5 Flash 上甚至取得了高达 92.13% 的越狱成功率。

针对推理增强模型所表现出的这种高度脆弱性，研究团队揭示了其背后的深层机制——“思维链劫持（Chain-of-Thought Hijacking）”。

当推理模型尝试进行多步思考以解决 GAMBIT 构建的游戏化谜题时，其计算资源会被高度集中于执行提示词所要求的程序性步骤，从而大幅削减了用于安全防御的计算预算。

此外，植入的“游戏状态”为模型创建了一个具有压倒性的竞争目标，成功覆盖了底层的拒答机制，使得生成有害内容被模型误认为是“完成通关任务”的必要步骤，而非违背安全策略的行为。这深刻解释了为何拥有更强逻辑能力的推理模型，在面对此类高认知负荷攻击时反而比非推理模型更容易被攻破。

图4：自适应搜索影响的消融实验

消融实验

自适应搜索的影响。如图4所示，自适应搜索迭代次数从 1、5、10 到 20 次时的攻击成功率（ASR）变化，结果显示：随着搜索迭代增加，ASR 持续而显著提升。最典型的是“Self-Harm”类别，在 GPT-4o 上从初始尝试的 64.67% 提升到 20 次迭代后的 94.00%。这说明自适应搜索的主要作用在于逐步修正最初提示未能奏效的情况，持续跨越模型的初始拒绝边界，因此它不是一个边缘增益模块，而是能显著提高整体成功率的关键机制之一。

表3：拼图网格大小的影响

拼图网格大小的影响。如表3所示，更细的拼图切分通常带来更高的 ASR，说明破坏图像的整体语义连续性对绕过视觉安全过滤尤为重要。

例如在 GPT-4o 上，

“Privacy”类别的 ASR 从 1×1 的 81.33% 提升到 4×4 的 95.33%。

不过，不同任务类型对粒度的敏感性并不完全一致：文中指出“Financial”类别在较粗粒度下已经表现很强，如 GPT-4o 从 73.33%（1×1）跳升到 94.00%（2×2），而到 4×4 反而仅略降到 92.00%。

这类限制更可能依赖视觉关键词、符号或 OCR 可读文本，因此较轻度的碎片化就足以干扰识别；相比之下，涉及复杂生物形态的类别则更依赖更细粒度的打散。

表4：隐藏恶意关键字的影响

隐藏关键字的影响。如表4所示，本文测试了两种设定：一种是在拼图任务中隐藏恶意关键词，另一种则是不隐藏关键词、但仍保留拼图语境。结果有些反直觉：“No Hidden Keyword”版本反而获得了更高的 ASR，例如在 Self-Harm 类别上达到 88.00%，而隐藏关键词版本只有 75.33%。

这表明，额外加入“关键词重建”这一步虽然增强了伪装性，但也可能提高了任务复杂度，反而削弱模型继续执行有害指令的稳定性；换言之，单靠拼图语境本身就已经足以分散模型对安全约束的注意，不一定还需要进一步加入关键词遮蔽。

表5：本文的游戏化提示与经典文本越狱的比较（没有自适应搜索）

初始提示的影响。如表5所示，本文将其提出的“Gamified Scene”初始提示，与几类经典文本越狱提示在多模态场景下进行比较，包括 Question-Based、Developer Mode V2、DAN、AIM。

这里的对比是在不使用自适应搜索的前提下完成的，因此更能体现初始提示设计本身的作用。结果显示，本文的方法显著优于传统文本式越狱提示：例如在“Self-Harm”类别上，本文方法达到 69.33%，而 DAN和 AIM 仅为 8.00% 和 10.67%。

这一结果说明，把拼图编码与“知识竞赛/游戏化场景”结合起来的初始提示框架，比直接沿用传统文本越狱模板更适合多模态环境，也支持了本文关于“需要专门的多模态策略”的结论。

结语

GAMBIT 提出了一种面向多模态大语言模型（MLLMs）对抗测试的新型游戏化越狱框架，通过将视觉语义拆解（基于谜题的编码）与主动推理诱导机制相结合，为揭露并评估模型深层认知阶段的安全脆弱性提供了全新的解决思路。

研究表明，传统的对抗攻击方法往往依赖于浅层的视觉欺骗与静态扰动，使得这些攻击在面对具备复杂逻辑分析能力的推理模型时极易被拦截，从而导致对深层安全漏洞的覆盖严重不足。

GAMBIT 通过构建基于“心流（Flow）”压力的游戏化场景并引入动态的提示词自适应搜索，使模型在追求通关的内在动机驱使下主动跨越安全红线，在不依赖底层梯度计算的前提下显著提升了越狱成功率。

实验结果表明，该方法在多个前沿多模态推理大模型（如 Gemini 2.5 Flash 等）上均取得压倒性的攻击表现，并在复杂的思维链（CoT）防御场景下展现出更强的破坏力。

本文进一步指出，这项研究深刻强调了在进入“推理时代”后，多模态模型的安全防御不能仅停留在感知层，而必须高度重视防范“思维链劫持（CoT Hijacking）”等深层认知漏洞。

通过在多模态交互中引入高认知负荷的任务诱导机制，GAMBIT 不仅突破了传统视觉攻击在推理增强模型上的失效瓶颈，也有效揭示了模型在多步推理计算中安全注意力易被任务目标挤占的致命弱点。

这一工作为未来构建更加安全、鲁棒的多模态大模型系统提供了新的研究方向；同时，这种针对认知层的越狱范式也为下游更复杂的视觉-语言-动作（Vision-Language-Action, VLA）模型与具身智能系统的安全对齐敲响了警钟，为红队演练与防御方法的进一步发展奠定了重要基础。

关于 BraneMatrix（布兰矩阵）

我们是一家由顶级AI原生安全专家、全球知名算法科学家、专家资深红队研究员和全栈创造力出类拔萃开发者共同创立的AI原生安全为底层科研基石的创造型公司。

我们的使命是：

打造全球领先的AI安全检测平台与防御系统，确保AI在安全、道德、合规的框架下运作，始终为人类社会服务，并用AI原生安全为基础技术能力让人类通往AGI时代。

我们相信真正的 AI 安全不是补丁，而是一套完整且可信赖的社会机制、工具链和能力体系。BraneMatrix 要保护的是“由模型驱动的软件系统”；解决的是解释权、决策权与行动权。

谁能守住这三权，谁才能真正打开 Agent 时代。我们邀请你加入，一起写下这一章。

布兰矩阵将继续以技术为矛，倡议为盾，在国家战略框架指导下，为中国算法安全走向工程化、标准化、全球化，贡献开源力量。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-10，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

本文分享自 BraneMatrix布兰矩阵微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

顶会顶刊AI安全论文研读第二十二期：ACL 2026 | GAMBIT:多模式大语言模型的游戏化越狱框架

顶会顶刊AI安全论文研读第二十二期：ACL 2026 | GAMBIT:多模式大语言模型的游戏化越狱框架

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐