不同于以往依赖图像扰动或文本注入的数字攻击，本研究从真实物理攻击路径出发，表明即便模型在标准评测中表现稳健，其在现实部署中仍可能出现灾难性失效。为此，本文提出了一个新的系统性评测框架——Real-Sim-Real。该框架围绕“真实攻击模式—高保真仿真—真实机器人验证”的闭环流程展开，核心包含三项关键设计：

• 物理攻击建模与仿真（Physics-based Attack Simulation）：基于真实攻击原理，构建六类摄像头攻击与两类麦克风攻击的高保真仿真模型，并支持不同攻击强度的参数化搜索。

• 大规模跨模型评测（Large-scale Robustness Evaluation）：在多种主流 VLA 架构与任务设置下系统评估攻击影响，量化不同模型、不同任务对传感器攻击的敏感性差异。

• 仿真到现实验证（Sim-to-Real Validation）：将仿真中搜索到的攻击参数直接迁移至真实机器人系统，验证攻击效果与风险后果。

实验结果表明，当前主流 VLA 模型在多种物理传感器攻击下均表现出显著脆弱性，轻则任务失败，重则引发错误抓取、物体坠落、机械臂碰撞与异常运动等危险行为。进一步分析发现，不同模型结构与任务类型对攻击的敏感性存在系统性差异，表明传感器安全已成为制约 VLA 实际部署的关键瓶颈。

在此基础上，本文提出了一种基于对抗训练（Adversarial Training）的防御策略，通过在训练阶段引入物理攻击数据，显著提升模型在分布外物理扰动下的鲁棒性，同时基本保持其在干净环境中的性能。该研究不仅揭示了 VLA 模型在真实物理世界中的潜在安全隐患，也强调了在具身智能系统中，将物理安全性纳入模型评测与训练流程的迫切性。

【论文题目】Phantom Menace: Exploring and Enhancing the Robustness of VLA Models Against Physical Sensor Attacks

【论文链接】https://arxiv.org/abs/2511.10008

【代码链接】https://github.com/ZJUshine/Phantom-Menace

研究背景

近年来，Vision-Language-Action（VLA）模型作为具身智能的重要范式，正在推动机器人系统向端到端多模态决策演进。通过融合视觉、语言与动作信息，VLA 模型能够直接将传感器输入映射为物理行为，在复杂操作与开放环境中展现出强大能力，并被逐步部署于真实世界场景。

然而，VLA 模型对摄像头、麦克风等物理传感器的高度依赖，也使其安全性面临新的挑战。一旦传感器层受到干扰，模型即便未被直接攻击，其端到端决策过程仍可能被系统性误导，进而引发任务失败甚至危险行为。现有研究主要关注数字域输入扰动，而对真实世界中通过物理信号注入传感器所产生的安全风险缺乏系统分析。

尽管安全领域已提出多种针对摄像头与麦克风的物理攻击方法，但真实物理实验难以规模化，纯仿真评测又难以准确反映物理攻击效果。这一矛盾使得 VLA 模型在真实部署中的安全边界长期缺乏有效评估。

为此，本文提出 Real-Sim-Real 框架，通过将真实物理传感器攻击进行高保真建模，引入仿真环境开展大规模鲁棒性评测，并将关键攻击参数回迁至真实机器人系统进行验证，形成“真实—仿真—真实”的闭环流程，如图1所示。

该框架为系统性研究物理传感器攻击对 VLA 模型端到端行为的影响提供了可扩展的方法基础。在此基础上，本文提出了一种基于对抗训练（Adversarial Training）的防御策略，通过在训练阶段引入物理攻击数据，显著提升模型在分布外物理扰动下的鲁棒性，同时基本保持其在干净环境中的性能。

动机

随着 VLA模型逐步走向真实世界部署，其安全评估仍主要停留在数字域输入扰动的理想化假设之上，难以反映现实环境中的真实风险。相比直接操控模型输入，现实中的攻击更可能通过激光、电磁干扰或超声等物理信号作用于摄像头和麦克风，从传感器层间接影响模型感知与决策，而这一攻击面在现有研究中长期被忽视。

与此同时，真实物理攻击难以规模化评测，纯仿真方法又难以准确刻画物理效应，导致我们尚不清楚不同物理攻击、模型架构与任务设置对 VLA 端到端行为的系统性影响。基于此，本文的动机在于弥合真实物理攻击与可扩展评测之间的鸿沟，系统揭示物理传感器攻击对 VLA 模型安全性的实际威胁，并为其稳健部署提供可靠的评测与防御依据。

方法

随着VLA模型逐步走向真实世界部署，其安全评估仍主要停留在数字域输入扰动的理想化假设之上，难以反映现实环境中的真实风险。相比直接操控模型输入，现实中的攻击更可能通过激光、电磁干扰或超声等物理信号作用于摄像头和麦克风，从传感器层间接影响模型感知与决策，而这一攻击面在现有研究中长期被忽视。

图2: 实现并模拟八种传感器攻击，包括六个目标摄像机和两个目标麦克风，涵盖激光、光线、声学和电磁信号

1) 引入

• 威胁场景：本文考虑真实部署中的 VLA 机器人系统，其通过摄像头与麦克风感知环境并执行动作，广泛应用于制造、医疗等场景。攻击者可通过向传感器注入激光、电磁或超声等物理信号实施攻击。

• 攻击目标：攻击者的目标是干扰摄像头或麦克风输入，诱导 VLA 系统产生异常或定向错误行为，从而导致任务失败甚至潜在风险。

• 攻击能力：攻击者仅具备对传感器的物理信号注入能力，无法直接操控模型输入或进行任何形式的数字域攻击（如噪声注入、压缩或模糊）。

• 模型知识：攻击者仅拥有对 VLA 模型的黑盒访问权限，不了解模型结构、训练数据或参数，也不了解具体使用的传感器类型与感知算法。

2) 针对麦克风的攻击

针对麦克风的攻击利用其物理感知与信号处理链路中的非线性特性，在不产生可听声音的前提下，将恶意音频信息注入系统。整体上，麦克风接收到的音频信号可以建模为原始语音信号与恶意信号的叠加，即：

由于恶意信号位于人类不可感知的频段或以物理方式注入，系统在感知层面难以区分其来源，从而为攻击提供了隐蔽入口。本文主要研究两类典型的麦克风物理攻击：语音拒绝服务攻击（Voice DoS）与语音欺骗攻击（Voice Spoofing）。

1. 语音拒绝服务攻击

该攻击通过向麦克风注入高强度的超声信号，使其传感器或放大电路进入饱和状态，从而破坏正常语音信号的采集。攻击信号虽然对人类听觉不可感知，但会显著降低麦克风输出的信噪比，导致语音识别系统无法正确解析用户指令。

在实现上，攻击者首先在数字域生成高能量噪声信号，随后利用超声扬声器将其注入麦克风，并记录麦克风在物理条件下的响应；最终将记录到的恶意噪声与原始语音指令叠加，用于仿真与评测 Voice DoS 对 VLA 系统的影响。

2. 语音欺骗攻击

语音欺骗攻击的目标并非破坏语音输入，而是向系统注入精确的恶意语义内容。攻击者可通过调制激光或超声信号，将构造好的语音指令直接注入麦克风，实现对原始语音的附加、替换或细粒度操控。该攻击不仅可以在原有语音指令后附加恶意后缀，还可以对用户指令进行定向修改。

在实现过程中，攻击者首先利用文本到语音（TTS）技术生成恶意语音内容，再通过物理设备将其注入麦克风并记录响应，最终将记录到的恶意语音作为后缀叠加到原始语音信号中，以模拟真实世界中的语音欺骗场景。

总体而言，这两类攻击分别从可用性破坏与语义操控两个维度揭示了麦克风作为 VLA 系统关键输入通道所面临的安全风险，表明即便攻击者无法直接接触模型输入或内部结构，仅通过物理信号注入也足以显著影响系统的端到端行为。

3) 针对摄像机的攻击

针对摄像机的攻击旨在通过干扰进入镜头的光信号或利用传感器与成像算法本身的脆弱性，操纵模型所感知到的视觉输入。整体上，摄像机捕获的图像可建模为环境光与恶意光信号的叠加，或通过特定攻击变换函数对环境光进行畸变，即：

由于这些攻击直接作用于成像过程或底层硬件链路，模型往往难以在感知阶段识别异常来源。本文重点研究了六类具有代表性的摄像机物理攻击，涵盖激光、投影、电磁与超声等不同信号形式。

1. 激光致盲攻击

该攻击通过高功率激光直接照射摄像机的光电传感器，使其进入饱和状态，从而丧失对环境光变化的感知能力。在实现上，首先在真实环境中记录激光照射产生的攻击模式，再将该模式以不同权重叠加到原始图像中，用于模拟不同强度下的致盲效果。

2. 光投影攻击

攻击者利用投影设备将伪造图像投射到环境中，或直接投射至摄像机镜头，使反射或直射光进入成像系统，从而注入虚假视觉信息。该攻击通过记录真实投影图案，并将其以不同位置和强度叠加到原始图像中，模拟现实场景下的视觉欺骗。

3. 激光色条攻击

该攻击利用 CMOS 摄像机的滚动快门特性，通过调制激光在图像中注入彩色条纹，从而破坏局部或整体视觉结构。攻击效果通过调整激光波长、RGB 通道比例及强度进行控制，可产生不同形态和严重程度的色条干扰。

4. 电磁色条与截断攻击

通过向摄像机图像传输接口（如 MIPI CSI-2 总线）注入电磁干扰信号，攻击者可诱发图像传输错误。传输错误会导致部分图像行被丢弃或错误解码，形成彩色条纹；若缓冲区地址被破坏，还可能造成跨帧内容错误拼接，引发图像截断。该类攻击通过控制条纹数量、位置及截断比例来模拟不同攻击强度。

5. 超声模糊攻击

针对配备防抖模块的摄像机，攻击者通过注入超声信号诱发惯性测量单元（IMU）共振，误导防抖算法错误地检测到相机运动，从而触发不必要的运动补偿并导致图像模糊。本文将模糊效果划分为线性、径向与旋转三类，并通过调节模糊幅度来模拟不同强度的攻击。

总体而言，这些摄像机攻击从光学干扰、硬件接口破坏与算法误导等多个层面系统性地破坏视觉输入质量。由于 VLA 模型高度依赖视觉感知进行决策，这类攻击能够在不直接接触模型的情况下，对其端到端行为产生显著甚至灾难性的影响。

实验效果

实验设置

• 数据集和模拟器：实验在 Libero 视觉–语言机器人模拟器中进行，该平台为 VLA 模型提供灵活的评测环境。使用的 Libero 数据集覆盖空间配置变化、物体识别与操控、目标变化以及长时序规划等多种任务类型。

• 目标模型：评测选取了四个代表性 VLA 模型：OpenVLA、OpenVLA-OFT、pi0 和 pi0-fast，涵盖不同结构与训练范式。所有模型均在 Libero 数据集上进行微调，以保证其在模拟环境中的基础性能。

• 评测指标：模型性能通过任务成功率（Task Success Rate, TSR）进行衡量。该指标定义为成功完成任务的回合数占总回合数的比例。

• 攻击参数：在仿真中设置弱、中、强三种攻击强度，并为不同攻击类型配置对应的参数。语音 DoS 攻击使用空指令，语音欺骗攻击附加固定恶意后缀，真实实验直接采用仿真中搜索到的攻击参数，如表1所示。

• 真实世界实验设置：真实实验基于 Franka Panda 机械臂，配备全局摄像头、腕部摄像头及麦克风，语音指令通过 Whisper ASR 转换为文本，如图3所示。通过遥操作采集一小时真实数据对模型进行微调，以适配现实中的抓取与放置任务。

• 模型评测与对抗训练：模型推理在 NVIDIA 4090 GPU 上运行，微调与对抗训练使用 NVIDIA H800 GPU 并采用 LoRA 技术。对抗训练中引入 30% 的攻击数据，攻击类型与强度在多种摄像机攻击和不同强度范围内随机采样。

图3: 真实世界实验设计

在模拟器上的鲁棒性评估

表1：不同攻击强度的攻击参数

表 2：模拟器中VLA模型在各种传感器攻击下的鲁棒性

1）物理传感器攻击对VLA有效

如表 2 所示，在无传感器攻击条件下，四种 VLA 模型在 Libero 数据集上均表现出较强的基础能力，在 Libero-Spatial 与 Libero-Object 等任务中任务成功率可接近或超过 90%，表明其在理想感知条件下具备稳定的端到端执行能力。

然而，当引入物理传感器攻击后，表 2 显示所有模型的性能均出现显著下降，且退化幅度随攻击类型、攻击强度与任务复杂度而明显变化。在多数设置下，尤其是在强攻击或长时序任务（Libero-Long）中，多个模型的成功率接近崩溃，甚至降至接近 0。该结果清晰表明，尽管 VLA 模型在无攻击评测中表现优异，但其对传感器输入扰动高度敏感，现实部署中的可靠性远低于理想化实验环境所呈现的水平。

2）对VLA的攻击影响各不相同

如表2所示，实验结果表明，不同类型的物理传感器攻击对 VLA 模型的影响存在显著差异。激光致盲（LB）、电磁截断（ET）和超声模糊（UB）等攻击会直接破坏关键视觉特征，在中高强度下显著削弱目标定位与物体识别能力，导致严重任务失败甚至潜在危险行为；相比之下，光投影（LP）、激光色条（LCS）和电磁色条（ECS）主要通过干扰注意力而非摧毁核心视觉信息，因此对任务成功率的影响相对较小。

语音 DoS 攻击的效果高度依赖任务设置，在需要依赖语言区分目标的场景中会使模型完全失效，而在可从视觉上下文推断指令的任务中影响有限。语音欺骗攻击的成功率则与模型的语义理解和指令跟随能力高度相关，采用 LLM 作为骨干的 OpenVLA 与 OpenVLA-OFT 更易受到指令注入影响，其中 OpenVLA-OFT 由于强化了语言调制机制，在该攻击下表现出最显著的性能退化。

3）VLA对传感器攻击表现出不同的鲁棒性

如表2所示，实验结果表明，OpenVLA 对各类物理传感器攻击普遍敏感，在中高强度攻击下性能显著下降，显示其鲁棒性机制不足。OpenVLA-OFT 通过多摄像头融合与本体感知增强了整体稳健性，但在语音欺骗攻击下几乎完全失效，暴露出对语言指令注入的严重脆弱性。

相比之下，pi0 与 pi0-fast 在视觉攻击下表现出更强的抗扰能力，表明其多视觉传感架构有助于维持任务执行，可能依赖于对环境、指令与动作之间关系的隐式记忆。

在真实世界上的鲁棒性

在真实机器人系统中，实验首先验证了各 VLA 模型在无攻击条件下具备稳定的基线性能。随后，按照仿真阶段搜索得到的攻击参数对传感器注入物理攻击，表 3 显示其结果与仿真评测高度一致，验证了 Real-Sim-Real 框架在攻击建模与参数搜索上的有效性。

如图 4 所示，这些物理攻击不仅导致任务失败，还会引发多种具有现实风险的异常行为，包括抓取过程中物体意外坠落、机械臂或夹爪与环境发生碰撞、抓取错误目标以及机械臂出现无序或剧烈运动。上述结果表明，物理传感器攻击在真实部署中具有直接且可观察的危害性，凸显了对 VLA 系统进行现实场景安全评估的必要性。

表3：VLA模型在现实世界中的鲁棒性

图4：现实世界的攻击后果

对抗训练结果

如表 4所示，引入对抗训练后，VLA 模型在物理传感器攻击下的鲁棒性显著提升，同时仅对干净数据性能造成有限影响。与表 2 的无防御结果相比，模型在干净数据上的平均性能下降约为 3%，但在中等强度传感器攻击场景中，各模型的任务成功率普遍提升，其中 OpenVLA 的性能提升最为显著，最高可达约 60%。

该结果表明，基于物理攻击数据的对抗训练能够在保持基础能力的同时，有效增强 VLA 模型对分布外物理扰动的适应性。