RedVLA：面向视觉-语言-动作模型的物理红队测试

📝 论文摘要

视觉-语言-动作（VLA）模型在实际部署中仍受限于不可预测且不可逆的物理伤害风险。然而，目前尚缺乏在部署前主动检测这些物理安全风险的有效机制。为填补这一空白，我们提出**RedVLA**——首个针对VLA模型物理安全的红队框架。我们通过两阶段流程系统性揭示不安全行为：（I）**风险场景合成**：构建有效且任务可行的初始风险场景。具体而言，从良性轨迹中识别关键交互区域，并将风险因子定位于这些区域，旨在使其与VLA的执行流交织，从而引发目标不安全行为。（II）**风险放大**：确保跨异构模型的稳定诱发。通过基于轨迹特征的无梯度优化迭代优化风险因子状态。在六个代表性VLA模型上的实验表明，RedVLA能揭露多种不安全行为，并在10次优化迭代内达到最高95.5%的攻击成功率（ASR）。为缓解这些风险，我们进一步提出SimpleVLA-Guard——一个基于RedVLA生成数据构建的轻量级安全防护模块。我们的数据、资产和代码已在此处发布。

🎯 研究动机

- 真实场景部署**视觉-语言-动作(Vision-Language-Action, VLA)**模型时，存在不可预测且不可逆的物理伤害风险 - 目前缺乏主动检测VLA模型物理安全风险的有效机制，导致部署前无法系统性地发现不安全行为

🔧 核心方法

- 提出**RedVLA**两阶段框架：第一阶段**风险场景合成(Risk Scenario Synthesis)**，从良性轨迹中识别关键交互区域，将风险因子置于该区域以纠缠VLA执行流并引发目标不安全行为 - 第二阶段**风险放大(Risk Amplification)**，利用轨迹特征指导的无梯度优化，迭代优化风险因子状态，确保跨异构模型的稳定不安全行为引发

💡 核心创新

- **首创性**：首个专门针对VLA模型物理安全的红队(red teaming)框架，填补了该领域缺乏系统性安全评估的空白 - **方法创新**：提出基于关键交互区域的风险因子放置策略，以及与执行流纠缠的设计，避免了传统对抗攻击中不可行或不可逆的物理干扰 - **效率优势**：在10次优化迭代内实现高达95.5%的攻击成功率(ASR)，且跨模型泛化能力强

🏆 总体贡献

- 为VLA模型的物理安全性评估提供了完整的红队测试范式，能够主动发现多种不安全行为 - 在6个代表性VLA模型上验证了框架的有效性，成功率和效率均达到高水平 - 附带提出轻量级安全守护器**SimpleVLA-Guard**，并开源所有数据、资产和代码，促进社区后续研究与防护

RedVLA：面向视觉-语言-动作模型的物理红队测试
RedVLA: Physical Red Teaming for Vision-Language-Action Models

📊 核心分析

RedVLA：面向视觉-语言-动作模型的物理红队测试 RedVLA: Physical Red Teaming for Vision-Language-Action Models

📊 核心分析

RedVLA：面向视觉-语言-动作模型的物理红队测试
RedVLA: Physical Red Teaming for Vision-Language-Action Models