← 返回论文列表

RedVLA:面向视觉-语言-动作模型的物理红队测试
RedVLA: Physical Red Teaming for Vision-Language-Action Models

作者: Yuhao Zhang, Borong Zhang, Jiaming Fan 等7人
arXiv: 2604.22591v1
分类: cs.RO
📝 论文摘要
视觉-语言-动作(VLA)模型在实际部署中仍受限于不可预测且不可逆的物理伤害风险。然而,目前尚缺乏在部署前主动检测这些物理安全风险的有效机制。为填补这一空白,我们提出**RedVLA**——首个针对VLA模型物理安全的红队框架。我们通过两阶段流程系统性揭示不安全行为:(I)**风险场景合成**:构建有效且任务可行的初始风险场景。具体而言,从良性轨迹中识别关键交互区域,并将风险因子定位于这些区域,旨在使其与VLA的执行流交织,从而引发目标不安全行为。(II)**风险放大**:确保跨异构模型的稳定诱发。通过基于轨迹特征的无梯度优化迭代优化风险因子状态。在六个代表性VLA模型上的实验表明,RedVLA能揭露多种不安全行为,并在10次优化迭代内达到最高95.5%的攻击成功率(ASR)。为缓解这些风险,我们进一步提出SimpleVLA-Guard——一个基于RedVLA生成数据构建的轻量级安全防护模块。我们的数据、资产和代码已在此处发布。

📊 核心分析

🎯 研究动机
- 真实场景部署**视觉-语言-动作(Vision-Language-Action, VLA)**模型时,存在不可预测且不可逆的物理伤害风险 - 目前缺乏主动检测VLA模型物理安全风险的有效机制,导致部署前无法系统性地发现不安全行为
🔧 核心方法
- 提出**RedVLA**两阶段框架:第一阶段**风险场景合成(Risk Scenario Synthesis)**,从良性轨迹中识别关键交互区域,将风险因子置于该区域以纠缠VLA执行流并引发目标不安全行为 - 第二阶段**风险放大(Risk Amplification)**,利用轨迹特征指导的无梯度优化,迭代优化风险因子状态,确保跨异构模型的稳定不安全行为引发
💡 核心创新
- **首创性**:首个专门针对VLA模型物理安全的红队(red teaming)框架,填补了该领域缺乏系统性安全评估的空白 - **方法创新**:提出基于关键交互区域的风险因子放置策略,以及与执行流纠缠的设计,避免了传统对抗攻击中不可行或不可逆的物理干扰 - **效率优势**:在10次优化迭代内实现高达95.5%的攻击成功率(ASR),且跨模型泛化能力强
🏆 总体贡献
- 为VLA模型的物理安全性评估提供了完整的红队测试范式,能够主动发现多种不安全行为 - 在6个代表性VLA模型上验证了框架的有效性,成功率和效率均达到高水平 - 附带提出轻量级安全守护器**SimpleVLA-Guard**,并开源所有数据、资产和代码,促进社区后续研究与防护