- 真实场景部署**视觉-语言-动作(Vision-Language-Action, VLA)**模型时,存在不可预测且不可逆的物理伤害风险
- 目前缺乏主动检测VLA模型物理安全风险的有效机制,导致部署前无法系统性地发现不安全行为
- 提出**RedVLA**两阶段框架:第一阶段**风险场景合成(Risk Scenario Synthesis)**,从良性轨迹中识别关键交互区域,将风险因子置于该区域以纠缠VLA执行流并引发目标不安全行为
- 第二阶段**风险放大(Risk Amplification)**,利用轨迹特征指导的无梯度优化,迭代优化风险因子状态,确保跨异构模型的稳定不安全行为引发
- **首创性**:首个专门针对VLA模型物理安全的红队(red teaming)框架,填补了该领域缺乏系统性安全评估的空白
- **方法创新**:提出基于关键交互区域的风险因子放置策略,以及与执行流纠缠的设计,避免了传统对抗攻击中不可行或不可逆的物理干扰
- **效率优势**:在10次优化迭代内实现高达95.5%的攻击成功率(ASR),且跨模型泛化能力强
- 为VLA模型的物理安全性评估提供了完整的红队测试范式,能够主动发现多种不安全行为
- 在6个代表性VLA模型上验证了框架的有效性,成功率和效率均达到高水平
- 附带提出轻量级安全守护器**SimpleVLA-Guard**,并开源所有数据、资产和代码,促进社区后续研究与防护