- **视觉-语言-动作(Vision-Language-Action, VLA)** 模型在机器人领域备受关注,但其对**对抗攻击(adversarial attacks)** 的鲁棒性尚未充分探索
- 现有研究表明**对抗补丁(adversarial patches)** 能误导VLA机器人,但假设攻击者能访问**整个执行轨迹(entire execution trajectory)**,这在实践中不现实
- 本文旨在解决**部分可观测(partially observable)** 条件下的对抗攻击问题,即攻击者仅能利用轨迹的**短前缀(short prefix)** 生成固定补丁应用于后续所有帧
- 提出**两阶段框架(two-phase framework)**:第一阶段利用模型的**注意力图(attention maps)** 定位补丁,识别与完整指令对应的**视觉关键区域(visually critical regions)**
- 第二阶段优化补丁以**破坏语义基础(semantic grounding)**,针对目标对象,同时**增加动作轨迹曲率(curvature of action trajectories)**,从而在感知和控制层面复合累积故障
- 在仿真和真实机器人环境中进行广泛实验,验证方法有效性
- **部分可观测威胁模型(partially observable threat model)**:首次将攻击约束为仅依赖轨迹前缀,更符合实际场景
- **注意力引导补丁定位(attention-guided patch localization)**:利用模型自身的注意力机制自动识别关键区域,无需人工标注
- **联合破坏感知与控制(dual disruption of perception and control)**:同时干扰**语义理解(semantic grounding)** 和**动作轨迹(action trajectory)**,实现长时域累积失效
- 为**VLA模型在机器人中的对抗鲁棒性(adversarial robustness)** 研究提供了更现实的威胁模型
- 提出一种在**部分可观测约束下** 仍能有效维持对抗效果的攻击方法,诱导**长时域破坏(long-horizon disruptions)**
- 在仿真和真实环境实验中显著降低任务成功率,揭示了VLA机器人面临的新型安全风险