- 解决**视觉-语言-动作(Vision-Language-Action, VLA)** 模型在执行过程中易出现**执行失败(failure)**,从而影响真实场景部署可靠性的问题
- 现有失败检测方法存在局限:要么依赖昂贵的**动作重采样(action resampling)** 或外部模型,要么将**轨迹级标签(trajectory-level labels)** 均匀传播到每个时间步,掩盖了**局部失败信号(localized failure signals)**
- 研究背景:VLA模型在机器人领域虽能泛化,但实际部署中仍易受失败干扰,亟需高效、无额外标注的运行时监控手段
- 提出**Hide-and-Seek框架**,将VLA失败检测公式化为**粗监督学习(coarsely supervised learning)** 问题
- 结合**轨迹间对比(inter-trajectory contrastive)** 和**轨迹内对比(intra-trajectory contrastive)** 目标,从**轨迹级监督(trajectory-level supervision)** 中学习
- 通过对比学习自动定位**失败指示动作(failure-indicative actions)**,并诱导出**时间结构化失败信号(temporally structured failure signals)**,完全无需**步骤级注释(step-level annotation)**
- **首创粗监督学习范式**:首次将VLA失败检测问题转化为粗监督学习,突破了传统方法对细粒度标签的依赖
- **无步骤级注释**:仅利用轨迹级成功/失败标签,通过轨迹间和轨迹内对比自动挖掘局部失败信号,显著降低标注成本
- **时间结构化信号生成**:对比学习自然地产生具有时间结构的失败指示,避免了均匀传播导致的信号模糊,提升了检测的**准确性与时效性(accuracy-timeliness trade-off)**
- 在**LIBERO、VLABench** 以及真实机器人平台上,针对**OpenVLA、π₀、π₀.₅** 三种代表性VLA策略进行验证,取得**多任务失败检测(state-of-the-art)** 性能
- 在**共形预测(conformal prediction)** 框架下实现了实用的**准确度-时效性权衡(accuracy–timeliness trade-off)**,兼顾检测精度与响应速度
- 方法在**未见任务(unseen tasks)** 上表现出良好的**泛化能力(generalization)**,为VLA模型的安全部署提供了高效、可扩展的运行时监控方案