该论文旨在解决机器人模仿学习(Imitation Learning)策略在现实部署中的脆弱性问题。研究背景是:模仿学习策略在受控环境中表现良好,但在现实世界中遇到罕见事件(如硬件故障、意外人为干预或超出训练分布的状态)时容易失败。现有的基于视觉的异常检测(Vision-based Anomaly Detection)方法虽能检测异常状态,但无法区分良性异常与真正的失败。
论文提出了FIDeL(Failure Identification in Demonstration Learning),一个独立于策略的失败检测模块。具体方法包括:
- 利用现有异常检测方法构建正常演示的紧凑表示
- 通过最优传输匹配(optimal transport matching)对齐输入观测,生成异常分数和热力图
- 使用保形预测(conformal prediction)的扩展方法推导时空阈值
- 采用视觉语言模型(Vision-Language Model, VLM)进行语义过滤,区分良性异常与真正失败
- 同时构建了BotFails多模态数据集用于机器人失败检测评估
论文的核心创新点在于:
- 提出了首个结合统计过滤与语义过滤的失败识别框架,能够区分异常检测中发现的“良性异常”与“真正失败”
- 创新地将保形预测(conformal prediction)扩展到时空阈值设定,提高了异常检测的可靠性
- 引入视觉语言模型(VLM)进行语义理解,使系统能够理解场景的语义上下文,而不仅仅是统计偏差
- 创建了首个专门用于机器人失败检测的多模态真实世界数据集BotFails
论文对该领域的整体贡献包括:
- 提出了FIDeL框架,显著提升了机器人模仿学习系统的失败检测能力(在BotFails数据集上比现有方法提升+5.30% AUROC和+17.38%失败检测准确率)
- 提供了结合统计方法与语义理解的失败检测新范式
- 发布了BotFails数据集,为后续研究提供了基准测试平台
- 证明了语义过滤在区分良性异常与真正失败中的关键作用,为机器人安全部署提供了新思路