← 返回论文列表

模仿学习中基于统计与语义过滤的失败识别
Failure Identification in Imitation Learning Via Statistical and Semantic Filtering

作者: Quentin Rolland, Fabrice Mayran de Chamisso, Jean-Baptiste Mouret
arXiv: 2604.13788v1
分类: cs.RO, cs.CV
📝 论文摘要
机器人领域的模仿学习策略在受控环境中表现出色,但在实际部署中仍显脆弱:硬件故障、零件缺陷、意外人为动作或任何超出训练分布的状态等罕见事件都可能导致执行失败。基于视觉的异常检测方法成为检测这些异常故障状态的合适解决方案,但无法区分故障与良性偏差。我们提出FIDeL(演示学习中的故障识别),这是一个独立于策略的故障检测模块。FIDeL利用最新的异常检测方法,构建了正常演示的紧凑表示,并通过最优传输匹配对齐输入观测数据,以生成异常分数和热力图。通过扩展的保形预测推导出时空阈值,并利用视觉语言模型进行语义过滤,以区分良性异常与真实故障。我们还引入了BotFails,这是一个用于机器人故障检测的真实世界任务多模态数据集。与现有方法相比,FIDeL在异常检测中的AUROC指标提升了5.30%,在BotFails数据集上的故障检测准确率提高了17.38%,始终优于最先进的基线方法。

📊 核心分析

🎯 研究动机
该论文旨在解决机器人模仿学习(Imitation Learning)策略在现实部署中的脆弱性问题。研究背景是:模仿学习策略在受控环境中表现良好,但在现实世界中遇到罕见事件(如硬件故障、意外人为干预或超出训练分布的状态)时容易失败。现有的基于视觉的异常检测(Vision-based Anomaly Detection)方法虽能检测异常状态,但无法区分良性异常与真正的失败。
🔧 核心方法
论文提出了FIDeL(Failure Identification in Demonstration Learning),一个独立于策略的失败检测模块。具体方法包括: - 利用现有异常检测方法构建正常演示的紧凑表示 - 通过最优传输匹配(optimal transport matching)对齐输入观测,生成异常分数和热力图 - 使用保形预测(conformal prediction)的扩展方法推导时空阈值 - 采用视觉语言模型(Vision-Language Model, VLM)进行语义过滤,区分良性异常与真正失败 - 同时构建了BotFails多模态数据集用于机器人失败检测评估
💡 核心创新
论文的核心创新点在于: - 提出了首个结合统计过滤与语义过滤的失败识别框架,能够区分异常检测中发现的“良性异常”与“真正失败” - 创新地将保形预测(conformal prediction)扩展到时空阈值设定,提高了异常检测的可靠性 - 引入视觉语言模型(VLM)进行语义理解,使系统能够理解场景的语义上下文,而不仅仅是统计偏差 - 创建了首个专门用于机器人失败检测的多模态真实世界数据集BotFails
🏆 总体贡献
论文对该领域的整体贡献包括: - 提出了FIDeL框架,显著提升了机器人模仿学习系统的失败检测能力(在BotFails数据集上比现有方法提升+5.30% AUROC和+17.38%失败检测准确率) - 提供了结合统计方法与语义理解的失败检测新范式 - 发布了BotFails数据集,为后续研究提供了基准测试平台 - 证明了语义过滤在区分良性异常与真正失败中的关键作用,为机器人安全部署提供了新思路