该论文旨在解决机器人故障分析中的关键挑战:如何让视觉语言模型(Vision-Language Models, VLMs)高效、准确地处理冗长且复杂的机器人执行视频。研究背景是,现有的基于VLMs的机器人故障分析方法通常直接处理原始视频,存在计算成本高、信息冗余且难以提取结构化视觉证据的问题,限制了其在故障检测、识别、定位、解释和纠正等任务上的性能。
论文提出了一个名为KITE的训练无关、基于关键帧、布局接地的前端系统。其核心方法具体包括:
- **关键帧提取与标注**:将长轨迹视频蒸馏(distill)为一小组运动显著(motion-salient)的关键帧,并对每帧进行开放词汇(open-vocabulary)目标检测。
- **布局接地图生成**:为每个关键帧配对一个示意性的鸟瞰图(Bird's-Eye-View, BEV)表示,该图编码了相对物体布局、坐标轴、时间戳和检测置信度。
- **统一提示构建**:将这些视觉线索(关键帧和BEV图)与机器人配置文件(robot-profile)和场景上下文(scene-context)标记(token)序列化(serialized)成一个统一的提示(prompt),供现成的(off-the-shelf) VLM(如Qwen2.5-VL)使用。
论文的核心创新点在于设计了一个结构化、可解释的视觉证据前端处理框架,其独特之处在于:
- **训练无关与模块化**:KITE本身无需训练,是一个独立于VLM的前端模块,可与任何现成VLM灵活组合,降低了应用门槛。
- **关键帧锚定与布局接地**:创新性地将**运动显著关键帧**与**示意性鸟瞰图(BEV)** 配对,前者捕捉动态关键瞬间,后者以结构化、几何化的方式编码物体间的空间关系和时序信息,为VLM提供了比原始视频或单一视图更紧凑、更富信息量的视觉证据。
- **统一的多任务支持**:通过将多样化的视觉和上下文信息序列化为统一提示,使得同一个前端能够支持故障分析全流程的多个下游任务(检测、识别、定位、解释、纠正),而无需为每个任务设计专用接口。
论文对该领域的整体贡献包括:
- **方法论贡献**:提出了KITE框架,为基于VLM的机器人故障分析提供了一种高效、结构化、可解释的视频信息预处理新范式。
- **性能提升**:在RoboFAC基准测试上,KITE与Qwen2.5-VL结合,在训练无关设置下显著超越了原始VLM,尤其在仿真故障的检测、识别和定位任务上取得大幅性能增益,并与经过RoboFAC微调的基线模型保持竞争力。通过QLoRA微调可进一步提升解释和纠正质量。
- **实践验证**:在真实双臂机器人上的定性结果展示了KITE的实际应用潜力,证明了其作为机器人故障分析结构化前端的实用性。
- **资源开源**:公开了代码和模型,促进了相关研究的发展。