KITE：基于视觉语言模型的机器人故障分析关键帧索引标记证据

📝 论文摘要

我们提出了KITE，一种无需训练、以关键帧为锚点、基于布局的前端系统，能够将冗长的机器人执行视频转化为紧凑且可解释的标记化证据，供视觉语言模型（VLMs）使用。KITE将每个运动轨迹提炼为一小组具有运动显著性的关键帧，并配以开放词汇检测结果，同时为每个关键帧生成示意性的鸟瞰图（BEV）表示，其中编码了物体的相对布局、坐标轴、时间戳及检测置信度。这些视觉线索与机器人配置和场景上下文标记被序列化为统一提示，使得同一前端能够支持现成的VLM进行故障检测、识别、定位、解释和纠正。在RoboFAC基准测试中，KITE结合Qwen2.5-VL在无需训练的设置下显著优于原始Qwen2.5-VL，尤其在模拟故障检测、识别和定位方面提升明显，同时与经过RoboFAC调优的基线模型保持竞争力。通过小规模的QLoRA微调，进一步提升了故障解释和纠正的质量。我们还展示了在真实双臂机器人上的定性结果，证明了KITE作为机器人故障分析的结构化、可解释前端具有实际应用价值。代码和模型已发布在项目页面：https://m80hz.github.io/kite/。

🎯 研究动机

该论文旨在解决机器人故障分析中的关键挑战：如何让视觉语言模型(Vision-Language Models, VLMs)高效、准确地处理冗长且复杂的机器人执行视频。研究背景是，现有的基于VLMs的机器人故障分析方法通常直接处理原始视频，存在计算成本高、信息冗余且难以提取结构化视觉证据的问题，限制了其在故障检测、识别、定位、解释和纠正等任务上的性能。

🔧 核心方法

论文提出了一个名为KITE的训练无关、基于关键帧、布局接地的前端系统。其核心方法具体包括： - **关键帧提取与标注**：将长轨迹视频蒸馏(distill)为一小组运动显著(motion-salient)的关键帧，并对每帧进行开放词汇(open-vocabulary)目标检测。 - **布局接地图生成**：为每个关键帧配对一个示意性的鸟瞰图(Bird's-Eye-View, BEV)表示，该图编码了相对物体布局、坐标轴、时间戳和检测置信度。 - **统一提示构建**：将这些视觉线索（关键帧和BEV图）与机器人配置文件(robot-profile)和场景上下文(scene-context)标记(token)序列化(serialized)成一个统一的提示(prompt)，供现成的(off-the-shelf) VLM（如Qwen2.5-VL）使用。

💡 核心创新

论文的核心创新点在于设计了一个结构化、可解释的视觉证据前端处理框架，其独特之处在于： - **训练无关与模块化**：KITE本身无需训练，是一个独立于VLM的前端模块，可与任何现成VLM灵活组合，降低了应用门槛。 - **关键帧锚定与布局接地**：创新性地将**运动显著关键帧**与**示意性鸟瞰图(BEV)** 配对，前者捕捉动态关键瞬间，后者以结构化、几何化的方式编码物体间的空间关系和时序信息，为VLM提供了比原始视频或单一视图更紧凑、更富信息量的视觉证据。 - **统一的多任务支持**：通过将多样化的视觉和上下文信息序列化为统一提示，使得同一个前端能够支持故障分析全流程的多个下游任务（检测、识别、定位、解释、纠正），而无需为每个任务设计专用接口。

🏆 总体贡献

论文对该领域的整体贡献包括： - **方法论贡献**：提出了KITE框架，为基于VLM的机器人故障分析提供了一种高效、结构化、可解释的视频信息预处理新范式。 - **性能提升**：在RoboFAC基准测试上，KITE与Qwen2.5-VL结合，在训练无关设置下显著超越了原始VLM，尤其在仿真故障的检测、识别和定位任务上取得大幅性能增益，并与经过RoboFAC微调的基线模型保持竞争力。通过QLoRA微调可进一步提升解释和纠正质量。 - **实践验证**：在真实双臂机器人上的定性结果展示了KITE的实际应用潜力，证明了其作为机器人故障分析结构化前端的实用性。 - **资源开源**：公开了代码和模型，促进了相关研究的发展。

KITE：基于视觉语言模型的机器人故障分析关键帧索引标记证据
KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

📊 核心分析

KITE：基于视觉语言模型的机器人故障分析关键帧索引标记证据 KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

📊 核心分析

KITE：基于视觉语言模型的机器人故障分析关键帧索引标记证据
KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis