← 返回论文列表

KITE:基于视觉语言模型的机器人故障分析关键帧索引标记证据
KITE: Keyframe-Indexed Tokenized Evidence for VLM-Based Robot Failure Analysis

作者: Mehdi Hosseinzadeh, King Hang Wong, Feras Dayoub
arXiv: 2604.07034v1
分类: cs.RO, cs.AI, cs.CV
📝 论文摘要
我们提出了KITE,一种无需训练、以关键帧为锚点、基于布局的前端系统,能够将冗长的机器人执行视频转化为紧凑且可解释的标记化证据,供视觉语言模型(VLMs)使用。KITE将每个运动轨迹提炼为一小组具有运动显著性的关键帧,并配以开放词汇检测结果,同时为每个关键帧生成示意性的鸟瞰图(BEV)表示,其中编码了物体的相对布局、坐标轴、时间戳及检测置信度。这些视觉线索与机器人配置和场景上下文标记被序列化为统一提示,使得同一前端能够支持现成的VLM进行故障检测、识别、定位、解释和纠正。在RoboFAC基准测试中,KITE结合Qwen2.5-VL在无需训练的设置下显著优于原始Qwen2.5-VL,尤其在模拟故障检测、识别和定位方面提升明显,同时与经过RoboFAC调优的基线模型保持竞争力。通过小规模的QLoRA微调,进一步提升了故障解释和纠正的质量。我们还展示了在真实双臂机器人上的定性结果,证明了KITE作为机器人故障分析的结构化、可解释前端具有实际应用价值。代码和模型已发布在项目页面:https://m80hz.github.io/kite/。

📊 核心分析

🎯 研究动机
该论文旨在解决机器人故障分析中的关键挑战:如何让视觉语言模型(Vision-Language Models, VLMs)高效、准确地处理冗长且复杂的机器人执行视频。研究背景是,现有的基于VLMs的机器人故障分析方法通常直接处理原始视频,存在计算成本高、信息冗余且难以提取结构化视觉证据的问题,限制了其在故障检测、识别、定位、解释和纠正等任务上的性能。
🔧 核心方法
论文提出了一个名为KITE的训练无关、基于关键帧、布局接地的前端系统。其核心方法具体包括: - **关键帧提取与标注**:将长轨迹视频蒸馏(distill)为一小组运动显著(motion-salient)的关键帧,并对每帧进行开放词汇(open-vocabulary)目标检测。 - **布局接地图生成**:为每个关键帧配对一个示意性的鸟瞰图(Bird's-Eye-View, BEV)表示,该图编码了相对物体布局、坐标轴、时间戳和检测置信度。 - **统一提示构建**:将这些视觉线索(关键帧和BEV图)与机器人配置文件(robot-profile)和场景上下文(scene-context)标记(token)序列化(serialized)成一个统一的提示(prompt),供现成的(off-the-shelf) VLM(如Qwen2.5-VL)使用。
💡 核心创新
论文的核心创新点在于设计了一个结构化、可解释的视觉证据前端处理框架,其独特之处在于: - **训练无关与模块化**:KITE本身无需训练,是一个独立于VLM的前端模块,可与任何现成VLM灵活组合,降低了应用门槛。 - **关键帧锚定与布局接地**:创新性地将**运动显著关键帧**与**示意性鸟瞰图(BEV)** 配对,前者捕捉动态关键瞬间,后者以结构化、几何化的方式编码物体间的空间关系和时序信息,为VLM提供了比原始视频或单一视图更紧凑、更富信息量的视觉证据。 - **统一的多任务支持**:通过将多样化的视觉和上下文信息序列化为统一提示,使得同一个前端能够支持故障分析全流程的多个下游任务(检测、识别、定位、解释、纠正),而无需为每个任务设计专用接口。
🏆 总体贡献
论文对该领域的整体贡献包括: - **方法论贡献**:提出了KITE框架,为基于VLM的机器人故障分析提供了一种高效、结构化、可解释的视频信息预处理新范式。 - **性能提升**:在RoboFAC基准测试上,KITE与Qwen2.5-VL结合,在训练无关设置下显著超越了原始VLM,尤其在仿真故障的检测、识别和定位任务上取得大幅性能增益,并与经过RoboFAC微调的基线模型保持竞争力。通过QLoRA微调可进一步提升解释和纠正质量。 - **实践验证**:在真实双臂机器人上的定性结果展示了KITE的实际应用潜力,证明了其作为机器人故障分析结构化前端的实用性。 - **资源开源**:公开了代码和模型,促进了相关研究的发展。