← 返回论文列表

面向安全人机协作的视觉语言模型碰撞接地探测
Probing Collision Grounding in Vision-Language Models for Safe Human-Robot Collaboration

作者: Jun Wang, Xiaohao Xu, Xiaonan Huang
arXiv: 2605.31196v1
分类: cs.CV, cs.AI, cs.CL, cs.RO
📝 论文摘要
安全的人-机器人协作需要的不仅仅是视觉描述:监控设备必须判断机器人本体是否安全分离、是否已与场景或人发生碰撞,或即将发生碰撞。我们将这种能力称为碰撞接地:将视觉观测与机器人本体几何结构、摄像机视角、场景布局、人体接近程度和时间运动信息相结合,以推断当前和即将发生的接触。我们提出了TouchSafeBench,这是一个基于物理的基准,用于评估视觉语言模型(VLM)的碰撞接地能力。TouchSafeBench构建于Habitat~3.0之上,包含2,940个模拟室内共在场景的社交导航与社交重排片段,配有同步的多视角RGB-D观测、俯视轨迹地图、标定摄像机元数据以及模拟器生成的接触标签。我们研究了两类面向部署的任务:当前安全状态分类和接触前的碰撞预警。在三个前沿或面向机器人领域的VLM和九种视觉表征上,当前模型远未达到可靠水平:最佳平均Macro-F1低于50%,显式深度并未自动转化为机器人本体的碰撞证据,且机器人与场景的接触始终比人机接触风险更难识别。TouchSafeBench揭示了具身VLM的一个核心局限:视觉流畅性不代表物理可问责性。可靠的机器人安全监控需要能够显式绑定视角、机器人形态、度量几何和未来碰撞的表征。我们将在论文被接收后发布该基准。

📊 核心分析

🎯 研究动机
- 解决安全人机协作中**碰撞接地(collision grounding)** 问题,即判断机器人是否安全分离、正在碰撞或即将碰撞 - 现有**视觉-语言模型(VLMs)** 仅提供视觉描述,无法推断机器人身体与场景或人的接触状态 - 研究背景:安全监控需要结合机器人几何、视角、场景布局、人体接近度和时间运动等信息
🔧 核心方法
- 构建**TouchSafeBench** 基准,基于**Habitat 3.0** 模拟环境,包含2,940个室内共现场景,涵盖社交导航与社交重排任务 - 提供同步多视角RGB-D观测、顶视图轨迹图、标定相机元数据和模拟器导出的接触标签 - 部署两个面向实际应用的任务:当前安全状态分类(in-contact/separated)和即将碰撞的提前预警
💡 核心创新
- **首次定义** 并系统评估**碰撞接地(collision grounding)** 能力,将其与纯视觉描述区分 - **物理接地基准**:使用仿真环境提供精确接触标签,消除真实标注噪声,支持细粒度分析 - **揭示核心缺陷**:当前VLM最佳平均Macro-F1低于50%,显式深度信息未被自动转化为机器人身体碰撞证据,且机器人-场景接触比人-机器人接触更难检测
🏆 总体贡献
- 为评估**具身VLM(embodied VLM)** 的安全感知能力提供了标准化的**TouchSafeBench** 基准 - 明确指出现有模型**视觉流畅性不等于物理可解释性(visual fluency ≠ physical accountability)** 的局限性 - 推动机器人安全监控领域开发显式绑定视角、机器人形态、度量几何和未来碰撞的表示方法