面向安全人机协作的视觉语言模型碰撞接地探测

Probing Collision Grounding in Vision-Language Models for Safe Human-Robot Collaboration

作者: Jun Wang, Xiaohao Xu, Xiaonan Huang

arXiv: 2605.31196v1

分类: cs.CV, cs.AI, cs.CL, cs.RO

📝 论文摘要

安全的人-机器人协作需要的不仅仅是视觉描述：监控设备必须判断机器人本体是否安全分离、是否已与场景或人发生碰撞，或即将发生碰撞。我们将这种能力称为碰撞接地：将视觉观测与机器人本体几何结构、摄像机视角、场景布局、人体接近程度和时间运动信息相结合，以推断当前和即将发生的接触。我们提出了TouchSafeBench，这是一个基于物理的基准，用于评估视觉语言模型（VLM）的碰撞接地能力。TouchSafeBench构建于Habitat~3.0之上，包含2,940个模拟室内共在场景的社交导航与社交重排片段，配有同步的多视角RGB-D观测、俯视轨迹地图、标定摄像机元数据以及模拟器生成的接触标签。我们研究了两类面向部署的任务：当前安全状态分类和接触前的碰撞预警。在三个前沿或面向机器人领域的VLM和九种视觉表征上，当前模型远未达到可靠水平：最佳平均Macro-F1低于50%，显式深度并未自动转化为机器人本体的碰撞证据，且机器人与场景的接触始终比人机接触风险更难识别。TouchSafeBench揭示了具身VLM的一个核心局限：视觉流畅性不代表物理可问责性。可靠的机器人安全监控需要能够显式绑定视角、机器人形态、度量几何和未来碰撞的表征。我们将在论文被接收后发布该基准。

📊 核心分析

🎯 研究动机

- 解决安全人机协作中**碰撞接地(collision grounding)** 问题，即判断机器人是否安全分离、正在碰撞或即将碰撞 - 现有**视觉-语言模型(VLMs)** 仅提供视觉描述，无法推断机器人身体与场景或人的接触状态 - 研究背景：安全监控需要结合机器人几何、视角、场景布局、人体接近度和时间运动等信息

🔧 核心方法

- 构建**TouchSafeBench** 基准，基于**Habitat 3.0** 模拟环境，包含2,940个室内共现场景，涵盖社交导航与社交重排任务 - 提供同步多视角RGB-D观测、顶视图轨迹图、标定相机元数据和模拟器导出的接触标签 - 部署两个面向实际应用的任务：当前安全状态分类(in-contact/separated)和即将碰撞的提前预警

💡 核心创新

- **首次定义** 并系统评估**碰撞接地(collision grounding)** 能力，将其与纯视觉描述区分 - **物理接地基准**：使用仿真环境提供精确接触标签，消除真实标注噪声，支持细粒度分析 - **揭示核心缺陷**：当前VLM最佳平均Macro-F1低于50%，显式深度信息未被自动转化为机器人身体碰撞证据，且机器人-场景接触比人-机器人接触更难检测

🏆 总体贡献

- 为评估**具身VLM(embodied VLM)** 的安全感知能力提供了标准化的**TouchSafeBench** 基准 - 明确指出现有模型**视觉流畅性不等于物理可解释性(visual fluency ≠ physical accountability)** 的局限性 - 推动机器人安全监控领域开发显式绑定视角、机器人形态、度量几何和未来碰撞的表示方法