← 返回论文列表

HCSG:以人为中心的语义-几何推理用于视觉语言导航
HCSG: Human-Centric Semantic-Geometric Reasoning for Vision-Language Navigation

作者: Haoxuan Xu, Tianfu Li, Wenbo Chen 等10人
arXiv: 2605.13321v1
分类: cs.RO
📝 论文摘要
通过扩展数据规模和模型容量,视觉语言导航(VLN)取得了显著进展。然而,在真实室内场景中,静态环境的假设不再成立,机器人不可避免地会遭遇动态行人。现有的人感知方法通常仅将人视为基于隐式视觉线索的移动障碍物,缺乏解释人类意图或维持社会规范所需的显式推理。为解决这一问题,我们提出了HCSG,这是首个以人为中心的VLN框架。该框架为动态人机环境中的安全、社会智能导航提供了坚实基础,将范式从被动避障转变为主动理解人类行为。具体而言,HCSG引入了一个统一的人类理解模块,协同两大关键能力:(i) 几何预测——预测人体姿态和轨迹以预判未来运动动态;(ii) 语义解释——利用视觉语言模型(VLM)生成人类动作和意图的自然语言描述。这些语义-几何表征被融合到智能体的拓扑地图中,用于指令条件化规划。此外,还引入了社交距离损失以强制遵守社交交互距离。在HA-VLNCE基准上的大量实验表明,HCSG显著优于现有最先进方法,成功率提升了14%,碰撞率降低了34%。我们的项目可访问:https://haoxuanxu1024.github.io/HCSG/。

📊 核心分析

🎯 研究动机
- 现有**视觉-语言导航(Vision-Language Navigation, VLN)** 方法假设静态环境,在真实室内场景中遇到动态行人时会失效 - 现有人类感知方法仅将人类视为移动障碍物,依赖隐式视觉线索,缺乏对人类意图和社交规范的显式推理
🔧 核心方法
- 提出**HCSG** 框架,包含**统一人类理解模块(Unified Human Understanding Module)**,协同实现几何预测和语义解释 - **几何预测(geometric forecasting)**:预测人体姿态和轨迹,用于捕捉未来运动动态 - **语义解释(semantic interpretation)**:利用**视觉-语言模型(Vision-Language Model, VLM)** 生成关于人类动作和意图的自然语言描述 - 将语义-几何表示融合到**拓扑图(topological map)** 中,用于指令条件规划,并引入**社交距离损失(social distance loss)** 强制执行社交合规距离
💡 核心创新
- **首创性**:首次提出**以人为中心( human-centric )** 的VLN框架,将范式从被动避障转向主动理解人类行为 - **双重理解**:同时进行几何轨迹预测和语义意图解释,实现动态场景中更深层次的**人-机交互理解(human-robot understanding)** - **社交正则化**:设计**社交距离损失(social distance loss)**,将社交规范直接编码到导航优化目标中
🏆 总体贡献
- 为动态人机环境中的安全、社交智能导航提供了稳健的基础框架 - 在**HA-VLSNCE** 基准上显著超越现有最先进方法,**成功率(Success Rate)** 提升14%,**碰撞率(Collision Rate)** 降低34% - 开源项目与代码,促进社区在人类感知导航领域的复现与后续研究