- 现有**视觉-语言导航(Vision-Language Navigation, VLN)** 方法假设静态环境,在真实室内场景中遇到动态行人时会失效
- 现有人类感知方法仅将人类视为移动障碍物,依赖隐式视觉线索,缺乏对人类意图和社交规范的显式推理
- 提出**HCSG** 框架,包含**统一人类理解模块(Unified Human Understanding Module)**,协同实现几何预测和语义解释
- **几何预测(geometric forecasting)**:预测人体姿态和轨迹,用于捕捉未来运动动态
- **语义解释(semantic interpretation)**:利用**视觉-语言模型(Vision-Language Model, VLM)** 生成关于人类动作和意图的自然语言描述
- 将语义-几何表示融合到**拓扑图(topological map)** 中,用于指令条件规划,并引入**社交距离损失(social distance loss)** 强制执行社交合规距离
- **首创性**:首次提出**以人为中心( human-centric )** 的VLN框架,将范式从被动避障转向主动理解人类行为
- **双重理解**:同时进行几何轨迹预测和语义意图解释,实现动态场景中更深层次的**人-机交互理解(human-robot understanding)**
- **社交正则化**:设计**社交距离损失(social distance loss)**,将社交规范直接编码到导航优化目标中
- 为动态人机环境中的安全、社交智能导航提供了稳健的基础框架
- 在**HA-VLSNCE** 基准上显著超越现有最先进方法,**成功率(Success Rate)** 提升14%,**碰撞率(Collision Rate)** 降低34%
- 开源项目与代码,促进社区在人类感知导航领域的复现与后续研究