HCSG：以人为中心的语义-几何推理用于视觉语言导航

📝 论文摘要

通过扩展数据规模和模型容量，视觉语言导航（VLN）取得了显著进展。然而，在真实室内场景中，静态环境的假设不再成立，机器人不可避免地会遭遇动态行人。现有的人感知方法通常仅将人视为基于隐式视觉线索的移动障碍物，缺乏解释人类意图或维持社会规范所需的显式推理。为解决这一问题，我们提出了HCSG，这是首个以人为中心的VLN框架。该框架为动态人机环境中的安全、社会智能导航提供了坚实基础，将范式从被动避障转变为主动理解人类行为。具体而言，HCSG引入了一个统一的人类理解模块，协同两大关键能力：(i) 几何预测——预测人体姿态和轨迹以预判未来运动动态；(ii) 语义解释——利用视觉语言模型（VLM）生成人类动作和意图的自然语言描述。这些语义-几何表征被融合到智能体的拓扑地图中，用于指令条件化规划。此外，还引入了社交距离损失以强制遵守社交交互距离。在HA-VLNCE基准上的大量实验表明，HCSG显著优于现有最先进方法，成功率提升了14%，碰撞率降低了34%。我们的项目可访问：https://haoxuanxu1024.github.io/HCSG/。

🎯 研究动机

- 现有**视觉-语言导航(Vision-Language Navigation, VLN)** 方法假设静态环境，在真实室内场景中遇到动态行人时会失效 - 现有人类感知方法仅将人类视为移动障碍物，依赖隐式视觉线索，缺乏对人类意图和社交规范的显式推理

🔧 核心方法

- 提出**HCSG** 框架，包含**统一人类理解模块(Unified Human Understanding Module)**，协同实现几何预测和语义解释 - **几何预测(geometric forecasting)**：预测人体姿态和轨迹，用于捕捉未来运动动态 - **语义解释(semantic interpretation)**：利用**视觉-语言模型(Vision-Language Model, VLM)** 生成关于人类动作和意图的自然语言描述 - 将语义-几何表示融合到**拓扑图(topological map)** 中，用于指令条件规划，并引入**社交距离损失(social distance loss)** 强制执行社交合规距离

💡 核心创新

- **首创性**：首次提出**以人为中心( human-centric )** 的VLN框架，将范式从被动避障转向主动理解人类行为 - **双重理解**：同时进行几何轨迹预测和语义意图解释，实现动态场景中更深层次的**人-机交互理解(human-robot understanding)** - **社交正则化**：设计**社交距离损失(social distance loss)**，将社交规范直接编码到导航优化目标中

🏆 总体贡献

- 为动态人机环境中的安全、社交智能导航提供了稳健的基础框架 - 在**HA-VLSNCE** 基准上显著超越现有最先进方法，**成功率(Success Rate)** 提升14%，**碰撞率(Collision Rate)** 降低34% - 开源项目与代码，促进社区在人类感知导航领域的复现与后续研究

HCSG：以人为中心的语义-几何推理用于视觉语言导航
HCSG: Human-Centric Semantic-Geometric Reasoning for Vision-Language Navigation

📊 核心分析

HCSG：以人为中心的语义-几何推理用于视觉语言导航 HCSG: Human-Centric Semantic-Geometric Reasoning for Vision-Language Navigation

📊 核心分析

HCSG：以人为中心的语义-几何推理用于视觉语言导航
HCSG: Human-Centric Semantic-Geometric Reasoning for Vision-Language Navigation