该论文旨在解决室内火灾场景下多智能体协同导航的挑战。研究背景是:室内火灾环境存在浓烟、高温和动态变化等恶劣条件,现有基于视觉的多智能体导航系统主要针对良性室内环境设计,在火灾驱动的动态条件下性能会显著下降。
论文提出了VULCAN框架,其核心方法包括:
- 基于多模态感知(multimodal perception)和视觉语言模型(Vision-Language Models, VLMs)的多智能体协同导航框架。
- 扩展了Habitat-Matterport3D基准,通过模拟物理真实的火灾场景(包括烟雾扩散、热危害和传感器性能退化)来创建评估环境。
- 在正常和火灾驱动环境下评估了代表性的多智能体协同导航基线方法。
论文的核心创新点在于:
- **首次将视觉语言模型(VLMs)与多智能体协同导航结合**,专门用于室内火灾灾难响应,实现了对火灾动态危害的语义理解和感知增强。
- **构建了首个面向火灾场景的多智能体导航基准**,通过物理真实的模拟环境(烟雾、热危害)揭示了现有方法在极端条件下的关键失效模式。
- **提出了灾害感知规划(hazard-aware planning)的必要性**,超越了传统仅依赖视觉的导航方法,强调在恶劣环境下需要鲁棒的多模态感知和语义理解能力。
论文对该领域的整体贡献包括:
- 提出了VULCAN框架,为室内火灾搜索救援任务提供了新的多智能体协同导航解决方案。
- 建立了首个包含火灾动态危害的多智能体导航评估基准,推动了该领域向更真实灾难场景的研究。
- 通过实验揭示了现有方法在火灾场景下的局限性,并论证了结合视觉语言模型和多模态感知对于实现可靠搜索救援的必要性。