快慢观察：面向开放集任务的双模态三维场景图
Seeing Fast and Slow: Bimodal 3D Scene Graphs for Open-set Tasks

作者: Marcel Bartholomeus Prasetyo, Shrutika Vishal Thengane, A Manicka Praveen 等5人

arXiv: 2605.31067v1

分类: cs.RO

📝 论文摘要

开放集任务执行可以显著受益于根据上下文以及机器人探索环境时不断变化的信息，在粗粒度与细粒度场景表示之间无缝切换。例如，初始阶段通常只需使用粗粒度场景表示，而当机器人遇到可能包含任务相关对象的区域时，再采用更精细的细粒度场景表示。因此，本文提出了BiMoSG——一种面向开放集任务的双模态3D场景图生成方法。BiMoSG默认采用"快速"模式高效生成粗粒度3D场景图，并可切换至"慢速"模式，为任务相关对象生成更精细的开放词汇3D场景图。我们证明，所提出的3D场景图生成方法显著快于开源的最先进方法。这使得我们能够将场景图生成过程与任务执行集成，实现实时部署。

📊 核心分析

🎯 研究动机

- 开放集任务执行需要根据上下文和探索中演变的信息，在粗粒度和细粒度场景表示之间无缝切换 - 现有方法通常固定使用单一粒度的场景表示，无法在效率和细节之间动态平衡 - 机器人初始阶段使用粗场景表示即可，仅在遇到可能包含任务相关物体的区域时才需要细粒度表示

🔧 核心方法

- 提出**BiMoSG**，一种双模态3D场景图生成方法 - 默认采用“快速(fast)”模式，高效生成粗粒度3D场景图 - 在需要时可切换到“慢速(slow)”模式，为任务相关物体生成更细粒度的开放词汇(open vocabulary)3D场景图

💡 核心创新

- **双模态切换( bimodal switching)**：根据任务上下文动态在粗/细粒度表示间切换，兼顾速度与精度 - **显著加速**：比现有开源SOTA方法快得多，支持实时部署 - **集成任务执行**：将场景图生成过程与任务执行实时整合，解决开放集任务中的效率瓶颈

🏆 总体贡献

- 为开放集任务提供了一种新颖的双模态3D场景图生成范式，实现粗/细粒度表示的动态平衡 - 在速度上大幅超越现有方法，使3D场景图生成可实时应用于机器人探索 - 推动了场景表示与任务执行的紧密耦合，增强机器人在未知环境中的适应能力

快慢观察：面向开放集任务的双模态三维场景图 Seeing Fast and Slow: Bimodal 3D Scene Graphs for Open-set Tasks

📊 核心分析

快慢观察：面向开放集任务的双模态三维场景图
Seeing Fast and Slow: Bimodal 3D Scene Graphs for Open-set Tasks