三维等视域世界模型——揭示城市不可见的几何结构及其涌现的跨城市特征

作者: Xuhui Lin, Stephen Law, Nanjiang Chen 等5人

arXiv: 2606.03609v1

分类: cs.RO, cs.LG

📝 论文摘要

在城市中导航的具身智能体依赖于世界模型，这些模型能够预测其周围环境随移动而产生的变化。然而对于导航而言，建筑物的外观并不重要，重要的是智能体能够到达的位置。尽管如此，大多数世界模型仍预测外观，学习场景的视觉呈现而非智能体可通行的空间。那些针对几何结构进行预测的模型（例如鸟瞰视角的占用网格）将三维环境压缩至地平面，忽略了构成真实导航结构的地上空间与多层结构。当前缺失的是一种能够捕捉智能体实际穿越的可通行几何结构的预测目标，这种预测既不受光度信息干扰，也不坍缩第三维度。我们的核心思路是对建筑物之间的开放空间（即负空间）进行建模，将其编码为三维等视域：一种球面可视性深度图，记录每个方向上到最近表面的距离。我们引入了一个具身世界模型，该模型根据过去短时间序列的等视域和移动动作预测下一个等视域。预测被表述为深度残差，使得解码器能保留清晰的建筑边缘；模型通过自展开调度采样进行训练，以保持几何流形上的上下文完整性；并配备持久的潜鸟瞰空间地图以实现跨路径一致性。我们的核心发现具有涌现性与不可预测性：一个仅在曼哈顿和巴黎训练的城市盲模型发展出了跨城市空间特征，城市身份可从其时序潜向量中线性解码，且准确率远超单帧基线，这表明该特征存在于学习到的动态过程中而非外观中。该表征轻量化、可解释且可复现，为具身AI、机器人技术和城市分析中的空间推理提供了几何基础，并随附开放数据集与代码管道。

📊 核心分析

🎯 研究动机

- 现有**世界模型(world model)** 大多预测场景外观，而非智能体可穿越的空间几何结构 - 鸟瞰图占用网格等模型将三维环境压缩到地面平面，丢弃了上方和多层结构，无法反映真实导航几何 - 缺乏一种预测目标，既能捕捉**可导航几何(navigable geometry)**，又不涉及光度信息且不丢失第三维度

🔧 核心方法

- 提出基于**3D等值线(3D isovist)** 的世界模型，将开放空间建模为球形可见性深度图，记录每个方向到最近表面的距离 - 预测公式使用**深度残差(depth residual)**，使解码器保留锐利建筑边缘；训练采用**自展开调度采样(self-rollout scheduled sampling)**，保持破损上下文在几何流形上 - 配备**持久潜在鸟瞰空间图(persistent latent bird's-eye-view spatial map)**，实现跨路径一致性

💡 核心创新

- **首创性**：首次将**3D等值线(3D isovist)** 作为世界模型的预测目标，完全避开外观信息且保留三维几何 - **意外发现**：单一城市盲模型在曼哈顿和巴黎上训练后，自发形成**跨城市空间签名(cross-city spatial signature)**，城市身份可从时间潜变量中**线性解码(linear decodable)**，远超单帧基线 - **动力学编码**：签名存在于学习到的动力学中而非外观，表明模型捕获了城市几何的独特动态规律

🏆 总体贡献

- 提供一种轻量、可解释、可复现的**几何基元(geometric substrate)**，用于具身AI、机器人和城市分析中的空间推理 - 在标准导航任务中揭示城市几何的隐式特征，为跨城市迁移学习提供新视角 - 开源数据集和流程，促进社区复现与后续研究

三维等视域世界模型——揭示城市不可见的几何结构及其涌现的跨城市特征 三维等视域世界模型——揭示城市不可见的几何结构及其涌现的跨城市特征

📊 核心分析

三维等视域世界模型——揭示城市不可见的几何结构及其涌现的跨城市特征
三维等视域世界模型——揭示城市不可见的几何结构及其涌现的跨城市特征