- 现有**世界模型(world model)** 大多预测场景外观,而非智能体可穿越的空间几何结构
- 鸟瞰图占用网格等模型将三维环境压缩到地面平面,丢弃了上方和多层结构,无法反映真实导航几何
- 缺乏一种预测目标,既能捕捉**可导航几何(navigable geometry)**,又不涉及光度信息且不丢失第三维度
- 提出基于**3D等值线(3D isovist)** 的世界模型,将开放空间建模为球形可见性深度图,记录每个方向到最近表面的距离
- 预测公式使用**深度残差(depth residual)**,使解码器保留锐利建筑边缘;训练采用**自展开调度采样(self-rollout scheduled sampling)**,保持破损上下文在几何流形上
- 配备**持久潜在鸟瞰空间图(persistent latent bird's-eye-view spatial map)**,实现跨路径一致性
- **首创性**:首次将**3D等值线(3D isovist)** 作为世界模型的预测目标,完全避开外观信息且保留三维几何
- **意外发现**:单一城市盲模型在曼哈顿和巴黎上训练后,自发形成**跨城市空间签名(cross-city spatial signature)**,城市身份可从时间潜变量中**线性解码(linear decodable)**,远超单帧基线
- **动力学编码**:签名存在于学习到的动力学中而非外观,表明模型捕获了城市几何的独特动态规律
- 提供一种轻量、可解释、可复现的**几何基元(geometric substrate)**,用于具身AI、机器人和城市分析中的空间推理
- 在标准导航任务中揭示城市几何的隐式特征,为跨城市迁移学习提供新视角
- 开源数据集和流程,促进社区复现与后续研究