- 解决现有**反应式映射(reactive mapping)** 方法在杂乱场景中无法记忆已观测区域、推断附近占用空间以及在部分可见性和紧延迟下行动的问题
- 背景:敏捷四旋翼飞行要求无人机不仅从深度图像到控制命令进行反应,还需要具备**空间记忆(space memory)** 与**可见性推断(visibility inference)** 能力
- 现有**端到端(end-to-end)** 方法缺乏显式几何结构,而模块化方法依赖精确地图构建,两者在延迟和泛化上存在折衷
- 提出**映射感知Dreamer(Mapping-Aware Dreamer, MAD)**,一种基于视觉的**几何感知世界模型(geometry-aware world model)**
- 学习**循环潜在动力学(recurrent latent dynamics)**,重建**机载中心占用与可见性网格地图(robocentric occupancy and visibility grid maps)** 以及**本体感觉状态(proprioceptive states)**
- 在**DiffAero** 仿真器中训练,利用**GPU并行地图构建模块(GPU-parallel map-construction module)** 提供高吞吐量的占用和可见性监督
- 将学习到的表示用于三种策略学习模式:基于想象力的**MAD-Dreamer**、以及基于**PPO(Proximal Policy Optimization)** 和**SHAC(Short Horizon Actor-Critic)** 的特征提取器变体
- **替代原始图像重建**:以占用和可见性网格地图重建作为自监督目标,迫使潜在状态编码局部几何、可见性历史和自运动,直接服务于避障
- **任务无关且可迁移**:学习到的表示在视觉导航和竞速任务间无需微调即可迁移,且能在真实物理四旋翼上部署
- **可解释性与准确性**:产生可解释的地图预测和准确的自身运动估计,促进安全决策
- **兼顾模块化与端到端**:在模块化导航的鲁棒性和端到端学习的响应速度之间取得实用平衡
- 为敏捷四旋翼飞行提供一种**映射感知世界模型(mapping-aware world model)** 新范式,显著提升杂乱场景下的成功率和飞行速度
- 在仿真中实现**9.66 m/s** 的飞行速度,在真实森林实验中达到**5.05 m/s**,验证了实际部署可行性
- 证明通过学习几何相关的潜在状态,可以超越纯视觉基线,实现**更好的跨任务迁移(cross-task transfer)**
- 开源相关工作(结合DiffAero与GPU并行地图构建)有助于社区复现并推动**视觉飞行导航(vision-based flight navigation)** 研究