超越专门化：通过程序化地图生成器实现鲁棒的强化学习导航

📝 论文摘要

深度强化学习导航策略常过度拟合其训练环境结构，这是由于环境多样性通常受限于设计多样化场景所需的人工成本。尽管程序化地图生成可提供可扩展的多样性，但尚无研究系统比较不同生成器类型对策略泛化的影响。我们将四种具有可导航性保证的生成器（稀疏型、迷宫型、图结构与波函数坍缩）集成到基于LiDAR导航的2D仿真器MuRoSim中（该仿真器聚焦于训练效率）。基于三个训练种子，我们在每个生成器生成的1000张带种子地图上交叉评估五种导航策略。结果显示存在强烈非对称的跨生成器迁移：稀疏布局训练的特化策略在迷宫中成功率降至3.3%，而基于组合生成器集训练的策略平均成功率达91.5±1.1%。我们进一步证明A*路径规划子目标输入是鲁棒性的主导因素，将成功率从90.2±1.4%的前馈基线提升至98.9±0.4%，并优于仅改善反应式基线的GRU循环网络。DRL策略超越经典Carrot+A*控制器——后者仅在低速（1.0 m/s）时匹配其成功率，但在2.0 m/s时骤降至24.9%。这突显了学习型方法的关键优势在于速度自适应能力。在RoboMaster上的真实实验验证了杂乱竞技场中的仿真到现实迁移，而迷宫类布局则揭示了循环网络有助于缓解的残余失败模式。

🎯 研究动机

- **深度强化学习(DRL)** 导航策略常因训练环境多样性有限而过拟合，手动设计多样场景成本高 - 程序化地图生成可提供可扩展多样性，但缺乏对不同生成器类型影响策略泛化的系统比较 - 现有导航策略在跨环境泛化时表现脆弱，亟需鲁棒的训练方法

🔧 核心方法

- 在2D模拟器**MuRoSim** 中集成四种程序化地图生成器：**稀疏(sparse)**、迷宫(maze)、图(graph)和**波函数坍缩(Wave Function Collapse)**，并保证可导航性 - 对五种导航策略进行交叉评估，每种生成器使用1000个种子地图，跨三个训练种子，分析泛化性能 - 策略输入包括LiDAR观测和**A*路径规划子目标(A* path-planner subgoal)**，结合** 前馈(feedforward)**或** GRU循环网络**训练

💡 核心创新

- **首次系统比较** 不同程序化地图生成器类型，发现强不对称跨生成器迁移：专用策略在迷宫成功率仅3.3%，而组合生成器训练策略达91.5% - **A*子目标输入**被确认为鲁棒性主导因素，将前馈基线成功率从90.2%提升至98.9%，优于GRU循环带来的改善 - 揭示** 速度适应**是DRL策略相对于经典Carrot+A*控制器的决定性优势，后者在高速(2.0 m/s)下成功率骤降至24.9% - 在真实RoboMaster机器人上验证sim-to-real迁移，并识别出循环结构在迷宫布局下有助于缓解剩余失败模式

🏆 总体贡献

- 提供了一种通过程序化地图生成器系统提升DRL导航策略泛化鲁棒性的方法 - 证明了跨生成器联合训练比单一类型训练显著增强策略的迁移能力 - 突出了**A*子目标输入**和** 速度适应学习**在鲁棒导航中的关键作用 - 在真实机器人上验证了sim-to-real可行性，并指出了未来改进方向（如循环结构）

超越专门化：通过程序化地图生成器实现鲁棒的强化学习导航
Beyond Specialization: Robust Reinforcement Learning Navigation via Procedural Map Generators

📊 核心分析

超越专门化：通过程序化地图生成器实现鲁棒的强化学习导航 Beyond Specialization: Robust Reinforcement Learning Navigation via Procedural Map Generators

📊 核心分析

超越专门化：通过程序化地图生成器实现鲁棒的强化学习导航
Beyond Specialization: Robust Reinforcement Learning Navigation via Procedural Map Generators