← 返回论文列表

超越专门化:通过程序化地图生成器实现鲁棒的强化学习导航
Beyond Specialization: Robust Reinforcement Learning Navigation via Procedural Map Generators

作者: Christian Jestel, Nicolas Bach, Marvin Wiedemann 等5人
arXiv: 2605.02528v1
分类: cs.RO, cs.LG
📝 论文摘要
深度强化学习导航策略常过度拟合其训练环境结构,这是由于环境多样性通常受限于设计多样化场景所需的人工成本。尽管程序化地图生成可提供可扩展的多样性,但尚无研究系统比较不同生成器类型对策略泛化的影响。我们将四种具有可导航性保证的生成器(稀疏型、迷宫型、图结构与波函数坍缩)集成到基于LiDAR导航的2D仿真器MuRoSim中(该仿真器聚焦于训练效率)。基于三个训练种子,我们在每个生成器生成的1000张带种子地图上交叉评估五种导航策略。结果显示存在强烈非对称的跨生成器迁移:稀疏布局训练的特化策略在迷宫中成功率降至3.3%,而基于组合生成器集训练的策略平均成功率达91.5±1.1%。我们进一步证明A*路径规划子目标输入是鲁棒性的主导因素,将成功率从90.2±1.4%的前馈基线提升至98.9±0.4%,并优于仅改善反应式基线的GRU循环网络。DRL策略超越经典Carrot+A*控制器——后者仅在低速(1.0 m/s)时匹配其成功率,但在2.0 m/s时骤降至24.9%。这突显了学习型方法的关键优势在于速度自适应能力。在RoboMaster上的真实实验验证了杂乱竞技场中的仿真到现实迁移,而迷宫类布局则揭示了循环网络有助于缓解的残余失败模式。

📊 核心分析

🎯 研究动机
- **深度强化学习(DRL)** 导航策略常因训练环境多样性有限而过拟合,手动设计多样场景成本高 - 程序化地图生成可提供可扩展多样性,但缺乏对不同生成器类型影响策略泛化的系统比较 - 现有导航策略在跨环境泛化时表现脆弱,亟需鲁棒的训练方法
🔧 核心方法
- 在2D模拟器**MuRoSim** 中集成四种程序化地图生成器:**稀疏(sparse)**、迷宫(maze)、图(graph)和**波函数坍缩(Wave Function Collapse)**,并保证可导航性 - 对五种导航策略进行交叉评估,每种生成器使用1000个种子地图,跨三个训练种子,分析泛化性能 - 策略输入包括LiDAR观测和**A*路径规划子目标(A* path-planner subgoal)**,结合** 前馈(feedforward)**或** GRU循环网络**训练
💡 核心创新
- **首次系统比较** 不同程序化地图生成器类型,发现强不对称跨生成器迁移:专用策略在迷宫成功率仅3.3%,而组合生成器训练策略达91.5% - **A*子目标输入**被确认为鲁棒性主导因素,将前馈基线成功率从90.2%提升至98.9%,优于GRU循环带来的改善 - 揭示** 速度适应**是DRL策略相对于经典Carrot+A*控制器的决定性优势,后者在高速(2.0 m/s)下成功率骤降至24.9% - 在真实RoboMaster机器人上验证sim-to-real迁移,并识别出循环结构在迷宫布局下有助于缓解剩余失败模式
🏆 总体贡献
- 提供了一种通过程序化地图生成器系统提升DRL导航策略泛化鲁棒性的方法 - 证明了跨生成器联合训练比单一类型训练显著增强策略的迁移能力 - 突出了**A*子目标输入**和** 速度适应学习**在鲁棒导航中的关键作用 - 在真实机器人上验证了sim-to-real可行性,并指出了未来改进方向(如循环结构)