- **深度强化学习(DRL)** 导航策略常因训练环境多样性有限而过拟合,手动设计多样场景成本高
- 程序化地图生成可提供可扩展多样性,但缺乏对不同生成器类型影响策略泛化的系统比较
- 现有导航策略在跨环境泛化时表现脆弱,亟需鲁棒的训练方法
- 在2D模拟器**MuRoSim** 中集成四种程序化地图生成器:**稀疏(sparse)**、迷宫(maze)、图(graph)和**波函数坍缩(Wave Function Collapse)**,并保证可导航性
- 对五种导航策略进行交叉评估,每种生成器使用1000个种子地图,跨三个训练种子,分析泛化性能
- 策略输入包括LiDAR观测和**A*路径规划子目标(A* path-planner subgoal)**,结合** 前馈(feedforward)**或** GRU循环网络**训练
- **首次系统比较** 不同程序化地图生成器类型,发现强不对称跨生成器迁移:专用策略在迷宫成功率仅3.3%,而组合生成器训练策略达91.5%
- **A*子目标输入**被确认为鲁棒性主导因素,将前馈基线成功率从90.2%提升至98.9%,优于GRU循环带来的改善
- 揭示** 速度适应**是DRL策略相对于经典Carrot+A*控制器的决定性优势,后者在高速(2.0 m/s)下成功率骤降至24.9%
- 在真实RoboMaster机器人上验证sim-to-real迁移,并识别出循环结构在迷宫布局下有助于缓解剩余失败模式
- 提供了一种通过程序化地图生成器系统提升DRL导航策略泛化鲁棒性的方法
- 证明了跨生成器联合训练比单一类型训练显著增强策略的迁移能力
- 突出了**A*子目标输入**和** 速度适应学习**在鲁棒导航中的关键作用
- 在真实机器人上验证了sim-to-real可行性,并指出了未来改进方向(如循环结构)