该论文旨在解决无人机在仅使用轻量级机载传感器的情况下,如何实现精确、激进的机动飞行的关键瓶颈问题。研究背景是:这类机动对于扩展无人机系统的可达区域至关重要,例如通过环境中的狭窄开口进行导航。其中最具代表性的问题是在SE(3)约束下,让四旋翼无人机以激进的姿态穿越狭窄缝隙,这需要利用瞬时的倾斜姿态和机身的不对称性。
论文开发了**感觉运动策略(sensorimotor policies)**,直接将机载视觉和本体感觉映射为底层控制指令。具体方法包括:
- 使用**强化学习(Reinforcement Learning, RL)** 在仿真中进行**端到端策略蒸馏(end-to-end policy distillation)** 来训练策略。
- 采用一种初始化策略来缓解**无模型RL(model-free RL)** 在受限解空间探索的根本性困难,该策略利用了**基于模型的规划器(model-based planner)** 生成的轨迹。
- 通过精心的**仿真到现实(sim-to-real)** 设计,使策略能够控制四旋翼以高重复性穿越低间隙的狭窄缝隙。
论文的核心创新点在于:
- **策略学习方法的灵活性**:能够为几何形状多样的缝隙开发策略,而无需依赖手动定义的穿越姿态和视觉特征。
- **高效的探索初始化**:通过结合基于模型规划器的轨迹来初始化无模型RL,有效解决了在严格SE(3)约束解空间中的探索难题。
- **强大的泛化与反应能力**:策略在未经动态缝隙训练的情况下,能够反应式地伺服控制无人机穿越移动的缝隙;并且能够在未知缝隙位置和方向(例如倾斜高达90度)的情况下,以低至5厘米的间隙完成穿越。
论文对该领域的整体贡献是:
- 提出并验证了一种基于感觉运动策略和强化学习的新框架,首次实现了在严格SE(3)约束和仅使用机载传感条件下,无人机对未知狭窄缝隙的精确、激进穿越。
- 通过创新的初始化方法和仿真到现实设计,证明了该方法的高重复性、对几何多样性的适应性以及对动态环境的反应能力。
- 为解决无人机在复杂、非结构化环境中实现极限机动性的关键问题提供了可行的学习-based解决方案,推动了敏捷无人机导航向更自主、更灵活的方向发展。