← 返回论文列表

基于强化学习的四旋翼无人机自适应外环控制
Adaptive Outer-Loop Control of Quadrotors via Reinforcement Learning

作者: Vishnu Saj, Sushi Vemuri, Dileep Kalathil 等4人
arXiv: 2605.16015v1
分类: cs.RO, cs.LG
📝 论文摘要
深度强化学习在四旋翼飞行控制中通常依赖领域随机化实现仿真到现实的迁移,导致策略过于保守而难以应对动态扰动。为此,我们提出一种新型自适应控制架构,能够主动感知并响应瞬时扰动。首先,训练一个最优外环策略,然后利用残差动力学预测器替代其对真实扰动数据的依赖。该预测器仅通过状态与控制动作的历史记录,在线估计作用于飞行器的外力与力矩。为了实现无缝硬件迁移,我们引入了数据高效的线性标定桥接方法及在线推力校正机制,仅需数秒飞行数据即可将仿真隐空间与真实环境对齐。在Crazyflie微型四旋翼平台上的实际验证表明,我们的自适应控制器显著优于基线方法,能够在质量变化、非对称载荷及动态悬挂负载等严重不确定性条件下保持精确轨迹跟踪。

📊 核心分析

🎯 研究动机
- 现有**深度强化学习(DRL)** 四旋翼飞行控制主要依赖**领域随机化(domain randomization)** 进行sim-to-real迁移,导致策略过于保守,难以应对动态扰动 - 传统方法无法主动感知和适应瞬时扰动,需要设计一种能实时估计并补偿外部扰动的自适应控制架构
🔧 核心方法
- 提出**自适应外环控制架构(adaptive outer-loop control architecture)**,先训练最优外环策略,再引入**残差动力学预测器(Residual Dynamics Predictor, RDP)** 替代对真实扰动数据的依赖 - **RDP** 仅利用状态和控制动作的历史在线估计外部力和力矩,无需额外传感器 - 针对硬件迁移,设计**数据高效的线性校准桥(linear calibration bridge)** 和**在线推力校正机制(online thrust correction)**,仅用数秒飞行数据对齐模拟与现实的潜在空间
💡 核心创新
- **主动感知与反应**:突破被动领域随机化的局限,通过RDP主动在线估计瞬时扰动并实时调整策略 - **高效sim-to-real迁移**:线性校准桥和推力校正机制仅需少量真实飞行数据即可实现从模拟到现实的无缝迁移 - **通用性**:不依赖真实扰动真值,仅利用状态-动作历史即可准确估计外部扰动,适用于多种不确定性场景
🏆 总体贡献
- 为四旋翼飞行控制提供了一种新颖的**自适应外环控制范式(adaptive outer-loop control paradigm)**,显著提升对动态扰动的鲁棒性 - 在**Crazyflie** 微型四旋翼上完成真实世界验证,在质量变化、不对称负载和动态悬挂负载等严重不确定性下保持精确轨迹跟踪,大幅超越基线方法 - 提出的线性校准桥和推力校正机制为sim-to-real迁移提供了高效、实用的解决方案,促进DRL在机器人控制中的实际部署