- 现有**深度强化学习(DRL)** 四旋翼飞行控制主要依赖**领域随机化(domain randomization)** 进行sim-to-real迁移,导致策略过于保守,难以应对动态扰动
- 传统方法无法主动感知和适应瞬时扰动,需要设计一种能实时估计并补偿外部扰动的自适应控制架构
- 提出**自适应外环控制架构(adaptive outer-loop control architecture)**,先训练最优外环策略,再引入**残差动力学预测器(Residual Dynamics Predictor, RDP)** 替代对真实扰动数据的依赖
- **RDP** 仅利用状态和控制动作的历史在线估计外部力和力矩,无需额外传感器
- 针对硬件迁移,设计**数据高效的线性校准桥(linear calibration bridge)** 和**在线推力校正机制(online thrust correction)**,仅用数秒飞行数据对齐模拟与现实的潜在空间
- **主动感知与反应**:突破被动领域随机化的局限,通过RDP主动在线估计瞬时扰动并实时调整策略
- **高效sim-to-real迁移**:线性校准桥和推力校正机制仅需少量真实飞行数据即可实现从模拟到现实的无缝迁移
- **通用性**:不依赖真实扰动真值,仅利用状态-动作历史即可准确估计外部扰动,适用于多种不确定性场景
- 为四旋翼飞行控制提供了一种新颖的**自适应外环控制范式(adaptive outer-loop control paradigm)**,显著提升对动态扰动的鲁棒性
- 在**Crazyflie** 微型四旋翼上完成真实世界验证,在质量变化、不对称负载和动态悬挂负载等严重不确定性下保持精确轨迹跟踪,大幅超越基线方法
- 提出的线性校准桥和推力校正机制为sim-to-real迁移提供了高效、实用的解决方案,促进DRL在机器人控制中的实际部署