- 解决**搜索与救援(search-and-rescue, SAR)** 无人机任务在**有限仿真训练(limited-simulation training)** 下的在线适应问题
- 现有**强化学习(reinforcement learning, RL)** 方法在无预训练部署场景中早期样本效率低、安全性差
- 研究背景:无人机任务对实时安全性和快速适应能力要求高,但仿真与真实环境存在差距
- 提出**层次决策框架**,结合**固定规则高层顾问(fixed rule-based high-level advisor)** 与**在线目标条件低层强化学习控制器(online goal-conditioned low-level RL controller)**
- 高层顾问从**结构化任务规范(structured task specification)** 离线编译为确定性规则,输出推荐/避免动作及**场景依赖仲裁权重(regime-dependent arbitration weights)**
- 低层控制器在线学习**任务定义密集奖励(task-defined dense rewards)**,通过**模式感知优先重放机制(mode-aware prioritized replay mechanism)** 并融合规则元数据进行经验回放
- **层次化规则-RL融合**:将离线规则解释性与在线RL适应性结合,避免纯规则僵硬和纯RL样本低效
- **严格无预训练部署(strict no-pretraining deployment)**:首次在零预训练下验证框架的早期适应能力,强调在线学习
- **模式感知重放**:重放机制感知任务模式并利用规则元数据,显著提升碰撞终止减少和样本效率
- 为**受控仿真训练下的无人机任务** 提供一种安全、可解释且可在线适应的新范式
- 在**电池感知多目标递送(battery-aware multi-goal delivery)** 和**移动目标递送(moving-target delivery)** 两项任务中,显著减少碰撞终止、提升早期安全性与样本效率
- 方法支持在线适应场景特定动态,无需预训练即可部署,适用于真实救援场景