基于规则的高层指导用于有限仿真训练下搜救无人机任务中的目标条件强化学习

📝 论文摘要

本文提出了一种面向有限仿真训练下搜索救援场景的无人机任务分层决策框架。该框架将基于固定规则的高层决策器与在线目标条件化的低层强化学习控制器相结合。为进行早期适应性的压力测试，我们还考虑了严格的无预训练部署机制。高层决策器根据结构化任务规范离线定义，并编译为确定性规则，通过推荐动作、规避动作以及依赖于模式的仲裁权重，提供可解释的、兼顾任务安全性的引导。低层控制器根据任务定义的密集奖励在线学习，并通过一种融合规则派生元数据的模式感知优先经验回放机制复用经验。我们在两个任务上评估该框架：障碍物密集环境下的电池感知多目标递送任务和移动目标递送任务。在两个任务中，所提方法主要通过减少碰撞终止次数来提升早期安全性和样本效率，同时保持对场景特定动态的在线适应能力。

🎯 研究动机

- 解决**搜索与救援(search-and-rescue, SAR)** 无人机任务在**有限仿真训练(limited-simulation training)** 下的在线适应问题 - 现有**强化学习(reinforcement learning, RL)** 方法在无预训练部署场景中早期样本效率低、安全性差 - 研究背景：无人机任务对实时安全性和快速适应能力要求高，但仿真与真实环境存在差距

🔧 核心方法

- 提出**层次决策框架**，结合**固定规则高层顾问(fixed rule-based high-level advisor)** 与**在线目标条件低层强化学习控制器(online goal-conditioned low-level RL controller)** - 高层顾问从**结构化任务规范(structured task specification)** 离线编译为确定性规则，输出推荐/避免动作及**场景依赖仲裁权重(regime-dependent arbitration weights)** - 低层控制器在线学习**任务定义密集奖励(task-defined dense rewards)**，通过**模式感知优先重放机制(mode-aware prioritized replay mechanism)** 并融合规则元数据进行经验回放

💡 核心创新

- **层次化规则-RL融合**：将离线规则解释性与在线RL适应性结合，避免纯规则僵硬和纯RL样本低效 - **严格无预训练部署(strict no-pretraining deployment)**：首次在零预训练下验证框架的早期适应能力，强调在线学习 - **模式感知重放**：重放机制感知任务模式并利用规则元数据，显著提升碰撞终止减少和样本效率

🏆 总体贡献

- 为**受控仿真训练下的无人机任务** 提供一种安全、可解释且可在线适应的新范式 - 在**电池感知多目标递送(battery-aware multi-goal delivery)** 和**移动目标递送(moving-target delivery)** 两项任务中，显著减少碰撞终止、提升早期安全性与样本效率 - 方法支持在线适应场景特定动态，无需预训练即可部署，适用于真实救援场景

基于规则的高层指导用于有限仿真训练下搜救无人机任务中的目标条件强化学习
Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training

📊 核心分析

基于规则的高层指导用于有限仿真训练下搜救无人机任务中的目标条件强化学习 Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training

📊 核心分析

基于规则的高层指导用于有限仿真训练下搜救无人机任务中的目标条件强化学习
Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training