- 解决**部分可观测马尔可夫决策过程(POMDP)** 在**长时域(long-horizon)** 运动规划中难以求解的问题
- 现有在线POMDP求解器虽然扩展性有所提升,但在长时域场景下仍存在显著困难
- 背景:POMDP是不确定环境下运动规划的通用框架,但动作空间枚举限制了在线求解的效率
- 提出**参考驱动在线POMDP规划与快速状态空间采样(ROP-RAS3)**,一种新的近似在线POMDP求解器
- 利用**极快采样运动规划技术** 在线采样状态空间并生成多种**宏动作(macro actions)**,用于指导信念空间采样
- 通过参考动作集偏置搜索,避免对完整动作空间的穷举枚举,收敛速度取决于采样动作数量而非动作空间大小
- **首次将快速采样运动规划技术** 与在线POMDP规划结合,实现长时域高效信念空间搜索
- **动作空间免枚举**:突破现代在线POMDP求解器对动作空间完整枚举的依赖,仅需采样有限动作即可逼近近优解
- **支持连续/离散/混合状态与动作空间**,并在高达3000步前瞻和35维状态空间的长时域POMDP中验证有效性
- 为长时域POMDP规划提供了一种**高效在线求解新范式**,显著降低计算复杂度
- 在多个基准任务上,成功率达到**数倍于现有最先进方法( state-of-the-art)** 的水平
- 通过物理机器人实验展示了方法的实际可行性,并开源代码促进社区复现与后续研究