快速且长远的思考：通过快速状态采样实现长时域在线POMDP规划

Think Fast and Far: Long-Horizon Online POMDP Planning via Rapid State Sampling

作者: Yuanchu Liang, Edward Kim, J. Arden Knoll 等7人

arXiv: 2606.04355

分类: cs.RO

📝 论文摘要

部分可观测马尔可夫决策过程（POMDP）是不确定性下运动规划的一个通用且原则性的框架。尽管POMDP求解器的可扩展性得到了极大提升，但长时域POMDP仍然难以求解。为缓解这一困难，本文提出了一种新的近似在线POMDP求解器，称为基于参考的快速状态空间采样在线POMDP规划（ROP-RAS3）。ROP-RAS3利用新颖的极快基于采样的运动规划技术对状态空间进行采样，并在线生成多样化的宏动作集合，继而利用这些宏动作偏置信念空间采样，从而无需对动作空间进行穷举枚举——这一枚举是现代在线POMDP求解器的基本约束——即可推断出高质量策略。ROP-RAS3以依赖于采样动作数量（而非动作空间大小）的速率收敛到近最优的基于参考的解。我们在各种长时域POMDP上评估了ROP-RAS3，其前瞻步数高达3000步，状态空间维度达35维，其中状态、动作和观测空间可以是连续的、离散的，或离散与连续的混合。尽管基于参考的最优解可能与POMDP的最优解不同，但实验结果表明，在所有这些问题中，ROP-RAS3在成功率方面比其他最先进方法高出数倍。我们还通过物理机器人演示展示了该方法的能力。本文扩展了我们在ISRR24会议论文中的理论与实验结果。代码见 \texttt{https://github.com/RDLLab/ROPRAS3}。

📊 核心分析

🎯 研究动机

- 解决**部分可观测马尔可夫决策过程(POMDP)** 在**长时域(long-horizon)** 运动规划中难以求解的问题 - 现有在线POMDP求解器虽然扩展性有所提升，但在长时域场景下仍存在显著困难 - 背景：POMDP是不确定环境下运动规划的通用框架，但动作空间枚举限制了在线求解的效率

🔧 核心方法

- 提出**参考驱动在线POMDP规划与快速状态空间采样(ROP-RAS3)**，一种新的近似在线POMDP求解器 - 利用**极快采样运动规划技术** 在线采样状态空间并生成多种**宏动作(macro actions)**，用于指导信念空间采样 - 通过参考动作集偏置搜索，避免对完整动作空间的穷举枚举，收敛速度取决于采样动作数量而非动作空间大小

💡 核心创新

- **首次将快速采样运动规划技术** 与在线POMDP规划结合，实现长时域高效信念空间搜索 - **动作空间免枚举**：突破现代在线POMDP求解器对动作空间完整枚举的依赖，仅需采样有限动作即可逼近近优解 - **支持连续/离散/混合状态与动作空间**，并在高达3000步前瞻和35维状态空间的长时域POMDP中验证有效性

🏆 总体贡献

- 为长时域POMDP规划提供了一种**高效在线求解新范式**，显著降低计算复杂度 - 在多个基准任务上，成功率达到**数倍于现有最先进方法( state-of-the-art)** 的水平 - 通过物理机器人实验展示了方法的实际可行性，并开源代码促进社区复现与后续研究