- 解决**部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)** 中**蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)** 的**有限时间(finite-time)** 理论分析问题
- 现有MCTS类求解器(如POMCP)在应用中取得经验成功,但由于启发式动作选择(如UCB)导致的**非平稳性(nonstationarity)** 和**相互依赖性(interdependencies)**,严格的有限时间保证仍是一个开放问题
- 填补连续观测空间下POMDP规划的理论分析空白,同时也适用于连续马尔可夫决策过程(MDP)
- 在**离散观测空间** 下,将**多项式探索奖励(polynomial exploration bonus)** 扩展到**上置信界(Upper Confidence Bound, UCB)** 在POMDP中的设置,得到根节点经验值估计的多项式浓度界
- 针对**连续观测空间**,引入一个**抽象划分框架(abstract partitioning framework)**,并提出划分损失(partitioning loss)的有限时间界
- 提出**Voro-POMCPOW** 算法,它使用**Voronoi单元(Voronoi cells)** 自适应地划分连续观测空间,保持有限分支因子并保留原始观测生成器
- **首次** 为连续观测空间下的POMDP规划提供**有限时间保证(finite-time guarantees)**,在温和条件下证明值估计的高概率界
- **Voronoi自适应划分**:将连续观测空间离散化为Voronoi单元,在保证有限分支因子的同时不损失观测生成器的表达能力
- **理论普适性**:所发展的技术不仅适用于连续POMDP,还能推广到连续MDP,填补了MDP侧的另一个理论空白
- 为POMDP中MCTS类算法提供了首个系统的**有限时间分析(finite-time analysis)**,推导了离散和连续观测空间下的概率浓度界
- 提出**Voro-POMCPOW** 算法,在保持竞争力性能的同时提供**理论保证(theoretical guarantees)**
- 推动了**连续空间规划(continuous-space planning)** 的理论基础,为后续基于MCTS的POMDP求解器提供了分析框架