解决移动机器人在复杂室内环境(如包含货架、桌子、床等多种家具)中高效定位目标物体的挑战。该挑战源于定位误差、视野受限和视觉遮挡等因素。
将物体搜索任务建模为一个具有增长状态空间和混合(连续与离散)动作空间的高维部分可观测马尔可夫决策过程(POMDP)。提出了一种名为增长神经过程过滤k中心聚类树(GNPF-kCT)的新型在线POMDP求解器,其核心组件包括:
- 基于蒙特卡洛树搜索(MCTS)并重用信念树来处理增长状态空间。
- 使用神经过程网络过滤无用的原始动作。
- 采用k中心聚类超球面离散化来高效细化高维动作空间。
- 设计了一种改进的上置信界(UCB)公式,该公式结合了信念差异和单元内的动作价值函数来指导MCTS扩展。
- 引入了一种基于网格世界模型的猜测目标物体策略,以应对信息或奖励有限的情况。
1. **问题建模创新**:首次将3D环境中的物体搜索任务明确建模为具有**增长状态空间(growing state space)**和**混合动作域(hybrid action domain)**的高维POMDP问题,更贴合机器人探索未知环境的实际。
2. **求解器设计创新**:提出了GNPF-kCT求解器,其独特之处在于将**神经过程网络(neural process network)**作为过滤器与**k中心聚类(k-center clustering)**动作离散化相结合,并设计了**信念树重用(belief tree reuse)**机制,共同应对高维、混合动作空间和状态增长的挑战。
3. **搜索策略创新**:引入了“猜测目标物体”的启发式策略,并采用网格世界模型进行辅助,有效提升了在初始信息匮乏情况下的搜索效率。
4. **理论保证**:提供了理论分析,验证了方法的收敛性和性能潜力。
1. **提出了一套完整的解决方案**:为复杂室内环境下的机器人物体搜索任务提供了一个从问题建模(高维POMDP)、在线求解(GNPF-kCT算法)到效率提升策略(猜测目标)的完整框架。
2. **算法性能优越**:在相同的计算和感知约束下,Gazebo仿真和真实办公室环境测试均表明,该方法在搜索速度和可靠性上超越了基于POMDP的基线方法和最先进的非POMDP求解器(包括基于大语言模型(LLM)的方法)。
3. **推动了领域发展**:通过处理增长状态空间和混合动作域这一更具一般性的POMDP问题,为移动机器人在动态、未知环境中的决策规划提供了新的思路和可验证的有效工具。