解决主动SLAM(simultaneous localization and mapping)问题,将其重新表述为部分信息下的最优随机控制问题,以克服现有方法缺乏严格理论分析和近似最优性保证的不足。
将主动SLAM建模为非标准的部分可观测马尔可夫决策过程(POMDP),引入一种新的探索阶段代价函数(exploration stage cost),该函数在评估信息收集动作时编码了状态的几何结构,并基于此推导出具有严格理论保证的近似最优解。
提出一种编码状态几何结构的新探索阶段代价函数,将主动SLAM转化为非标准POMDP,并首次给出严格证明的近似最优解,同时建立了适用于广泛机器人应用的通用正则性条件。
为主动SLAM提供了最优随机控制的理论框架,通过严格分析推导出近似最优解,并通过数值实验验证了标准学习算法在该框架下学习近优策略的有效性,推动了SLAM问题从启发式方法向理论严谨的决策优化转变。