- 机器人操作策略的离线评估面临**稀疏奖励(sparse rewards)** 和**非单调任务进展(non-monotonic task progression)** 的挑战
- 评估回滚的有限长度引入**截断偏差(truncation bias)**,破坏基于**贝尔曼方程(Bellman equation)** 的标准方法的无限视野假设
- 现有方法如**TD(0)** 和**蒙特卡洛策略评估(Monte Carlo policy evaluation)** 无法有效处理上述问题
- 提出基于**活性公式(liveness formulation)** 的**贝尔曼算子(Bellman operator)**,将策略评估重新解释为**任务完成问题(task-completion problem)**
- 通过该算子生成**保守定点值函数(conservative fixed-point value function)**,对有限视野截断具有鲁棒性
- 理论分析了算子的**收缩保证(contraction guarantees)**,并展示了如何编码任务进展的同时缓解截断偏差
- 在模拟操作任务中使用**视觉-语言-动作模型(Vision-Language-Action, VLA)** 和**扩散策略(diffusion policy)**,以及真实布料折叠数据进行评估
- **首次** 提出将**活性公式(discounted liveness formulation)** 应用于离线策略评估,专门应对有限视野截断偏差
- 通过**保守值函数(conservative value function)** 建模任务完成过程,避免了非单调恢复行为导致的评估偏差
- 相比经典基线(TD(0)、蒙特卡洛),本方法在稀疏奖励下更准确地反映任务进展,并显著减少截断偏差
- 为机器人操作策略的离线评估提供了一种**理论严谨的框架**,具有收缩保证和鲁棒性
- 在多个任务(模拟和真实)上验证了方法的有效性,优于现有标准方法
- 为解决有限视野截断偏差问题提供了新的视角(活性公式),推动该领域方法论发展