基于折扣活性公式的操作策略离线评估

📝 论文摘要

策略评估是机器人策略开发与部署流程中的基础环节。在现代操控系统中，该问题尤为棘手：奖励通常稀疏，评估轨迹的任务进展因策略呈现恢复行为而常非单调，且评估轨迹必然具有有限长度。这种有限长度引入了截断偏差，打破了依赖贝尔曼方程/最优性原则的标准方法所基于的无限视界假设。在本工作中，我们提出了一种基于活跃性贝尔曼算子的稀疏奖励离线策略评估框架。我们的表述将策略评估解释为任务完成问题，并生成一个对有限视界截断具有鲁棒性的保守不动点价值函数。我们分析了所提出算子的理论性质，包括收缩保证，并展示了它如何在缓解截断偏差的同时编码任务进展。我们在两个模拟操控任务上评估了我们的方法，分别使用视觉-语言-动作模型和扩散策略，以及一个使用人类演示的布料折叠任务。实证结果表明，我们的方法更准确地反映了任务进展，并显著减少了截断偏差，优于TD(0)和蒙特卡洛策略评估等经典基线方法。

🎯 研究动机

- 机器人操作策略的离线评估面临**稀疏奖励(sparse rewards)** 和**非单调任务进展(non-monotonic task progression)** 的挑战 - 评估回滚的有限长度引入**截断偏差(truncation bias)**，破坏基于**贝尔曼方程(Bellman equation)** 的标准方法的无限视野假设 - 现有方法如**TD(0)** 和**蒙特卡洛策略评估(Monte Carlo policy evaluation)** 无法有效处理上述问题

🔧 核心方法

- 提出基于**活性公式(liveness formulation)** 的**贝尔曼算子(Bellman operator)**，将策略评估重新解释为**任务完成问题(task-completion problem)** - 通过该算子生成**保守定点值函数(conservative fixed-point value function)**，对有限视野截断具有鲁棒性 - 理论分析了算子的**收缩保证(contraction guarantees)**，并展示了如何编码任务进展的同时缓解截断偏差 - 在模拟操作任务中使用**视觉-语言-动作模型(Vision-Language-Action, VLA)** 和**扩散策略(diffusion policy)**，以及真实布料折叠数据进行评估

💡 核心创新

- **首次** 提出将**活性公式(discounted liveness formulation)** 应用于离线策略评估，专门应对有限视野截断偏差 - 通过**保守值函数(conservative value function)** 建模任务完成过程，避免了非单调恢复行为导致的评估偏差 - 相比经典基线（TD(0)、蒙特卡洛），本方法在稀疏奖励下更准确地反映任务进展，并显著减少截断偏差

🏆 总体贡献

- 为机器人操作策略的离线评估提供了一种**理论严谨的框架**，具有收缩保证和鲁棒性 - 在多个任务（模拟和真实）上验证了方法的有效性，优于现有标准方法 - 为解决有限视野截断偏差问题提供了新的视角（活性公式），推动该领域方法论发展

基于折扣活性公式的操作策略离线评估
Offline Policy Evaluation for Manipulation Policies via Discounted Liveness Formulation

📊 核心分析

基于折扣活性公式的操作策略离线评估 Offline Policy Evaluation for Manipulation Policies via Discounted Liveness Formulation

📊 核心分析

基于折扣活性公式的操作策略离线评估
Offline Policy Evaluation for Manipulation Policies via Discounted Liveness Formulation