- 现有的**潜在模型预测控制(Latent MPC)** 中,候选序列通过预测的终端潜在状态与目标潜在状态之间的**欧几里得距离(Euclidean distance)** 排序,但原始潜在距离无法正确加权与可达性相关的变量,导致规划器获得错误信息
- **潜在世界模型(latent world model)** 的终端成本接口可能暴露给规划器错误的决策相关信息,使得长时域规划性能严重受限
- 在TwoRoom等硬基准上,原始潜在规划成功率仅7.0%,说明现有方法在处理远距离、多阶段任务时存在根本性缺陷
- 提出**轨迹可达性度量(Trajectory Reachability Metrics, TRM)**,一种事后终端排序方法,通过从记录轨迹结构中训练一个小型的**成对头部(pairwise head)**,将其用作原始潜在距离的替代或混合成本
- 关键设计是**时域感知监督(horizon-aware supervision)**:在广泛且平衡的时间间隔上训练度量,使其匹配长时域终端候选排序问题
- 固定原始世界模型的编码器、动力学模型、采样器、优化器和评估指标,仅替换终端排序度量,实现即插即用修复
- **独创性**:首次提出通过事后训练的**可达性度量** 修复固定潜在世界模型的终端排序,而非修改模型本身,是一种规划器面向的轻量级修复
- **时域匹配**:与现有工作不同,TRM在**平衡的时域分离(broad, balanced temporal separations)** 上训练,直接匹配长时域终端候选排序问题,短期变体效果差(35.0% vs 100k样本预算下的97.0%)
- **机械证据**:在TwoRoom中提供深入分析——XY位置可线性解码(R²=0.998),但原始潜在均方误差(MSE)误排名;XY探针行空间仅占终端-目标潜在MSE的不到1%,却承载大部分候选质量信号;**SCSA审计** 显示TRM改善了规划器看到的排序和所选终点
- 为**潜在世界模型(latent world model)** 提供了一种规划器面向的修复方法,通过可达性度量替代或增强原始潜在接近度,显著提升长时域规划性能(TwoRoom: 7.0%→97.0%,PLDM: 32.7%→84.0%)
- 在连续操作任务(PushT)中验证了TRM风格的**任务状态度量(task-state metrics)** 可改善SCSA排名和所选最终距离,推动在连续操作中使用辅助混合成本
- 提供了一套**审计工具(audit tools)** (如SCSA)帮助解释何时终端可达性度量应该替换或增强原始潜在接近度,为未来研究提供诊断框架