← 返回论文列表

超越欧几里得邻近性:用水平匹配轨迹可达性度量修复潜在世界模型
Beyond Euclidean Proximity: Repairing Latent World Models with Horizon-Matched Trajectory Reachability Metrics

作者: Liangyu Li, Shengzhi Wang, Qingwen Liu
arXiv: 2605.22164v1
分类: cs.LG, cs.RO
📝 论文摘要
潜在世界模型可以包含控制所需的状态,但其终端成本接口可能会向规划器暴露错误的决策相关信息。在常见的潜在MPC中,候选序列通过预测终端潜在状态与目标潜在状态之间的欧氏距离进行排序;这假设原始潜在距离能够正确加权与可达性相关的变量。我们提出轨迹可达性度量(TRM),一种针对固定潜在世界模型的事后终端排序方法。TRM从记录的轨迹结构中训练一个小型成对预测头,并将其用作替代或混合成本;编码器、动力学、采样器、优化器和评估框架保持不变。关键设计选择是时域感知监督:该度量在广泛且平衡的时间间隔上进行训练,以匹配长期终端候选排序问题。在困难的TwoRoom基准测试中,使用LeWorldModel(LeWM)的原始潜在规划达到7.0%的成功率,而全时域TRM达到97.0%;打乱时间标签的控制组保持在0.0%。同样的方法将PLDM基线从32.7%提高到84.0%(三个种子),而短时域TRM变体在10万对预算下仅达到35.0%。在TwoRoom中,我们提供了TRM为何有效的机制证据:XY位置是线性可解码的(R²=0.998),但原始潜在MSE对候选排序错误;XY探针行空间占终端-目标潜在MSE的比例不到1%,却携带了大部分候选质量信号;SCSA审计显示,TRM改善了规划器看到的排序和所选端点。在PushT go50/go75任务中,TRM风格的任务状态度量比闭环成功率更清晰地提升了SCSA排序和所选最终距离,这激发了连续操作中辅助混合成本的使用。TRM是针对规划器的修复,审计解释了何时终端可达性度量应替代或增强原始潜在邻近性。

📊 核心分析

🎯 研究动机
- 现有的**潜在模型预测控制(Latent MPC)** 中,候选序列通过预测的终端潜在状态与目标潜在状态之间的**欧几里得距离(Euclidean distance)** 排序,但原始潜在距离无法正确加权与可达性相关的变量,导致规划器获得错误信息 - **潜在世界模型(latent world model)** 的终端成本接口可能暴露给规划器错误的决策相关信息,使得长时域规划性能严重受限 - 在TwoRoom等硬基准上,原始潜在规划成功率仅7.0%,说明现有方法在处理远距离、多阶段任务时存在根本性缺陷
🔧 核心方法
- 提出**轨迹可达性度量(Trajectory Reachability Metrics, TRM)**,一种事后终端排序方法,通过从记录轨迹结构中训练一个小型的**成对头部(pairwise head)**,将其用作原始潜在距离的替代或混合成本 - 关键设计是**时域感知监督(horizon-aware supervision)**:在广泛且平衡的时间间隔上训练度量,使其匹配长时域终端候选排序问题 - 固定原始世界模型的编码器、动力学模型、采样器、优化器和评估指标,仅替换终端排序度量,实现即插即用修复
💡 核心创新
- **独创性**:首次提出通过事后训练的**可达性度量** 修复固定潜在世界模型的终端排序,而非修改模型本身,是一种规划器面向的轻量级修复 - **时域匹配**:与现有工作不同,TRM在**平衡的时域分离(broad, balanced temporal separations)** 上训练,直接匹配长时域终端候选排序问题,短期变体效果差(35.0% vs 100k样本预算下的97.0%) - **机械证据**:在TwoRoom中提供深入分析——XY位置可线性解码(R²=0.998),但原始潜在均方误差(MSE)误排名;XY探针行空间仅占终端-目标潜在MSE的不到1%,却承载大部分候选质量信号;**SCSA审计** 显示TRM改善了规划器看到的排序和所选终点
🏆 总体贡献
- 为**潜在世界模型(latent world model)** 提供了一种规划器面向的修复方法,通过可达性度量替代或增强原始潜在接近度,显著提升长时域规划性能(TwoRoom: 7.0%→97.0%,PLDM: 32.7%→84.0%) - 在连续操作任务(PushT)中验证了TRM风格的**任务状态度量(task-state metrics)** 可改善SCSA排名和所选最终距离,推动在连续操作中使用辅助混合成本 - 提供了一套**审计工具(audit tools)** (如SCSA)帮助解释何时终端可达性度量应该替换或增强原始潜在接近度,为未来研究提供诊断框架