通用世界模型(world model)在策略评估、优化和规划方面具有潜力,但其所需的鲁棒性(robustness)仍难以实现。核心挑战在于:与策略学习主要关注最优动作不同,世界模型必须在更广泛的次优动作(suboptimal actions)范围内保持可靠,而现有带动作标签的交互数据通常对此覆盖不足。
论文提出了世界动作验证器(World Action Verifier, WAV)框架,其核心方法包括:
- 将动作条件状态预测(action-conditioned state prediction)分解为两个因子:状态合理性(state plausibility)和动作可达性(action reachability),并分别进行验证。
- 利用两种不对称性(asymmetry):动作无关数据(action-free data)的广泛可用性和动作相关特征(action-relevant features)的低维性。
- 具体实现上,为世界模型增强两个组件:(i) 从视频语料库(video corpora)中获得的多样化子目标生成器(diverse subgoal generator);(ii) 从状态特征子集推断动作的稀疏逆模型(sparse inverse model)。
- 通过在生成的子目标、推断的动作和前向推演(forward rollouts)之间强制执行循环一致性(cycle consistency),在探索不足的区域(under-explored regimes)提供有效的验证机制。
论文的核心创新点在于:
- **提出了前向-逆向不对称性(forward-inverse asymmetry)的概念**,并系统性地利用它来简化世界模型的验证问题,而非直接预测未来状态。
- **首创了将动作条件状态预测分解为状态合理性和动作可达性两个独立验证问题**的框架,这比直接预测未来状态更简单、更可靠。
- **设计了基于循环一致性的自改进(self-improving)机制**,使世界模型能够在数据覆盖不足的区域识别自身预测错误并进行自我修正,这显著区别于依赖大量标注交互数据的传统方法。
论文对该领域的总体贡献是:
- 提出了一个新颖的、可扩展的世界模型自改进框架(WAV),有效解决了在次优动作区域模型可靠性不足的普遍难题。
- 从理论和实验上验证了利用前向-逆向不对称性来提升世界模型样本效率和鲁棒性的有效性。
- 在MiniGrid、RoboMimic和ManiSkill的九个任务上取得了显著的性能提升:样本效率(sample efficiency)提高2倍,下游策略性能提升18%。
- 为构建更鲁棒、更通用的世界模型提供了一种新的方法论,推动了从被动建模到主动自我验证与改进的范式转变。