← 返回论文列表

世界行动验证器:通过前向-逆向不对称性实现自我改进的世界模型
World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry

作者: Yuejiang Liu, Fan Feng, Lingjing Kong 等9人
arXiv: 2604.01985v1
分类: cs.LG, cs.AI, cs.RO
📝 论文摘要
通用世界模型有望实现可扩展的策略评估、优化与规划,但其所需的鲁棒性水平仍具挑战。与主要关注最优动作的策略学习不同,世界模型必须在更广泛的次优动作范围内保持可靠性,而这些动作在带动作标签的交互数据中往往覆盖不足。为解决这一难题,我们提出世界动作验证器(WAV)框架,使世界模型能够识别自身预测错误并实现自我改进。其核心思想是将动作条件状态预测分解为两个因子——状态合理性与动作可达性——并分别进行验证。研究表明,由于两种内在不对称性(无动作数据的广泛可得性,以及动作相关特征的低维特性),这些验证问题可能比预测未来状态简单得多。基于这些不对称性,我们通过以下方式增强世界模型:(1)从视频语料库中获取的多样化子目标生成器;(2)从状态特征子集推断动作的稀疏逆模型。通过在生成的子目标、推断动作与前向推演之间强制保持循环一致性,WAV为探索不足区域提供了有效的验证机制,而现有方法通常在此类场景中失效。在涵盖MiniGrid、RoboMimic和ManiSkill的九项任务中,我们的方法实现了2倍的样本效率提升,同时将下游策略性能提高了18%。

📊 核心分析

🎯 研究动机
通用世界模型(world model)在策略评估、优化和规划方面具有潜力,但其所需的鲁棒性(robustness)仍难以实现。核心挑战在于:与策略学习主要关注最优动作不同,世界模型必须在更广泛的次优动作(suboptimal actions)范围内保持可靠,而现有带动作标签的交互数据通常对此覆盖不足。
🔧 核心方法
论文提出了世界动作验证器(World Action Verifier, WAV)框架,其核心方法包括: - 将动作条件状态预测(action-conditioned state prediction)分解为两个因子:状态合理性(state plausibility)和动作可达性(action reachability),并分别进行验证。 - 利用两种不对称性(asymmetry):动作无关数据(action-free data)的广泛可用性和动作相关特征(action-relevant features)的低维性。 - 具体实现上,为世界模型增强两个组件:(i) 从视频语料库(video corpora)中获得的多样化子目标生成器(diverse subgoal generator);(ii) 从状态特征子集推断动作的稀疏逆模型(sparse inverse model)。 - 通过在生成的子目标、推断的动作和前向推演(forward rollouts)之间强制执行循环一致性(cycle consistency),在探索不足的区域(under-explored regimes)提供有效的验证机制。
💡 核心创新
论文的核心创新点在于: - **提出了前向-逆向不对称性(forward-inverse asymmetry)的概念**,并系统性地利用它来简化世界模型的验证问题,而非直接预测未来状态。 - **首创了将动作条件状态预测分解为状态合理性和动作可达性两个独立验证问题**的框架,这比直接预测未来状态更简单、更可靠。 - **设计了基于循环一致性的自改进(self-improving)机制**,使世界模型能够在数据覆盖不足的区域识别自身预测错误并进行自我修正,这显著区别于依赖大量标注交互数据的传统方法。
🏆 总体贡献
论文对该领域的总体贡献是: - 提出了一个新颖的、可扩展的世界模型自改进框架(WAV),有效解决了在次优动作区域模型可靠性不足的普遍难题。 - 从理论和实验上验证了利用前向-逆向不对称性来提升世界模型样本效率和鲁棒性的有效性。 - 在MiniGrid、RoboMimic和ManiSkill的九个任务上取得了显著的性能提升:样本效率(sample efficiency)提高2倍,下游策略性能提升18%。 - 为构建更鲁棒、更通用的世界模型提供了一种新的方法论,推动了从被动建模到主动自我验证与改进的范式转变。