该论文旨在解决基于视觉语言模型(VLA)的自动驾驶系统中,思维链(Chain-of-Thought, CoT)推理的自回归(autoregressive)特性导致的实时部署延迟问题。现有潜在思维链(Latent CoT)方法通过将推理压缩到连续隐藏状态来减少延迟,但其性能始终落后于显式推理方法。研究背景是自动驾驶需要低延迟、高精度的轨迹预测。
论文提出了OneVL框架,这是一个统一的视觉语言模型(VLA)与世界模型(World Model)框架。其核心方法包括:
- 使用紧凑的潜在令牌(latent tokens)进行推理,并通过双辅助解码器进行监督。
- 引入一个语言解码器来重建文本思维链(CoT)。
- 引入一个视觉世界模型解码器来预测未来帧令牌,迫使潜在空间内化道路几何、智能体运动和环境变化的因果动态(causal dynamics)。
- 采用三阶段训练流程,逐步将这些潜在表示与轨迹、语言和视觉目标对齐,确保稳定的联合优化。
- 在推理时,丢弃辅助解码器,所有潜在令牌在单个并行前向传播中预填充,实现与仅答案预测相当的速度。
论文的核心创新点在于:
- **首次将世界模型(World Model)监督引入潜在思维链(Latent CoT)框架**:通过视觉世界模型解码器预测未来帧,强制潜在空间学习驱动场景的因果动态(causal dynamics),而不仅仅是世界的符号抽象。这解决了现有潜在方法仅依赖纯语言表示的根本缺陷。
- **提出了语言与视觉世界模型的双重监督机制**:通过语言解码器重建文本推理链,同时通过视觉解码器预测未来视觉状态,共同引导潜在表示学习更通用、更具因果性的表征。
- **实现了性能与速度的突破**:OneVL是首个在精度上超越显式思维链(Explicit CoT)的潜在思维链方法,同时保持了仅答案预测的延迟,证明了在双重监督下,更紧凑的压缩可以产生比逐令牌(verbatim token-by-token)推理更通用的表示。
论文对该领域的总体贡献是:
- 提出了OneVL框架,首次成功地将世界模型(World Model)的因果动态学习与潜在推理相结合,为实时高性能自动驾驶推理提供了新范式。
- 在四个基准测试上实现了最先进的(state-of-the-art)精度,同时保持了极低的推理延迟,首次证明了潜在推理方法可以超越显式推理的性能。
- 提供了直接证据,表明在语言和世界模型的双重监督下,更紧密的压缩可以产生比冗长的逐令牌推理更具泛化能力的表示,为后续高效推理模型的设计提供了重要见解。