OneVL：基于视觉语言解释的一步潜在推理与规划

📝 论文摘要

思维链推理已成为基于视觉语言模型的自动驾驶轨迹预测的强大驱动力，但其自回归特性带来的延迟成本使其难以实现实时部署。潜在思维链方法试图通过将推理过程压缩至连续隐状态来弥补这一缺陷，但其性能始终未能超越显式推理方法。我们认为，这源于纯语言潜在表征仅压缩了世界的符号化抽象，而非实际支配驾驶行为的因果动态。为此，我们提出OneVL（基于视觉语言解释的单步潜在推理与规划）——一个融合视觉语言模型与世界模型的统一框架，通过受双辅助解码器监督的紧凑潜在标记实现推理路由。在重构文本思维链的语言解码器基础上，我们引入视觉世界模型解码器来预测未来帧标记，迫使潜在空间内化道路几何、智能体运动与环境变化的因果动态。通过三阶段训练流程，逐步将潜在表征与轨迹、语言及视觉目标对齐，确保稳定的联合优化。在推理阶段，辅助解码器被舍弃，所有潜在标记通过单次并行前向传播完成预填充，实现与纯答案预测相当的速度。在四个基准测试中，OneVL成为首个超越显式思维链的潜在推理方法，在保持纯答案预测延迟的同时达到最先进的精度，并直接证明：当同时接受语言与世界模型监督时，更紧密的压缩能产生比逐标记冗长推理更具泛化性的表征。项目页面：https://xiaomi-embodied-intelligence.github.io/OneVL

🎯 研究动机

该论文旨在解决基于视觉语言模型(VLA)的自动驾驶系统中，思维链(Chain-of-Thought, CoT)推理的自回归(autoregressive)特性导致的实时部署延迟问题。现有潜在思维链(Latent CoT)方法通过将推理压缩到连续隐藏状态来减少延迟，但其性能始终落后于显式推理方法。研究背景是自动驾驶需要低延迟、高精度的轨迹预测。

🔧 核心方法

论文提出了OneVL框架，这是一个统一的视觉语言模型(VLA)与世界模型(World Model)框架。其核心方法包括： - 使用紧凑的潜在令牌(latent tokens)进行推理，并通过双辅助解码器进行监督。 - 引入一个语言解码器来重建文本思维链(CoT)。 - 引入一个视觉世界模型解码器来预测未来帧令牌，迫使潜在空间内化道路几何、智能体运动和环境变化的因果动态(causal dynamics)。 - 采用三阶段训练流程，逐步将这些潜在表示与轨迹、语言和视觉目标对齐，确保稳定的联合优化。 - 在推理时，丢弃辅助解码器，所有潜在令牌在单个并行前向传播中预填充，实现与仅答案预测相当的速度。

💡 核心创新

论文的核心创新点在于： - **首次将世界模型(World Model)监督引入潜在思维链(Latent CoT)框架**：通过视觉世界模型解码器预测未来帧，强制潜在空间学习驱动场景的因果动态(causal dynamics)，而不仅仅是世界的符号抽象。这解决了现有潜在方法仅依赖纯语言表示的根本缺陷。 - **提出了语言与视觉世界模型的双重监督机制**：通过语言解码器重建文本推理链，同时通过视觉解码器预测未来视觉状态，共同引导潜在表示学习更通用、更具因果性的表征。 - **实现了性能与速度的突破**：OneVL是首个在精度上超越显式思维链(Explicit CoT)的潜在思维链方法，同时保持了仅答案预测的延迟，证明了在双重监督下，更紧凑的压缩可以产生比逐令牌(verbatim token-by-token)推理更通用的表示。

🏆 总体贡献

论文对该领域的总体贡献是： - 提出了OneVL框架，首次成功地将世界模型(World Model)的因果动态学习与潜在推理相结合，为实时高性能自动驾驶推理提供了新范式。 - 在四个基准测试上实现了最先进的(state-of-the-art)精度，同时保持了极低的推理延迟，首次证明了潜在推理方法可以超越显式推理的性能。 - 提供了直接证据，表明在语言和世界模型的双重监督下，更紧密的压缩可以产生比冗长的逐令牌推理更具泛化能力的表示，为后续高效推理模型的设计提供了重要见解。

OneVL：基于视觉语言解释的一步潜在推理与规划
OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

📊 核心分析

OneVL：基于视觉语言解释的一步潜在推理与规划 OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

📊 核心分析

OneVL：基于视觉语言解释的一步潜在推理与规划
OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation