ChainFlow-VLA：基于视觉-语言模型的因果流规划

📝 论文摘要

当前的端到端自动驾驶系统在时间因果推理与全局轨迹一致性之间存在根本性局限。自回归模型通过因果分解捕获交互感知的时间依赖，但其逐步解码方式导致误差累积和全局结构次优。相比之下，扩散模型虽然能全局优化轨迹，却缺乏显式因果约束，在交互密集和安全关键场景中可靠性不足。这种二元对立揭示了更深层问题：现有方法将因果建模与全局优化视为独立范式，缺乏在单一轨迹分布中统一二者的原则性方式。为此，我们提出ChainFlow-VLA，在统一概率框架下融合因果生成与全局优化。我们将规划问题建模为自回归诱导模式的混合分布，并在这些模式上学习视觉语言模型条件化的残差分布。自回归生成器产生一组离散的因果轨迹模式，随后基于扩散的优化器利用视觉语言模型隐状态作为语义先验，在残差空间中执行模式条件修正，同时保持因果结构。这种直接的调节方式将高层场景理解无缝注入细粒度轨迹调整。实验表明，ChainFlow-VLA在模糊和长尾场景中实现稳健规划，在NAVSIM v1排行榜上取得94.85分的最新水平，与人类水平94.8分相当。代码将发布于https://github.com/AFARI-Research/ChainFlow-VLA。

🎯 研究动机

- 当前端到端自动驾驶系统存在**时序因果推理(temporal causal reasoning)** 与**全局轨迹一致性(global trajectory consistency)** 的根本性不匹配 - 自回归模型(autoregressive models)通过因果分解捕获交互感知的时序依赖，但逐步解码导致误差累积和次优全局结构 - 扩散模型(diffusion models)优化全局轨迹但缺乏显式因果约束，在交互和安全性关键场景中不可靠 - 现有方法将因果建模和全局优化视为分离的范式，缺乏在单一轨迹分布中统一它们的原理性方法

🔧 核心方法

- 提出**ChainFlow-VLA** 框架，在统一的概率框架内联合**因果生成(causal generation)** 和**全局精炼(global refinement)** - 将规划问题建模为**自回归(AR)诱导模式** 上的混合分布(mixture over AR-induced modes)，学习**视觉-语言模型(Vision-Language Model, VLM)** 条件化的残差分布 - 自回归生成器(**Chain**)产生离散的因果轨迹模式集合，随后扩散精炼器(**Flow**)利用VLM隐藏状态作为语义先验，在残差空间中进行模式条件校正，同时保留因果结构 - 通过简单的条件注入机制将高层场景语义理解无缝整合到细粒度轨迹调整中

💡 核心创新

- **首创性地统一因果生成和全局优化**：在一个概率框架内同时处理AR模型的因果依赖和扩散模型的全局一致性，而非分治处理 - **新颖的混合分布建模**：将规划表示为AR诱导模式上的混合，并学习VLM条件残差分布，实现模式级别的因果保持和全局校正 - **轻量级语义注入**：利用VLM隐藏状态作为语义先验进行模式条件残差校正，无需复杂设计即可融合高层场景理解 - 解决**自回归误差累积** 与**扩散缺乏因果约束** 的对立问题，首次在单一轨迹分布中实现两者互补

🏆 总体贡献

- 为自动驾驶规划提供了一种**统一因果建模与全局优化** 的新范式，克服了现有方法的分裂局限 - 在**NAVSIM v1** 排行榜上取得**94.85** 的SOTA(state-of-the-art)分数，达到人类水平(94.8)，验证了在模糊和长尾场景下的鲁棒规划能力 - 通过开源代码(https://github.com/AFARI-Research/ChainFlow-VLA)促进社区复现与后续研究 - 为**视觉-语言模型(Vision-Language Model)** 在自动驾驶轨迹规划中的高效利用提供了新思路

ChainFlow-VLA：基于视觉-语言模型的因果流规划
ChainFlow-VLA: Causal Flow Planning with Vision-Language Models

📊 核心分析

ChainFlow-VLA：基于视觉-语言模型的因果流规划 ChainFlow-VLA: Causal Flow Planning with Vision-Language Models

📊 核心分析

ChainFlow-VLA：基于视觉-语言模型的因果流规划
ChainFlow-VLA: Causal Flow Planning with Vision-Language Models