- 当前端到端自动驾驶系统存在**时序因果推理(temporal causal reasoning)** 与**全局轨迹一致性(global trajectory consistency)** 的根本性不匹配
- 自回归模型(autoregressive models)通过因果分解捕获交互感知的时序依赖,但逐步解码导致误差累积和次优全局结构
- 扩散模型(diffusion models)优化全局轨迹但缺乏显式因果约束,在交互和安全性关键场景中不可靠
- 现有方法将因果建模和全局优化视为分离的范式,缺乏在单一轨迹分布中统一它们的原理性方法
- 提出**ChainFlow-VLA** 框架,在统一的概率框架内联合**因果生成(causal generation)** 和**全局精炼(global refinement)**
- 将规划问题建模为**自回归(AR)诱导模式** 上的混合分布(mixture over AR-induced modes),学习**视觉-语言模型(Vision-Language Model, VLM)** 条件化的残差分布
- 自回归生成器(**Chain**)产生离散的因果轨迹模式集合,随后扩散精炼器(**Flow**)利用VLM隐藏状态作为语义先验,在残差空间中进行模式条件校正,同时保留因果结构
- 通过简单的条件注入机制将高层场景语义理解无缝整合到细粒度轨迹调整中
- **首创性地统一因果生成和全局优化**:在一个概率框架内同时处理AR模型的因果依赖和扩散模型的全局一致性,而非分治处理
- **新颖的混合分布建模**:将规划表示为AR诱导模式上的混合,并学习VLM条件残差分布,实现模式级别的因果保持和全局校正
- **轻量级语义注入**:利用VLM隐藏状态作为语义先验进行模式条件残差校正,无需复杂设计即可融合高层场景理解
- 解决**自回归误差累积** 与**扩散缺乏因果约束** 的对立问题,首次在单一轨迹分布中实现两者互补
- 为自动驾驶规划提供了一种**统一因果建模与全局优化** 的新范式,克服了现有方法的分裂局限
- 在**NAVSIM v1** 排行榜上取得**94.85** 的SOTA(state-of-the-art)分数,达到人类水平(94.8),验证了在模糊和长尾场景下的鲁棒规划能力
- 通过开源代码(https://github.com/AFARI-Research/ChainFlow-VLA)促进社区复现与后续研究
- 为**视觉-语言模型(Vision-Language Model)** 在自动驾驶轨迹规划中的高效利用提供了新思路