← 返回论文列表

Driver-WM:一种以驾驶者为中心、以交通状况为条件的车内动力学推演潜在世界模型
Driver-WM: A Driver-Centric Traffic-Conditioned Latent World Model for In-Cabin Dynamics Rollout

作者: Haozhuang Chi, Daosheng Qiu, Hao Su 等7人
arXiv: 2605.05092v1
分类: cs.RO, cs.AI, cs.CV
📝 论文摘要
安全的L2/L3自动驾驶要求在共享控制切换期间预测人在环反应。尽管大多数驾驶世界模型对外部环境进行预测,但座舱智能仍严格面向识别,缺乏对驾驶员动态的多步展开能力。我们提出Driver-WM,这是一种以驾驶员为中心的潜在世界模型,以座舱外交通环境为因果条件展开座舱动态。该框架将物理运动学预测与辅助的行为及情感语义识别相统一。在由冻结的视觉-语言特征构建的紧凑潜在空间中运行,Driver-WM采用双流架构分别编码外部交通与内部驾驶员状态。这些流通过门控因果注入机制实现定向耦合,该机制利用学习到的向量门调节外部环境扰动,同时严格保持时间因果性。在多任务辅助驾驶基准上的评估表明,Driver-WM能够对反应性高动态操作进行鲁棒的长期几何预测,并改善驾驶员与交通状态的语义对齐。最后,明确的外-内条件化使得能够在测试时进行受控干预,以系统性分析机制响应。

📊 核心分析

🎯 研究动机
- 现有驾驶世界模型主要预测**外部环境(external environment)**,缺乏对**驾驶员动态(driver dynamics)** 的多步滚动预测能力 - L2/L3自动驾驶需要在**共享控制转换(shared-control transitions)** 中预测人机交互反应,但车内智能仍局限于**识别导向(recognition-oriented)**,无法进行多步展开 - 研究背景:安全自动驾驶需要同时理解外部交通和内部驾驶员状态的动态演化
🔧 核心方法
- 提出**Driver-WM**,一个以驾驶员为中心的**潜在世界模型(latent world model)**,在紧凑潜在空间中滚动预测车内动态 - 采用**双流架构(dual-stream architecture)** 分别编码外部交通和内部驾驶员状态,使用来自冻结视觉语言特征的潜在表示 - 通过**门控因果注入机制(gated causal injection mechanism)** 实现方向性耦合:学习向量门控调制外部上下文扰动,同时严格强制**时间因果性(temporal causality)**
💡 核心创新
- **首创性**:首次将**因果条件(causal conditioning)** 从外部交通上下文引入驾驶员动态预测,统一了物理运动学预测与行为/情感语义识别 - **架构设计**:双流分离加门控注入,既保持内部状态独立性,又允许外部上下文影响,且严格遵循时间因果顺序 - **可控干预**:显式的外部到内部条件允许在**测试时(test-time)** 进行受控干预,系统分析机制响应
🏆 总体贡献
- 为驾驶世界模型领域提供了一种**以驾驶员为中心(driver-centric)** 的新范式,填补了车内动态多步预测的空白 - 在辅助驾驶基准上展示**鲁棒的长时几何预测** 和**语义对齐**,兼顾了反应性高动态机动与语义理解 - 提出可解释的因果条件化机制,便于研究驾驶员在外部干扰下的行为响应