- 现有驾驶世界模型主要预测**外部环境(external environment)**,缺乏对**驾驶员动态(driver dynamics)** 的多步滚动预测能力
- L2/L3自动驾驶需要在**共享控制转换(shared-control transitions)** 中预测人机交互反应,但车内智能仍局限于**识别导向(recognition-oriented)**,无法进行多步展开
- 研究背景:安全自动驾驶需要同时理解外部交通和内部驾驶员状态的动态演化
- 提出**Driver-WM**,一个以驾驶员为中心的**潜在世界模型(latent world model)**,在紧凑潜在空间中滚动预测车内动态
- 采用**双流架构(dual-stream architecture)** 分别编码外部交通和内部驾驶员状态,使用来自冻结视觉语言特征的潜在表示
- 通过**门控因果注入机制(gated causal injection mechanism)** 实现方向性耦合:学习向量门控调制外部上下文扰动,同时严格强制**时间因果性(temporal causality)**
- **首创性**:首次将**因果条件(causal conditioning)** 从外部交通上下文引入驾驶员动态预测,统一了物理运动学预测与行为/情感语义识别
- **架构设计**:双流分离加门控注入,既保持内部状态独立性,又允许外部上下文影响,且严格遵循时间因果顺序
- **可控干预**:显式的外部到内部条件允许在**测试时(test-time)** 进行受控干预,系统分析机制响应
- 为驾驶世界模型领域提供了一种**以驾驶员为中心(driver-centric)** 的新范式,填补了车内动态多步预测的空白
- 在辅助驾驶基准上展示**鲁棒的长时几何预测** 和**语义对齐**,兼顾了反应性高动态机动与语义理解
- 提出可解释的因果条件化机制,便于研究驾驶员在外部干扰下的行为响应