Driver-WM：一种以驾驶者为中心、以交通状况为条件的车内动力学推演潜在世界模型

📝 论文摘要

安全的L2/L3自动驾驶要求在共享控制切换期间预测人在环反应。尽管大多数驾驶世界模型对外部环境进行预测，但座舱智能仍严格面向识别，缺乏对驾驶员动态的多步展开能力。我们提出Driver-WM，这是一种以驾驶员为中心的潜在世界模型，以座舱外交通环境为因果条件展开座舱动态。该框架将物理运动学预测与辅助的行为及情感语义识别相统一。在由冻结的视觉-语言特征构建的紧凑潜在空间中运行，Driver-WM采用双流架构分别编码外部交通与内部驾驶员状态。这些流通过门控因果注入机制实现定向耦合，该机制利用学习到的向量门调节外部环境扰动，同时严格保持时间因果性。在多任务辅助驾驶基准上的评估表明，Driver-WM能够对反应性高动态操作进行鲁棒的长期几何预测，并改善驾驶员与交通状态的语义对齐。最后，明确的外-内条件化使得能够在测试时进行受控干预，以系统性分析机制响应。

🎯 研究动机

- 现有驾驶世界模型主要预测**外部环境(external environment)**，缺乏对**驾驶员动态(driver dynamics)** 的多步滚动预测能力 - L2/L3自动驾驶需要在**共享控制转换(shared-control transitions)** 中预测人机交互反应，但车内智能仍局限于**识别导向(recognition-oriented)**，无法进行多步展开 - 研究背景：安全自动驾驶需要同时理解外部交通和内部驾驶员状态的动态演化

🔧 核心方法

- 提出**Driver-WM**，一个以驾驶员为中心的**潜在世界模型(latent world model)**，在紧凑潜在空间中滚动预测车内动态 - 采用**双流架构(dual-stream architecture)** 分别编码外部交通和内部驾驶员状态，使用来自冻结视觉语言特征的潜在表示 - 通过**门控因果注入机制(gated causal injection mechanism)** 实现方向性耦合：学习向量门控调制外部上下文扰动，同时严格强制**时间因果性(temporal causality)**

💡 核心创新

- **首创性**：首次将**因果条件(causal conditioning)** 从外部交通上下文引入驾驶员动态预测，统一了物理运动学预测与行为/情感语义识别 - **架构设计**：双流分离加门控注入，既保持内部状态独立性，又允许外部上下文影响，且严格遵循时间因果顺序 - **可控干预**：显式的外部到内部条件允许在**测试时(test-time)** 进行受控干预，系统分析机制响应

🏆 总体贡献

- 为驾驶世界模型领域提供了一种**以驾驶员为中心(driver-centric)** 的新范式，填补了车内动态多步预测的空白 - 在辅助驾驶基准上展示**鲁棒的长时几何预测** 和**语义对齐**，兼顾了反应性高动态机动与语义理解 - 提出可解释的因果条件化机制，便于研究驾驶员在外部干扰下的行为响应

Driver-WM：一种以驾驶者为中心、以交通状况为条件的车内动力学推演潜在世界模型
Driver-WM: A Driver-Centric Traffic-Conditioned Latent World Model for In-Cabin Dynamics Rollout

📊 核心分析

Driver-WM：一种以驾驶者为中心、以交通状况为条件的车内动力学推演潜在世界模型 Driver-WM: A Driver-Centric Traffic-Conditioned Latent World Model for In-Cabin Dynamics Rollout

📊 核心分析

Driver-WM：一种以驾驶者为中心、以交通状况为条件的车内动力学推演潜在世界模型
Driver-WM: A Driver-Centric Traffic-Conditioned Latent World Model for In-Cabin Dynamics Rollout