《驾驭之道：视觉-语言-动作模型在个性化驾驶中的偏好对齐》

📝 论文摘要

人类驾驶行为具有鲜明的个人特征，既受长期习惯塑造，又受短期意图影响。不同个体在加速、制动、并线、让行与超车等场景中均表现出差异性。然而，现有的端到端自动驾驶系统要么优化通用目标，要么依赖固定驾驶模式，既无法适配个体偏好，也难以解析自然语言意图。为填补这一空白，我们提出"随我驾驶"（DMW）——一个融合视觉-语言-动作的个性化驾驶框架，既能适应用户长期驾驶习惯，又可响应实时指令。DMW通过多驾驶员真实场景数据集学习用户嵌入表征，在规划阶段以此嵌入向量调节策略模型，同时借助自然语言指令提供短期引导。在Bench2Drive基准测试中的闭环评估表明，DMW显著提升了驾驶风格指令适配能力；用户研究证实其生成行为可被识别为对应驾驶员的独特风格，彰显个性化作为人本自动驾驶核心能力的价值。项目数据与代码已开源：https://dmw-cvpr.github.io/。

🎯 研究动机

现有端到端自动驾驶系统存在两个主要问题： - 要么优化通用目标，要么依赖固定的驾驶模式 - 缺乏适应个体驾驶偏好或理解自然语言意图的能力研究背景：人类驾驶行为具有高度个性化特征，由长期习惯塑造并受短期意图影响，不同个体在加速、刹车、并线、让行和超车等行为上存在显著差异。

🔧 核心方法

论文提出了Drive My Way (DMW)框架，这是一个个性化的视觉-语言-动作(Vision-Language-Action, VLA)驾驶框架： 1. 从多驾驶员、多条件下收集的个性化驾驶数据集中学习用户嵌入(user embedding) 2. 在规划过程中，策略以该用户嵌入为条件进行决策 3. 自然语言指令提供额外的短期指导 4. 在Bench2Drive基准上进行闭环评估

💡 核心创新

核心创新点包括： 1. **首次将个性化驾驶偏好与自然语言指令相结合**：同时考虑长期驾驶习惯（通过用户嵌入）和实时语言意图指导 2. **统一的VLA框架设计**：将视觉感知、语言理解和动作规划整合到端到端系统中，实现个性化驾驶策略 3. **双重对齐机制**：既与用户的长期驾驶风格对齐，又能适应短期的自然语言指令 4. **从真实驾驶员数据中学习个性化表征**：而非依赖预设的固定驾驶模式

🏆 总体贡献

论文对该领域的整体贡献： 1. **提出首个个性化VLA驾驶框架**：为以人为中心的自动驾驶提供了新的技术路径 2. **证明了个性化作为关键能力的重要性**：用户研究表明系统生成的行为可被识别为对应驾驶员的风格 3. **创建了评估基准和方法**：在Bench2Drive上展示了在风格指令适应方面的改进 4. **开源数据和代码**：促进了该研究方向的进一步发展

《驾驭之道：视觉-语言-动作模型在个性化驾驶中的偏好对齐》
Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

📊 核心分析

《驾驭之道：视觉-语言-动作模型在个性化驾驶中的偏好对齐》 Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

📊 核心分析

《驾驭之道：视觉-语言-动作模型在个性化驾驶中的偏好对齐》
Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving