← 返回论文列表

《驾驭之道:视觉-语言-动作模型在个性化驾驶中的偏好对齐》
Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

作者: Zehao Wang, Huaide Jiang, Shuaiwu Dong 等6人
arXiv: 2603.25740v1
分类: cs.RO, cs.AI, cs.CV, cs.LG, cs.MA
📝 论文摘要
人类驾驶行为具有鲜明的个人特征,既受长期习惯塑造,又受短期意图影响。不同个体在加速、制动、并线、让行与超车等场景中均表现出差异性。然而,现有的端到端自动驾驶系统要么优化通用目标,要么依赖固定驾驶模式,既无法适配个体偏好,也难以解析自然语言意图。为填补这一空白,我们提出"随我驾驶"(DMW)——一个融合视觉-语言-动作的个性化驾驶框架,既能适应用户长期驾驶习惯,又可响应实时指令。DMW通过多驾驶员真实场景数据集学习用户嵌入表征,在规划阶段以此嵌入向量调节策略模型,同时借助自然语言指令提供短期引导。在Bench2Drive基准测试中的闭环评估表明,DMW显著提升了驾驶风格指令适配能力;用户研究证实其生成行为可被识别为对应驾驶员的独特风格,彰显个性化作为人本自动驾驶核心能力的价值。项目数据与代码已开源:https://dmw-cvpr.github.io/。

📊 核心分析

🎯 研究动机
现有端到端自动驾驶系统存在两个主要问题: - 要么优化通用目标,要么依赖固定的驾驶模式 - 缺乏适应个体驾驶偏好或理解自然语言意图的能力 研究背景:人类驾驶行为具有高度个性化特征,由长期习惯塑造并受短期意图影响,不同个体在加速、刹车、并线、让行和超车等行为上存在显著差异。
🔧 核心方法
论文提出了Drive My Way (DMW)框架,这是一个个性化的视觉-语言-动作(Vision-Language-Action, VLA)驾驶框架: 1. 从多驾驶员、多条件下收集的个性化驾驶数据集中学习用户嵌入(user embedding) 2. 在规划过程中,策略以该用户嵌入为条件进行决策 3. 自然语言指令提供额外的短期指导 4. 在Bench2Drive基准上进行闭环评估
💡 核心创新
核心创新点包括: 1. **首次将个性化驾驶偏好与自然语言指令相结合**:同时考虑长期驾驶习惯(通过用户嵌入)和实时语言意图指导 2. **统一的VLA框架设计**:将视觉感知、语言理解和动作规划整合到端到端系统中,实现个性化驾驶策略 3. **双重对齐机制**:既与用户的长期驾驶风格对齐,又能适应短期的自然语言指令 4. **从真实驾驶员数据中学习个性化表征**:而非依赖预设的固定驾驶模式
🏆 总体贡献
论文对该领域的整体贡献: 1. **提出首个个性化VLA驾驶框架**:为以人为中心的自动驾驶提供了新的技术路径 2. **证明了个性化作为关键能力的重要性**:用户研究表明系统生成的行为可被识别为对应驾驶员的风格 3. **创建了评估基准和方法**:在Bench2Drive上展示了在风格指令适应方面的改进 4. **开源数据和代码**:促进了该研究方向的进一步发展